Please wait a minute...
Advanced Search
数据分析与知识发现  2020, Vol. 4 Issue (6): 43-50     https://doi.org/10.11925/infotech.2096-3467.2019.1320
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
对比关系句子生成方法研究
焦启航,乐小虬()
中国科学院文献情报中心 北京 100190
中国科学院大学经济与管理学院图书情报与档案管理系 北京 100190
Generating Sentences of Contrast Relationship
Jiao Qihang,Le Xiaoqiu()
National Science Library, Chinese Academy of Sciences, Beijing 100190, China
Department of Library, Information and Archives Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190, China
全文: PDF (770 KB)   HTML ( 13
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 生成两段文本之间具有对比关系的句子,为自动生成对比关系段落文本提供基础模型。【方法】 将对比关系句子生成任务看作是由两段文本组成的文本序列到两者之间对比关系文本序列的自动生成,设计一个基于Seq2Seq的深度学习模型,在字符向量的基础上融入对比特征对输入文本进行表示,Encoder层和Decoder都采用BiLSTM结构,同时在模型中引入Attention机制。【结果】 在人工标注的查新单及科技论文数据集上展开实验,采用BLEU作为生成效果评价指标,最后评价得分为12.1,比直接使用BiLSTM+Attention的基准模型得分高6.5。【局限】 由于人工标注对比关系句子的复杂性,实验所用的数据量有限。【结论】 该模型能够生成一定程度上可读并且具有对比关系的句子,可以作为对比关系段落文本生成的基础模型。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
焦启航
乐小虬
关键词 对比关系文本生成文本表征深度学习    
Abstract

[Objective] This paper tries to generate contrastive sentences from two related paragraphs, aiming to establish a new model for creating contrastive paragraphs. [Methods] We generated contrastive sentences automatically from contrastive text sequences. We designed a deep learning model based on Seq2seq, which incorporated contrast features with character vectors to represent texts. Both the Encoder and Decoder layers of our model used BiLSTM structure, which also included attention mechanism. [Results] We examined the proposed model with manually annotated search lists and scientific papers. Then, we adopted BLEU as evaluation index for the results. The final evaluation score was 12.1, which was 6.5 higher than those of the benchmark model using BiLSTM + Attention. [Limitations] Due to the complexity of manually labeling, the data size in our experiments was small. [Conclusions] The proposed model could be used to build new model for generating contrastive paragraphs.

Key wordsContrast Relationship    Text Generation    Text Representation    Deep Learning
收稿日期: 2019-12-10      出版日期: 2020-07-07
ZTFLH:  TP391  
通讯作者: 乐小虬     E-mail: lexq@mail.las.ac.cn
引用本文:   
焦启航,乐小虬. 对比关系句子生成方法研究[J]. 数据分析与知识发现, 2020, 4(6): 43-50.
Jiao Qihang,Le Xiaoqiu. Generating Sentences of Contrast Relationship. Data Analysis and Knowledge Discovery, 2020, 4(6): 43-50.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.1320      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2020/V4/I6/43
科技论文中对比关系文本示例 查新单中对比关系文本示例
对于不同段落间篇章级并列关系的识别研究目前还较少。Zhao等在新闻推荐研究中采用序列标注方法,考虑句子出现在新闻文本中的位置信息,对新闻文本有并列关系但并不相似的语句进行识别,但所识别的句群分布在两篇论文中,尚未发现针对一篇文章内句群间并列关系的文本识别相关研究。 从检出文献看,在国内已有关于转运呼吸机的报道。常久利报道了一种新生儿专用急救综合治疗车,涉及呼吸机、暖箱的应用,呼吸机、暖箱采用蓄电池供电,与该查新项目采用车载电源并进行逆变匹配和响应略有不同,也未提及电源逆变的具体技术;南通市第一人民医院报道了…
Table 1  对比关系文本示例
Fig.1  生成模型框架
参数 取值
Batch Size 16
字向量维度 64
学习率 10-3
隐藏层单元个数 1 024
输入文本截断 600
输出文本截断 200
Table 2  模型参数
项目 配置
GPU TeslaP100
操作系统 Ubuntu18.04
内存 12GB
显存 16GB
Python版本 Python3.6.9
TensorFlow版本 Tensorflow1.15.0
Table 3  环境配置
方法 BLEU
LSTM 2.6
BiLSTM 2.9
BiLSTM+Attention 5.6
本文方法(BiLSTM+Attention+对比特征) 12.1
Table 4  不同的模型实验结果
查新文本+相关文本 基准模型(BiLSTM+Attention)生成文本 本文方法生成文本 人工生成文本
新生儿呼吸机专用转运设备的研发。通过电源逆变技术实现新生儿温箱和呼吸机功率匹配和响应,应用于新生儿呼吸转运系统。
+
一种新生儿专用急救综合治疗车。本实用新型涉及一种医疗器械,特别涉及一种新生儿专用急救综合治疗车,包括车体,其特征在于:所述车体包括四个支撑杆、支撑台面和底层托板,支撑台面上安装有监护仪、新生儿呼吸机、新生儿操作台、新生儿暖箱和输液架,底层托板设置有抽屉和储物柜,底层托板上安装有蓄电池、垃圾桶。
上述研究了用于呼吸机呼吸机的危护治装的危术,未涉及新生儿转运物的电变配和的,响应的技术。 上述文献报了了一新生儿专急救综综治疗车,涉及呼吸机、暖箱的合用,呼吸机、研究蓄电池供电,未提提电源逆变进行技术。 上述研究报道了一种新生儿专用急救综合治疗车,涉及呼吸机、暖箱的应用,呼吸机、暖箱采用蓄电池供电,与该查新项目采用车载电源并进行逆变匹配和响应略有不同,也未提及电源逆变的具体技术。
Table 5  真实查新单中对比关系句子生成实例
[1] 万小军, 冯岩松, 孙薇薇. 文本自动生成研究进展与趋势[R]. 北京:北京大学, 2016: 1-2.
[1] ( Wan Xiaojun, Feng Yansong, Sun Weiwei. Research Progress and Trend of Automatic Text Generation[R]. Beijing: Peking University, 2016: 1-2.)
[2] Mihalcea R, Tarau P. TextRank: Bringing Order into Text [C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. 2004: 404-411.
[3] 林汝昌, 李曼珏. 语义的对比关系和对立关系[J]. 外语教学与研究, 1987(2):15-21.
[3] ( Lin Ruchang, Li Manjue. On Semantic Opposites and Contrasts[[J]. Foreign Language Teaching and Research, 1987(2):15-21.)
[4] 车竞. 现代汉语比较句论略[J]. 湖北师范学院学报:哲学社会科学版, 2005,25(3):60-63.
[4] ( Che Jing. A Brief Analysis of Comparative Sentences in Modern Chinese[J]. Journal of Hubei Normal University:Philosophy and Social Sciences, 2005,25(3):60-63.)
[5] 魏阳阳. 现代汉语三种平比句型的语义认知机制研究[J]. 理论月刊, 2017(12):75-80.
[5] ( Wei Yangyang. A Study on the Semantic Cognitive Mechanism of Three Parable Sentence Patterns in Modern Chinese[[J]. Theory Monthly, 2017(12):75-80.)
[6] Jindal N, Liu B. Identifying Comparative Sentences in Text Documents [C]//Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2006: 244-251.
[7] 黄小江, 万小军, 杨建武, 等. 汉语比较句识别研究[J]. 中文信息学报, 2008,22(5):30-38.
[7] ( Huang Xiaojiang, Wan Xiaojun, Yang Jianwu, et al. Learning to Identify Chinese Comparative Sentences[J]. Journal of Chinese Information Processing, 2008,22(5):30-38.)
[8] 白林楠, 胡韧奋, 刘智颖. 基于句法语义规则系统的比较句自动识别[J]. 北京大学学报(自然科学版), 2015,51(2):275-281.
[8] ( Bai Linnan, Hu Renfen, Liu Zhiying. Recognition of Comparative Sentences Based on Syntactic and Semantic Rules-System[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2015,51(2):275-281.)
[9] 吴晨, 韦向峰. 用户评价中比较句的识别和倾向性分析[J]. 计算机科学, 2016,43(S1):435-439.
[9] ( Wu Chen, Wei Xiangfeng. Opinion Analysis and Recognition of Comparative Sentences in User Views[J]. Computer Science, 2016,43(S1):435-439.)
[10] 朱茂然, 王奕磊, 高松, 等. 中文比较关系的识别: 基于注意力机制的深度学习模型[J]. 情报学报, 2019,38(6):612-621.
[10] ( Zhu Maoran, Wang Yilei, Gao Song, el at. A Deep-Learning Model Based on Attention Mechanism for Chinese Comparative Relation Detection[J]. Journal of the China Society for Scientific and Technical Information, 2019,38(6):612-621.)
[11] Baxendale P B. Machine-made Index for Technical Literature—An Experiment[J]. IBM Journal of Research and Development, 1958,2(4):354-361.
doi: 10.1147/rd.24.0354
[12] Edmundson H P. New Methods in Automatic Extracting[J]. Journal of the ACM, 1969,16(2):264-285.
doi: 10.1145/321510.321519
[13] Gkatzia D, Lemon O, Rieser V. Natural Language Generation Enhances Human Decision-making with Uncertain Information[OL]. arXiv Preprint, arXiv: 1606. 03254.
[14] Lopez A. Statistical Machine Translation[J]. ACM Computing Surveys, 2008,40(3). DOI: 10.1145/1380584.1380586.
[15] Sutskever I, Vinyals O, Le Q V. Sequence to Sequence Learning with Neural Networks[OL]. arXiv Preprint, arXiv: 1409. 3215.
[16] Shi T, Keneshloo Y, Ramakrishnan N, et al. Neural Abstractive Text Summarization with Sequence-to-Sequence Models : A Survey [OL]. arXiv Preprint, arXiv: 1812. 02303.
[17] Jain P, Agrawal P, Mishra A, et al. Story Generation from Sequence of Independent Short Descriptions[OL]. arXiv Preprint, arXiv: 1707. 05501.
[18] Liu T, Wang K, Sha L, et al. Table-to-Text Generation by Structure-aware Seq2Seq Learning [C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. 2018.
[19] Deng Y, Kim Y, Chiu J, et al. Latent Alignment and Variational Attention [C]//Advances in Neural Information Processing Systems. 2018: 9712-9724.
[20] Li J, Monroe W, Shi T, et al. Adversarial Learning for Neural Dialogue Generation[OL]. arXiv Preprint, arXiv: 1701. 06547.
[21] Al-Rfou R, Perozzi B, Skiena S. Polyglot: Distributed Word Representations for Multilingual NLP[OL]. arXiv Preprint, arXiv: 1307. 1662.
[22] Papineni K, Roukos S, Ward T, et al. BLEU: A Method for Automatic Evaluation of Machine Translation [C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2002: 311-318.
[1] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[2] 江雅仁, 乐小虬. 一对多实体关系少样本持续学习方法研究[J]. 数据分析与知识发现, 2021, 5(8): 45-53.
[3] 徐月梅, 王子厚, 吴子歆. 一种基于CNN-BiLSTM多特征融合的股票走势预测模型*[J]. 数据分析与知识发现, 2021, 5(7): 126-138.
[4] 张乐, 冷基栋, 吕学强, 崔卓, 王磊, 游新冬. RLCPAR:一种基于强化学习的中文专利摘要改写模型*[J]. 数据分析与知识发现, 2021, 5(7): 59-69.
[5] 赵丹宁,牟冬梅,白森. 基于深度学习的科技文献摘要结构要素自动抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 70-80.
[6] 黄名选,蒋曹清,卢守东. 基于词嵌入与扩展词交集的查询扩展*[J]. 数据分析与知识发现, 2021, 5(6): 115-125.
[7] 钟佳娃,刘巍,王思丽,杨恒. 文本情感分析方法及应用综述*[J]. 数据分析与知识发现, 2021, 5(6): 1-13.
[8] 张国标,李洁. 融合多模态内容语义一致性的社交媒体虚假新闻检测*[J]. 数据分析与知识发现, 2021, 5(5): 21-29.
[9] 宋若璇,钱力,杜宇. 基于科技论文中未来工作句集的学术创新构想话题自动生成方法研究*[J]. 数据分析与知识发现, 2021, 5(5): 10-20.
[10] 马莹雪,甘明鑫,肖克峻. 融合标签和内容信息的矩阵分解推荐方法*[J]. 数据分析与知识发现, 2021, 5(5): 71-82.
[11] 成彬,施水才,都云程,肖诗斌. 基于融合词性的BiLSTM-CRF的期刊关键词抽取方法[J]. 数据分析与知识发现, 2021, 5(3): 101-108.
[12] 常城扬,王晓东,张胜磊. 基于深度学习方法对特定群体推特的动态政治情感极性分析*[J]. 数据分析与知识发现, 2021, 5(3): 121-131.
[13] 冯勇,刘洋,徐红艳,王嵘冰,张永刚. 融合近邻评论的GRU商品推荐模型*[J]. 数据分析与知识发现, 2021, 5(3): 78-87.
[14] 胡昊天,吉晋锋,王东波,邓三鸿. 基于深度学习的食品安全事件实体一体化呈现平台构建*[J]. 数据分析与知识发现, 2021, 5(3): 12-24.
[15] 张琪,江川,纪有书,冯敏萱,李斌,许超,刘浏. 面向多领域先秦典籍的分词词性一体化自动标注模型构建*[J]. 数据分析与知识发现, 2021, 5(3): 2-11.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn