Please wait a minute...
Advanced Search
数据分析与知识发现  2020, Vol. 4 Issue (6): 43-50     https://doi.org/10.11925/infotech.2096-3467.2019.1320
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
对比关系句子生成方法研究
焦启航,乐小虬()
中国科学院文献情报中心 北京 100190
中国科学院大学经济与管理学院图书情报与档案管理系 北京 100190
Generating Sentences of Contrast Relationship
Jiao Qihang,Le Xiaoqiu()
National Science Library, Chinese Academy of Sciences, Beijing 100190, China
Department of Library, Information and Archives Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190, China
全文: PDF (770 KB)   HTML ( 8
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 生成两段文本之间具有对比关系的句子,为自动生成对比关系段落文本提供基础模型。【方法】 将对比关系句子生成任务看作是由两段文本组成的文本序列到两者之间对比关系文本序列的自动生成,设计一个基于Seq2Seq的深度学习模型,在字符向量的基础上融入对比特征对输入文本进行表示,Encoder层和Decoder都采用BiLSTM结构,同时在模型中引入Attention机制。【结果】 在人工标注的查新单及科技论文数据集上展开实验,采用BLEU作为生成效果评价指标,最后评价得分为12.1,比直接使用BiLSTM+Attention的基准模型得分高6.5。【局限】 由于人工标注对比关系句子的复杂性,实验所用的数据量有限。【结论】 该模型能够生成一定程度上可读并且具有对比关系的句子,可以作为对比关系段落文本生成的基础模型。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
焦启航
乐小虬
关键词 对比关系文本生成文本表征深度学习    
Abstract

[Objective] This paper tries to generate contrastive sentences from two related paragraphs, aiming to establish a new model for creating contrastive paragraphs. [Methods] We generated contrastive sentences automatically from contrastive text sequences. We designed a deep learning model based on Seq2seq, which incorporated contrast features with character vectors to represent texts. Both the Encoder and Decoder layers of our model used BiLSTM structure, which also included attention mechanism. [Results] We examined the proposed model with manually annotated search lists and scientific papers. Then, we adopted BLEU as evaluation index for the results. The final evaluation score was 12.1, which was 6.5 higher than those of the benchmark model using BiLSTM + Attention. [Limitations] Due to the complexity of manually labeling, the data size in our experiments was small. [Conclusions] The proposed model could be used to build new model for generating contrastive paragraphs.

Key wordsContrast Relationship    Text Generation    Text Representation    Deep Learning
收稿日期: 2019-12-10      出版日期: 2020-07-07
ZTFLH:  TP391  
通讯作者: 乐小虬     E-mail: lexq@mail.las.ac.cn
引用本文:   
焦启航,乐小虬. 对比关系句子生成方法研究[J]. 数据分析与知识发现, 2020, 4(6): 43-50.
Jiao Qihang,Le Xiaoqiu. Generating Sentences of Contrast Relationship. Data Analysis and Knowledge Discovery, 2020, 4(6): 43-50.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.1320      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2020/V4/I6/43
科技论文中对比关系文本示例 查新单中对比关系文本示例
对于不同段落间篇章级并列关系的识别研究目前还较少。Zhao等在新闻推荐研究中采用序列标注方法,考虑句子出现在新闻文本中的位置信息,对新闻文本有并列关系但并不相似的语句进行识别,但所识别的句群分布在两篇论文中,尚未发现针对一篇文章内句群间并列关系的文本识别相关研究。 从检出文献看,在国内已有关于转运呼吸机的报道。常久利报道了一种新生儿专用急救综合治疗车,涉及呼吸机、暖箱的应用,呼吸机、暖箱采用蓄电池供电,与该查新项目采用车载电源并进行逆变匹配和响应略有不同,也未提及电源逆变的具体技术;南通市第一人民医院报道了…
Table 1  对比关系文本示例
Fig.1  生成模型框架
参数 取值
Batch Size 16
字向量维度 64
学习率 10-3
隐藏层单元个数 1 024
输入文本截断 600
输出文本截断 200
Table 2  模型参数
项目 配置
GPU TeslaP100
操作系统 Ubuntu18.04
内存 12GB
显存 16GB
Python版本 Python3.6.9
TensorFlow版本 Tensorflow1.15.0
Table 3  环境配置
方法 BLEU
LSTM 2.6
BiLSTM 2.9
BiLSTM+Attention 5.6
本文方法(BiLSTM+Attention+对比特征) 12.1
Table 4  不同的模型实验结果
查新文本+相关文本 基准模型(BiLSTM+Attention)生成文本 本文方法生成文本 人工生成文本
新生儿呼吸机专用转运设备的研发。通过电源逆变技术实现新生儿温箱和呼吸机功率匹配和响应,应用于新生儿呼吸转运系统。
+
一种新生儿专用急救综合治疗车。本实用新型涉及一种医疗器械,特别涉及一种新生儿专用急救综合治疗车,包括车体,其特征在于:所述车体包括四个支撑杆、支撑台面和底层托板,支撑台面上安装有监护仪、新生儿呼吸机、新生儿操作台、新生儿暖箱和输液架,底层托板设置有抽屉和储物柜,底层托板上安装有蓄电池、垃圾桶。
上述研究了用于呼吸机呼吸机的危护治装的危术,未涉及新生儿转运物的电变配和的,响应的技术。 上述文献报了了一新生儿专急救综综治疗车,涉及呼吸机、暖箱的合用,呼吸机、研究蓄电池供电,未提提电源逆变进行技术。 上述研究报道了一种新生儿专用急救综合治疗车,涉及呼吸机、暖箱的应用,呼吸机、暖箱采用蓄电池供电,与该查新项目采用车载电源并进行逆变匹配和响应略有不同,也未提及电源逆变的具体技术。
Table 5  真实查新单中对比关系句子生成实例
[1] 万小军, 冯岩松, 孙薇薇. 文本自动生成研究进展与趋势[R]. 北京:北京大学, 2016: 1-2.
[1] ( Wan Xiaojun, Feng Yansong, Sun Weiwei. Research Progress and Trend of Automatic Text Generation[R]. Beijing: Peking University, 2016: 1-2.)
[2] Mihalcea R, Tarau P. TextRank: Bringing Order into Text [C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. 2004: 404-411.
[3] 林汝昌, 李曼珏. 语义的对比关系和对立关系[J]. 外语教学与研究, 1987(2):15-21.
[3] ( Lin Ruchang, Li Manjue. On Semantic Opposites and Contrasts[[J]. Foreign Language Teaching and Research, 1987(2):15-21.)
[4] 车竞. 现代汉语比较句论略[J]. 湖北师范学院学报:哲学社会科学版, 2005,25(3):60-63.
[4] ( Che Jing. A Brief Analysis of Comparative Sentences in Modern Chinese[J]. Journal of Hubei Normal University:Philosophy and Social Sciences, 2005,25(3):60-63.)
[5] 魏阳阳. 现代汉语三种平比句型的语义认知机制研究[J]. 理论月刊, 2017(12):75-80.
[5] ( Wei Yangyang. A Study on the Semantic Cognitive Mechanism of Three Parable Sentence Patterns in Modern Chinese[[J]. Theory Monthly, 2017(12):75-80.)
[6] Jindal N, Liu B. Identifying Comparative Sentences in Text Documents [C]//Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2006: 244-251.
[7] 黄小江, 万小军, 杨建武, 等. 汉语比较句识别研究[J]. 中文信息学报, 2008,22(5):30-38.
[7] ( Huang Xiaojiang, Wan Xiaojun, Yang Jianwu, et al. Learning to Identify Chinese Comparative Sentences[J]. Journal of Chinese Information Processing, 2008,22(5):30-38.)
[8] 白林楠, 胡韧奋, 刘智颖. 基于句法语义规则系统的比较句自动识别[J]. 北京大学学报(自然科学版), 2015,51(2):275-281.
[8] ( Bai Linnan, Hu Renfen, Liu Zhiying. Recognition of Comparative Sentences Based on Syntactic and Semantic Rules-System[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2015,51(2):275-281.)
[9] 吴晨, 韦向峰. 用户评价中比较句的识别和倾向性分析[J]. 计算机科学, 2016,43(S1):435-439.
[9] ( Wu Chen, Wei Xiangfeng. Opinion Analysis and Recognition of Comparative Sentences in User Views[J]. Computer Science, 2016,43(S1):435-439.)
[10] 朱茂然, 王奕磊, 高松, 等. 中文比较关系的识别: 基于注意力机制的深度学习模型[J]. 情报学报, 2019,38(6):612-621.
[10] ( Zhu Maoran, Wang Yilei, Gao Song, el at. A Deep-Learning Model Based on Attention Mechanism for Chinese Comparative Relation Detection[J]. Journal of the China Society for Scientific and Technical Information, 2019,38(6):612-621.)
[11] Baxendale P B. Machine-made Index for Technical Literature—An Experiment[J]. IBM Journal of Research and Development, 1958,2(4):354-361.
doi: 10.1147/rd.24.0354
[12] Edmundson H P. New Methods in Automatic Extracting[J]. Journal of the ACM, 1969,16(2):264-285.
doi: 10.1145/321510.321519
[13] Gkatzia D, Lemon O, Rieser V. Natural Language Generation Enhances Human Decision-making with Uncertain Information[OL]. arXiv Preprint, arXiv: 1606. 03254.
[14] Lopez A. Statistical Machine Translation[J]. ACM Computing Surveys, 2008,40(3). DOI: 10.1145/1380584.1380586.
[15] Sutskever I, Vinyals O, Le Q V. Sequence to Sequence Learning with Neural Networks[OL]. arXiv Preprint, arXiv: 1409. 3215.
[16] Shi T, Keneshloo Y, Ramakrishnan N, et al. Neural Abstractive Text Summarization with Sequence-to-Sequence Models : A Survey [OL]. arXiv Preprint, arXiv: 1812. 02303.
[17] Jain P, Agrawal P, Mishra A, et al. Story Generation from Sequence of Independent Short Descriptions[OL]. arXiv Preprint, arXiv: 1707. 05501.
[18] Liu T, Wang K, Sha L, et al. Table-to-Text Generation by Structure-aware Seq2Seq Learning [C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. 2018.
[19] Deng Y, Kim Y, Chiu J, et al. Latent Alignment and Variational Attention [C]//Advances in Neural Information Processing Systems. 2018: 9712-9724.
[20] Li J, Monroe W, Shi T, et al. Adversarial Learning for Neural Dialogue Generation[OL]. arXiv Preprint, arXiv: 1701. 06547.
[21] Al-Rfou R, Perozzi B, Skiena S. Polyglot: Distributed Word Representations for Multilingual NLP[OL]. arXiv Preprint, arXiv: 1307. 1662.
[22] Papineni K, Roukos S, Ward T, et al. BLEU: A Method for Automatic Evaluation of Machine Translation [C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2002: 311-318.
[1] 王鑫芸,王昊,邓三鸿,张宝隆. 面向期刊选择的学术论文内容分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 96-109.
[2] 王末,崔运鹏,陈丽,李欢. 基于深度学习的学术论文语步结构分类方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 60-68.
[3] 邓思艺,乐小虬. 基于动态语义注意力的指代消解方法[J]. 数据分析与知识发现, 2020, 4(5): 46-53.
[4] 余传明,原赛,朱星宇,林虹君,张普亮,安璐. 基于深度学习的热点事件主题表示研究*[J]. 数据分析与知识发现, 2020, 4(4): 1-14.
[5] 苏传东,黄孝喜,王荣波,谌志群,毛君钰,朱嘉莹,潘宇豪. 基于词嵌入融合和循环神经网络的中英文隐喻识别*[J]. 数据分析与知识发现, 2020, 4(4): 91-99.
[6] 刘彤,倪维健,孙宇健,曾庆田. 基于深度迁移学习的业务流程实例剩余执行时间预测方法*[J]. 数据分析与知识发现, 2020, 4(2/3): 134-142.
[7] 余传明,李浩男,王曼怡,黄婷婷,安璐. 基于深度学习的知识表示研究:网络视角*[J]. 数据分析与知识发现, 2020, 4(1): 63-75.
[8] 张梦吉,杜婉钰,郑楠. 引入新闻短文本的个股走势预测模型[J]. 数据分析与知识发现, 2019, 3(5): 11-18.
[9] 裴晶晶,乐小虬. 篇章级并列关系文本块识别方法研究[J]. 数据分析与知识发现, 2019, 3(5): 51-56.
[10] 张智雄,刘欢,丁良萍,吴朋民,于改红. 不同深度学习模型的科技论文摘要语步识别效果对比研究 *[J]. 数据分析与知识发现, 2019, 3(12): 1-9.
[11] 余丽,钱力,付常雷,赵华茗. 基于深度学习的文本中细粒度知识元抽取方法研究*[J]. 数据分析与知识发现, 2019, 3(1): 38-45.
[12] 付常雷,钱力,张华平,赵华茗,谢靖. 基于深度学习的创新主题智能挖掘算法研究*[J]. 数据分析与知识发现, 2019, 3(1): 46-54.
[13] 余本功,张培行,许庆堂. 基于F-BiGRU情感分析的产品选择方法*[J]. 数据分析与知识发现, 2018, 2(9): 22-30.
[14] 陆伟,罗梦奇,丁恒,李信. 深度学习图像标注与用户标注比较研究*[J]. 数据分析与知识发现, 2018, 2(5): 1-10.
[15] 冯国明,张晓冬,刘素辉. 基于CapsNet的中文文本分类研究*[J]. 数据分析与知识发现, 2018, 2(12): 68-76.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn