数据分析与知识发现, 2020, 4(6): 43-50 doi: 10.11925/infotech.2096-3467.2019.1320

研究论文

对比关系句子生成方法研究

焦启航, 乐小虬,,

中国科学院文献情报中心 北京 100190

中国科学院大学经济与管理学院图书情报与档案管理系 北京 100190

Generating Sentences of Contrast Relationship

Jiao Qihang, Le Xiaoqiu,,

National Science Library, Chinese Academy of Sciences, Beijing 100190, China

Department of Library, Information and Archives Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190, China

通讯作者: 乐小虬, ORCID: 0000-0002-7114-5544, E-mail:lexq@mail.las.ac.cn

收稿日期: 2019-12-10   网络出版日期: 2020-06-25

Received: 2019-12-10   Online: 2020-06-25

摘要

【目的】 生成两段文本之间具有对比关系的句子,为自动生成对比关系段落文本提供基础模型。【方法】 将对比关系句子生成任务看作是由两段文本组成的文本序列到两者之间对比关系文本序列的自动生成,设计一个基于Seq2Seq的深度学习模型,在字符向量的基础上融入对比特征对输入文本进行表示,Encoder层和Decoder都采用BiLSTM结构,同时在模型中引入Attention机制。【结果】 在人工标注的查新单及科技论文数据集上展开实验,采用BLEU作为生成效果评价指标,最后评价得分为12.1,比直接使用BiLSTM+Attention的基准模型得分高6.5。【局限】 由于人工标注对比关系句子的复杂性,实验所用的数据量有限。【结论】 该模型能够生成一定程度上可读并且具有对比关系的句子,可以作为对比关系段落文本生成的基础模型。

关键词: 对比关系 ; 文本生成 ; 文本表征 ; 深度学习

Abstract

[Objective] This paper tries to generate contrastive sentences from two related paragraphs, aiming to establish a new model for creating contrastive paragraphs. [Methods] We generated contrastive sentences automatically from contrastive text sequences. We designed a deep learning model based on Seq2seq, which incorporated contrast features with character vectors to represent texts. Both the Encoder and Decoder layers of our model used BiLSTM structure, which also included attention mechanism. [Results] We examined the proposed model with manually annotated search lists and scientific papers. Then, we adopted BLEU as evaluation index for the results. The final evaluation score was 12.1, which was 6.5 higher than those of the benchmark model using BiLSTM + Attention. [Limitations] Due to the complexity of manually labeling, the data size in our experiments was small. [Conclusions] The proposed model could be used to build new model for generating contrastive paragraphs.

Keywords: Contrast Relationship ; Text Generation ; Text Representation ; Deep Learning

PDF (770KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

焦启航, 乐小虬. 对比关系句子生成方法研究. 数据分析与知识发现[J], 2020, 4(6): 43-50 doi:10.11925/infotech.2096-3467.2019.1320

Jiao Qihang. Generating Sentences of Contrast Relationship. Data Analysis and Knowledge Discovery[J], 2020, 4(6): 43-50 doi:10.11925/infotech.2096-3467.2019.1320

1 引言

对比关系是自然语言基本逻辑之一,在科技查新、科技论文及专利中存在大量对比关系文本。这类文本往往是关于当前查新单、论文或专利的研究内容与其相关文献研究内容之间的比较,用来描述当前研究与其相关研究的区别。在科技查新中,查新员需要对查新文本与检出相关文献(科技论文或专利)进行对比,以此判断当前查新内容是否具有新颖性;在科技论文及专利中,研究人员需要对目标研究内容与其相关研究内容进行对比,确定当前研究是否有创新性及价值。由此可见,目前关于对比关系文本的生成需要大量人工参与,通过阅读与当前研究相关的所有文献集,一一对比、总结、归纳两者之间的区别,找出明确的对比点,并采用某种模式生成对比关系文本。

对比关系文本往往由对比关系句子组成,如果能够通过机器自动生成对比关系句子,一方面可以避免人工逐一比较和写作的繁琐过程;另一方面补充了文本生成方面的相关理论。

目前,对比关系的研究大多集中在语言学领域以及对比句识别方面,很少涉及对比关系句子的生成。然而,在自然语言生成领域已有关于文本生成的大量研究,包括文本到文本的生成、数据到文本的生成以及图表到文本的生成等[1]。但关于文本生成的技术主要关注生成句子的语义连贯特征,如句式、上下文信息等,并没有针对某个特定关系进行生成研究,尤其是关于对比关系文本生成。

针对上述问题,本文设计一种面向对比关系文本的深度生成模型,目的是通过对输入文本的学习,生成具有对比关系的句子。该模型以两段相关文本组成的文本对作为输入,输出为具有对比关系的句子。模型采用Seq2Seq框架,在字符向量的基础上融合对比特征构建文本输入向量,Encoder层和Decoder层都采用BiLSTM作为特征提取器,同时在Decoder层加入Attention机制,以此生成关于两段文本间具有对比关系的文本序列。

2 对比关系文本特征

在本文的研究范围内,对比关系句子指通过对比一个文本对(目标文本和其相关文本)得到的反映两者之间差异的文本内容。对比关系文本在科技论文和科技查新中有大量实例,例如科技论文的相关研究部分和科技查新中的查新结论,如表1所示。

表1   对比关系文本示例

Table 1  Examples of Contrast Relationship Text

科技论文中对比关系文本示例查新单中对比关系文本示例
对于不同段落间篇章级并列关系的识别研究目前还较少。Zhao等在新闻推荐研究中采用序列标注方法,考虑句子出现在新闻文本中的位置信息,对新闻文本有并列关系但并不相似的语句进行识别,但所识别的句群分布在两篇论文中,尚未发现针对一篇文章内句群间并列关系的文本识别相关研究。从检出文献看,在国内已有关于转运呼吸机的报道。常久利报道了一种新生儿专用急救综合治疗车,涉及呼吸机、暖箱的应用,呼吸机、暖箱采用蓄电池供电,与该查新项目采用车载电源并进行逆变匹配和响应略有不同,也未提及电源逆变的具体技术;南通市第一人民医院报道了…

新窗口打开| 下载CSV


对比关系文本包含大量对比关系的句子,通过分析对比关系文本内容,发现对比关系句子对原始文本中以下特征更为关注:

(1)数值特征:在生成句子中,通常有关于双方效果或时间等数值方面的对比,这可能涉及数值方面的特征。例如“上述项目预计达到年产高纯氧化钪约2 500 kg,年产量小于该项目”。

(2)关键词特征:生成句子通常会对比双方之间的研究方法或内容等方面,而原始文本的关键词从某种角度来说,表明了当前研究的侧重点,即当前研究与其他研究可能存在对比关系的相关内容,因此选取关键词作为对比特征之一。以某个查新单为例:“新生儿呼吸机专用转运设备的研发。该查新项目通过电源逆变技术实现新生儿温箱和呼吸机功率匹配和响应,应用于新生儿呼吸转运系统”,其中“电源逆变”是上述文本的关键词,同时也代表了上述文本与其他研究的对比内容。在查新领域,通过TextRank[2]方法能够较好地提取出有关查新文本的对比关键词,本研究在此基础上进行对比关系句子的生成。

3 相关研究

语义的对比关系是最常见的语义关系[3],目前有关对比关系的研究主要集中在语言学领域和比较句研究领域,尚未发现关于对比关系文本生成的研究。

在语言学领域中,通常采用人工归纳的方式,分析自然语言中对比的语义[4]和典型的对比句式等,并且对自然语言表达对比关系时所使用的语法规则、对比连词进行分析[5]

在比较句研究领域,针对英文语料,Jindal等[6]用支持向量机SVM和类别序列规则CSR对比较句进行识别。在此基础上,黄小江等[7]设计了一个基于类序列规则的SVM分类器识别汉语比较句。由于比较句在句式上具有一定的规则,白林楠等[8]在对比较句进行分类和分布研究的基础上,以规则的方式进行比较句句法分析和自动识别。吴晨等[9]通过句式分析识别用户评价中的比较句。但是,人工设计的规则难以覆盖所有的比较句,且对于大规模数据的泛化效果达不到实际的应用需求。所以有研究通过深度学习的方式对中文比较关系进行识别[10]

由上述研究可知,比较句识别及比较关系抽取是目前关于对比关系相关研究的重点,尚未涉及本文所关注的对比关系文本的生成。

本质上,对比关系句子生成属于自然语言生成研究领域。虽然关于对比关系句子生成的研究并不多见,但文本生成相关领域的许多技术对其实现有借鉴意义。从技术上看,文本生成可以大致分为基于规则、基于机器学习以及基于深度学习三种方式。

(1)基于规则的方式。在文本摘要任务中,可以通过使用规则判断句子的位置[11]或者线索词[12]找出文本中的重要句子,并将其按照顺序组织成摘要。另外,Gkatzia等[13]提出两种基于规则的方法实现天气预报的自动生成。但人工总结制定规则的方式不仅费时费力,而且应用场景有限。

(2)基于机器学习的方式。在统计机器翻译领域,Lopez[14]发表了一篇具有代表性的研究,提出在之前基于单词的翻译的基础上,增加类似n-gram的机制,将原句分割为若干个短语,对短语进行翻译和重新排列,翻译效果较之前有很大提升。

(3)基于深度学习的方式。Sutskever等[15]提出Seq2Seq模型,将机器翻译看作是一个文本序列直接到另外一个文本序列的生成任务,利用多层长短期记忆网络(LSTM)进行编码解码,得到较好的生成效果。除机器翻译领域外,Seq2Seq模型在自动摘要[16]、故事生成[17]及表格到文本[18]的生成等任务上也有很好的表现。同时,在Seq2Seq模型的基础上加入注意力(Attention)机制会带来效果的提升[16,19]。除了Seq2Seq模型,生成式对抗网络(Generative Adversarial Networks,GAN)在文本生成方面也有着不错的表现[20]

基于深度学习的技术通常不依赖于特定的规则或模板,而是依据从大量训练语料中学习到的语言能力进行文本生成,根据输入内容直接生成目标文本。鉴于此,本文借鉴深度学习相关技术实现对比关系句子的生成。

4 研究方法

4.1 对比关系句子生成模型

对比关系句子生成与自动摘要等生成任务类似,可以看作是一个文本序列生成另外一个文本序列。对于文本摘要来说,输入是一篇或多篇文章的文本,输出是一句话或者几句话组成的摘要文本。而对于对比关系句子生成来说,输入是由经过处理的两段文本组成的文本对,输出则是两者之间具有对比关系的句子。

传统RNN结构只能处理输入序列和输出序列等长的情况,而RNN的变体Seq2Seq结构具有输入和输出长度不一致的特性,所以该框架适用于更多的文本生成任务。因此,本文选取Seq2Seq作为生成模型基础框架,Encoder层和Decoder层都以双向循环神经网络模型BiLSTM为基础,Encoder通过学习输入序列,将其编码成一个固定大小的状态向量c,继而将c传给Decoder,Decoder再通过对状态向量c的学习完成输出。同时,在Decoder层加入Attention机制,模拟人类大脑注意力行为,关注源文本中的对比信息,以此约束对比关系句子的生成。

依据具体应用目标和数据特点,利用Seq2Seq进行文本生成的研究会重点关注两方面:一是输入文本的向量表示;二是Encoder层和Decoder层不同的特征提取器。与其他利用Seq2Seq模型进行文本生成的任务相比,本模型的不同点在于:引入数值特征和关键词特征作为对比特征融入输入向量。

整个模型由文本表示层、编码层、解码层构成,模型框架如图1所示。

图1

图1   生成模型框架

Fig.1   Generation Model Framework


4.2 融合对比特征的文本表征

模型的输入文本是由一个文本和其对应的相关文本组成的文本序列,对输入文本进行不同类型、多个层级的特征向量组合,利用字向量和对比向量通过Concat拼接的方式对输入文本进行特征表示,将输入文本表示成一个多维向量矩阵。

通过预训练字向量构建输入文本字符级别语义特征。词向量常用来表示词的语义特征,然而输入文本中可能包含很多领域专业词汇,这些专业词汇并没有被词向量收录,并且专业词汇分词也是一大难题,所以本研究并没有采用词向量,而是采用预训练好的字向量避免上述问题,并且增强了模型的鲁棒性。模型中使用的字向量为Al-Rfou等[21]利用Word Embedding预训练的64维字符向量。

对比特征指输入文本中目标文本和其相关文本之间具有对比关系的内容特征。对比关系句子和普通句子不同,包含很明显的对比特征。本文选取关键词和数值特征作为对比特征,分别利用一维向量构建。

目标文本的关键词在某种程度上体现了输入文本中目标文本和其相关文本之间对比的内容。利用TextRank[2]方法可以较好地获取输入文本中目标文本的关键词。选取组成这些内容的字符作为Token,对这些内容进行One-Hot编码表示,Token位置置为1,其余位置置为0。例如,输入文本“该查新项目通过电源逆变技术实现新生儿温箱和呼吸机功率匹配和响应”中“电源逆变”是提取到的关键词,则将文本表示为向量[0,0,0,0,0,0,0,1,1,1,1,0,…],除了组成对比关键词的字符位置为1以外,其他位置都为0,以此形成一维向量作为文本关键词对比特征向量。

通过规则的方式可以获取输入文本中的数值信息作为对比特征。同样采取One-Hot编码,利用数值字符作为Token,Token位置置为1,其余位置置为0。例如,输入文本“本文预计达到年产高纯氧化钪约2500kg”表示为向量[0,0,…,0,0,1,0,0],除了数值所在位置为1以外,其他位置都为0,以此形成一维向量作为文本数值对比特征向量。

将上述输入文本的三个层级特征进行向量拼合,形成输入文本整体的特征向量表示,作为Encoder层的输入。

4.3 Encoder层

Encoder层将整个输入序列编码成一个中间向量,该向量包含原始输入文本序列的全部特征。

Encoder层可以选取不同的模型作为特征提取器。相对于传统RNN,LSTM通过门机制,能够保留距离当前单元更远时刻前的记忆,解决了RNN存在的长期依赖问题。另外,由于预测可能需要由前面若干输入和后面若干输入共同决定,因此出现了BiLSTM。该网络结合Forward层和Backward层输出的结果作为最终输出,可以更好地捕捉双向的语义依赖,保留充足的上下文信息。

基于上述考虑,本文Encoder层使用BiLSTM,输入的是一个预训练字嵌入向量和对比向量连接而成的向量序列,表示为[x1,x2,x3,…,xn]。

4.4 Attention机制

引入Attention机制对文本全局特征做重要度计算,获取文本中重要的局部特征。深度学习中的注意力机制在本质上和人类观察事物的视觉注意力机制类似,即从视觉所观察范围内的众多信息中选择核心观察点,然后对需要重点关注的目标区域投入更多的注意力,即更多地关注当前任务中最重要的一部分信息。

例如在生成句子“上述研究报道了一种重症监护救护车,未涉及在新生儿转运中的电源逆变匹配和响应的技术”中,后半句与输入文本中的目标文本内容“该查新项目通过电源逆变技术实现新生儿温箱和呼吸机功率匹配和响应,应用于新生儿呼吸转运系统”关系更为密切,而前半句更多关注的是其中相关文本的内容“一种全隔离多功能重症监护型救护车,它将传统救护车的驾驶舱及救护车两舱格局……”。因为输入文本的不同部分内容对生成句子影响程度不一样,所以可以为它们分配不同的权重。

注意力机制最后输出的状态为ci,计算方式如公式(1)所示。

ci=j=1Txaijhj

其中,ci与普通的Encoder-Decoder模型中的编码向量c一样,是编码器中隐状态的加权和,作为Decoder中每个时间步的输入。aij是目标文本中的词与原始输入文本中的词对齐的概率,表示输入序列中每个词的权重。aij越大,说明i位置的输入对于j位置的输出越重要,计算方式如公式(2)所示。

aij=exp(eij)k=1Txexp(eik)

其中,eij是能量函数,计算方式如公式(3)所示。

eij=φ(h'i-1,hj)=VTtanh(Wh'i-1+Uhj)

φ可以看作是关于 h'i-1hj的对齐模型,其中hj是输入文本每个时间步的输出向量, h'i-1是Decoder过程中每个时间步的状态,将两者求和计算j位置输入与i位置输出的匹配程度。本文采用BiLSTM网络对φ建模,与整个Encoder-Decoder模型一起训练。

4.5 Decoder层

Decoder层采用和Encoder层相同的结构,同时加入Attention机制。模型中Decoder层的工作流程如下:将融合字向量和对比向量表示的联合向量序列输入BiLSTM网络提取全局特征;通过Attention机制给全局特征中不同的特征向量赋予不同的权重,以提取局部特征;通过Softmax层生成包括全局特征和局部特征的联合特征向量序列。

5 实验及结果分析

5.1 实验数据及模型参数

实验数据来源主要包含两部分:大部分是已有的人工处理好的查新单,可以从中提取出查新文本和检出文献之间具有对比关系的句子作为训练文本;另外一部分是中文开放获取期刊数据。期刊数据中,部分论文的相关研究中会把其他学者的研究与当前研究的内容进行对比,从中提取具有对比关系的句子作为训练文本。

通过上述两种方式获取原始数据后,人工对其进行处理及标注,得到实验样本。已标注完成1 000个训练样本,其中900个作为训练集,100个作为测试集。

Seq2Seq模型采用TensorFlow框架进行搭建,Encoder层结构为两层前向LSTM和两层后向LSTM,Decoder层结构同样包含两层前向LSTM和两层后向LSTM,另外还包含一个Attention层,激活函数为Softmax。考虑到输入过长的文本会导致模型训练时间过长以及性能下降,综合考虑所有训练样本的输入文本长度,设定输入文本的截断长度为600,同时设定输出文本的截断长度为200。完整的模型参数如表2所示。

表2   模型参数

Table 2  Model Parameters

参数取值
Batch Size16
字向量维度64
学习率10-3
隐藏层单元个数1 024
输入文本截断600
输出文本截断200

新窗口打开| 下载CSV


5.2 实验环境配置

实验环境软硬件配置如表3所示。

表3   环境配置

Table 3  Environment Configuration

项目配置
GPUTeslaP100
操作系统Ubuntu18.04
内存12GB
显存16GB
Python版本Python3.6.9
TensorFlow版本Tensorflow1.15.0

新窗口打开| 下载CSV


5.3 评价指标

BLEU[22]评估算法是文本自动生成领域普遍采用的一种评估方法,本文采用BLEU作为对比关系句子生成效果的评价指标。BLEU的计算如公式(4)所示。

BLEU=BPexpn=1Nωnlogpn

其中, expn=1Nωnlogpn表示不同n-gram的精度的对数加权和,BP的计算如公式(5)所示。

BP=1c>re(1-r/c)cr

其中,c代表candidate模型生成的文本长度,r表示reference标注文本的长度。

5.4 实验结果与分析

使用LSTM、Bi-LSTM作为编解码器的特征提取器展开实验对比,结果如表4所示。

表4   不同的模型实验结果

Table 4  Model Experiment Results

方法BLEU
LSTM2.6
BiLSTM2.9
BiLSTM+Attention5.6
本文方法(BiLSTM+Attention+对比特征)12.1

新窗口打开| 下载CSV


从实验结果可以看出,单独使用LSTM和单独使用BiLSTM的结果差别不大,效果都不理想。这可能原因来自两方面:一是单独训练LSTM和BiLSTM需要更大的样本量,而目前实验的标注文本数据量较少;二是训练文本中输入序列大多属于长文本,编码器将长文本表示成的中间向量无法完全包含输入文本的特征。在引入Attention机制后,模型的效果有了提升,表明Attention机制在特征提取方面起到一定的作用,能够在生成文本的过程中有倾向性地选择对当前时刻更为重要的内容。在加入对比特征之后,生成效果有明显的提升,原因可能主要是加入对比特征后,在少量数据的情况下,Attention机制能够更好地从输入文本中提取到生成文本所需的对比内容。

基准模型(BiLSTM+Attention)和本文方法(BiLSTM+Attention+对比特征)在某个真实查新单中生成的对比关系句子实例,如表5所示。

表5   真实查新单中对比关系句子生成实例

Table 5  Senentce Generation Example of Contrast Relationship in Search List

查新文本+相关文本基准模型(BiLSTM+Attention)生成文本本文方法生成文本人工生成文本
新生儿呼吸机专用转运设备的研发。通过电源逆变技术实现新生儿温箱和呼吸机功率匹配和响应,应用于新生儿呼吸转运系统。
+
一种新生儿专用急救综合治疗车。本实用新型涉及一种医疗器械,特别涉及一种新生儿专用急救综合治疗车,包括车体,其特征在于:所述车体包括四个支撑杆、支撑台面和底层托板,支撑台面上安装有监护仪、新生儿呼吸机、新生儿操作台、新生儿暖箱和输液架,底层托板设置有抽屉和储物柜,底层托板上安装有蓄电池、垃圾桶。
上述研究了用于呼吸机呼吸机的危护治装的危术,未涉及新生儿转运物的电变配和的,响应的技术。上述文献报了了一新生儿专急救综综治疗车,涉及呼吸机、暖箱的合用,呼吸机、研究蓄电池供电,未提提电源逆变进行技术。上述研究报道了一种新生儿专用急救综合治疗车,涉及呼吸机、暖箱的应用,呼吸机、暖箱采用蓄电池供电,与该查新项目采用车载电源并进行逆变匹配和响应略有不同,也未提及电源逆变的具体技术。

新窗口打开| 下载CSV


从上述实例可以看出,目前模型生成的对比关系句子效果大体上可以接受,相比于之前使用规则的方式提取某种类型的句子来说,句式会更灵活一些,这也为具有对比关系段落文本的自动生成带来了可能。但目前结果仍有句子不连贯、不通顺以及对比内容不完整等问题,原因可能主要是训练数据量的限制,未来可以增大标注样本数量以提升模型效果。

通过以上研究及分析,可得出以下结论:

(1)在自然语言生成领域,已有很多关于文本生成的研究,但是未涉及特定关系的文本生成,尤其是对比关系句子的生成。

(2)在科技查新领域对比关系句子生成的任务中,本文融合文本对比特征的方法对于模型效果有很大提升。

(3)在实验中由于训练样本的不易标注,训练样本标注量有限,导致模型生成效果不够理想。后续应从标注数据量和模型这两方面进行改进。

6 结语

本文将对比关系句子生成的任务看作由两段文本组成的文本序列到两者之间对比关系文本序列的生成,构建以Seq2Seq为框架的深度文本生成模型,文本表示层同时结合字符语义特征和对比特征,Encoder层和Decoder层都采用BiLSTM作为特征提取器,同时在Decoder层加入Attention机制。初步实验证明,在科技查新中,该方法生成的对比关系句子大致能够表达出查新文本和候选文本之间的对比内容,生成效果明显高于对比基准模型,可以作为对比关系段落文本生成的基础模型。

训练样本的不易获取导致训练数据量较少,生成的文本会出现不通顺、不连贯的情况,并且有可能获取不到文本间的对比内容。后续研究将从两个方面提升生成模型的效果:一是增大标注样本量,二是预训练字向量可以尝试替换成效果比较好的其他预训练语言模型,例如ELMO和GPT等。

作者贡献声明

焦启航:设计并实施技术方案和技术路线,采集、清洗数据,实验分析和验证,论文起草及最终版本修订;

乐小虬:提出研究方向和主要研究思路,优化研究方案及技术路线的设计,论文修改。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据:

支撑数据由作者自存储,E-mail:lexq@mail.las.ac.cn。

[1] 焦启航, 乐小虬. generation_labeldata.txt. 人工标注的训练样本.

[2] 焦启航, 乐小虬. generation_result.txt. 对比关系句子生成结果.

参考文献

万小军, 冯岩松, 孙薇薇.

文本自动生成研究进展与趋势

[R]. 北京:北京大学, 2016: 1-2.

[本文引用: 1]

( Wan Xiaojun, Feng Yansong, Sun Weiwei.

Research Progress and Trend of Automatic Text Generation

[R]. Beijing: Peking University, 2016: 1-2.)

[本文引用: 1]

Mihalcea R, Tarau P.

TextRank: Bringing Order into Text

[C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. 2004: 404-411.

[本文引用: 2]

林汝昌, 李曼珏.

语义的对比关系和对立关系

[J]. 外语教学与研究, 1987(2):15-21.

[本文引用: 1]

( Lin Ruchang, Li Manjue.

On Semantic Opposites and Contrasts[

[J]. Foreign Language Teaching and Research, 1987(2):15-21.)

[本文引用: 1]

车竞.

现代汉语比较句论略

[J]. 湖北师范学院学报:哲学社会科学版, 2005,25(3):60-63.

[本文引用: 1]

( Che Jing.

A Brief Analysis of Comparative Sentences in Modern Chinese

[J]. Journal of Hubei Normal University:Philosophy and Social Sciences, 2005,25(3):60-63.)

[本文引用: 1]

魏阳阳.

现代汉语三种平比句型的语义认知机制研究

[J]. 理论月刊, 2017(12):75-80.

[本文引用: 1]

( Wei Yangyang.

A Study on the Semantic Cognitive Mechanism of Three Parable Sentence Patterns in Modern Chinese[

[J]. Theory Monthly, 2017(12):75-80.)

[本文引用: 1]

Jindal N, Liu B.

Identifying Comparative Sentences in Text Documents

[C]//Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2006: 244-251.

[本文引用: 1]

黄小江, 万小军, 杨建武, .

汉语比较句识别研究

[J]. 中文信息学报, 2008,22(5):30-38.

URL     [本文引用: 1]

比较是常见的表达方式,提取事物之间的比较关系是一项新颖而有实用价值的研究。识别自然语言中的比较句,是提取比较关系的一个重要步骤。目前还没有针对汉语比较句的自动识别研究,语言学上比较句的哪些特征能够应用到自动识别上来是一个亟待研究的问题。该文讨论了汉语比较句的范畴、外延和特征,定义了汉语比较句识别的任务,并提出用SVM分类器将汉语句子分为“比较”和“非比较”两类。该文比较了比较句的语言学特征和统计特征,包括特征词、序列模式等在分类中的作用。实验结果表明:基于类序列规则的SVM分类器能够有效地识别汉语比较句,效果优于传统基于词的文本分类。

( Huang Xiaojiang, Wan Xiaojun, Yang Jianwu, et al.

Learning to Identify Chinese Comparative Sentences

[J]. Journal of Chinese Information Processing, 2008,22(5):30-38.)

URL     [本文引用: 1]

比较是常见的表达方式,提取事物之间的比较关系是一项新颖而有实用价值的研究。识别自然语言中的比较句,是提取比较关系的一个重要步骤。目前还没有针对汉语比较句的自动识别研究,语言学上比较句的哪些特征能够应用到自动识别上来是一个亟待研究的问题。该文讨论了汉语比较句的范畴、外延和特征,定义了汉语比较句识别的任务,并提出用SVM分类器将汉语句子分为“比较”和“非比较”两类。该文比较了比较句的语言学特征和统计特征,包括特征词、序列模式等在分类中的作用。实验结果表明:基于类序列规则的SVM分类器能够有效地识别汉语比较句,效果优于传统基于词的文本分类。

白林楠, 胡韧奋, 刘智颖.

基于句法语义规则系统的比较句自动识别

[J]. 北京大学学报(自然科学版), 2015,51(2):275-281.

URL     [本文引用: 1]

针对汉语比较句的自动识别, 提出一种基于句法语义规则的方法。将比较标记和比较结果做为识别比较句的关键因素, 归纳汉语比较句的类别, 书写比较句识别规则, 同时设计4个模型进行分类识别。实验结果表明, 规则系统可以有效地实现汉语比较句的句法分析和自动识别, 为比较关系的抽取打下良好的基础。

( Bai Linnan, Hu Renfen, Liu Zhiying.

Recognition of Comparative Sentences Based on Syntactic and Semantic Rules-System

[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2015,51(2):275-281.)

URL     [本文引用: 1]

针对汉语比较句的自动识别, 提出一种基于句法语义规则的方法。将比较标记和比较结果做为识别比较句的关键因素, 归纳汉语比较句的类别, 书写比较句识别规则, 同时设计4个模型进行分类识别。实验结果表明, 规则系统可以有效地实现汉语比较句的句法分析和自动识别, 为比较关系的抽取打下良好的基础。

吴晨, 韦向峰.

用户评价中比较句的识别和倾向性分析

[J]. 计算机科学, 2016,43(S1):435-439.

[本文引用: 1]

( Wu Chen, Wei Xiangfeng.

Opinion Analysis and Recognition of Comparative Sentences in User Views

[J]. Computer Science, 2016,43(S1):435-439.)

[本文引用: 1]

朱茂然, 王奕磊, 高松, .

中文比较关系的识别: 基于注意力机制的深度学习模型

[J]. 情报学报, 2019,38(6):612-621.

[本文引用: 1]

( Zhu Maoran, Wang Yilei, Gao Song, el at.

A Deep-Learning Model Based on Attention Mechanism for Chinese Comparative Relation Detection

[J]. Journal of the China Society for Scientific and Technical Information, 2019,38(6):612-621.)

[本文引用: 1]

Baxendale P B.

Machine-made Index for Technical Literature—An Experiment

[J]. IBM Journal of Research and Development, 1958,2(4):354-361.

DOI:10.1147/rd.24.0354      URL     [本文引用: 1]

Edmundson H P.

New Methods in Automatic Extracting

[J]. Journal of the ACM, 1969,16(2):264-285.

DOI:10.1145/321510.321519      URL     [本文引用: 1]

Gkatzia D, Lemon O, Rieser V.

Natural Language Generation Enhances Human Decision-making with Uncertain Information

[OL]. arXiv Preprint, arXiv: 1606. 03254.

[本文引用: 1]

Lopez A.

Statistical Machine Translation

[J]. ACM Computing Surveys, 2008,40(3). DOI: 10.1145/1380584.1380586.

[本文引用: 1]

Sutskever I, Vinyals O, Le Q V.

Sequence to Sequence Learning with Neural Networks

[OL]. arXiv Preprint, arXiv: 1409. 3215.

[本文引用: 1]

Shi T, Keneshloo Y, Ramakrishnan N, et al.

Neural Abstractive Text Summarization with Sequence-to-Sequence Models : A Survey

[OL]. arXiv Preprint, arXiv: 1812. 02303.

[本文引用: 2]

Jain P, Agrawal P, Mishra A, et al.

Story Generation from Sequence of Independent Short Descriptions

[OL]. arXiv Preprint, arXiv: 1707. 05501.

[本文引用: 1]

Liu T, Wang K, Sha L, et al.

Table-to-Text Generation by Structure-aware Seq2Seq Learning

[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. 2018.

[本文引用: 1]

Deng Y, Kim Y, Chiu J, et al.

Latent Alignment and Variational Attention

[C]//Advances in Neural Information Processing Systems. 2018: 9712-9724.

[本文引用: 1]

Li J, Monroe W, Shi T, et al.

Adversarial Learning for Neural Dialogue Generation

[OL]. arXiv Preprint, arXiv: 1701. 06547.

[本文引用: 1]

Al-Rfou R, Perozzi B, Skiena S.

Polyglot: Distributed Word Representations for Multilingual NLP

[OL]. arXiv Preprint, arXiv: 1307. 1662.

[本文引用: 1]

Papineni K, Roukos S, Ward T, et al.

BLEU: A Method for Automatic Evaluation of Machine Translation

[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2002: 311-318.

[本文引用: 1]

/