基于动态语义注意力的指代消解方法

doi:10.11925/infotech.2096-3467.2019.1321

基于动态语义注意力的指代消解方法

邓思艺, 乐小虬^,^,

中国科学院文献情报中心北京 100190

中国科学院大学经济与管理学院图书情报与档案管理系北京 100190

Coreference Resolution Based on Dynamic Semantic Attention

Deng Siyi, Le Xiaoqiu^,^,

National Science Library, Chinese Academy of Sciences, Beijing 100190, China

Department of Library, Information and Archives Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190, China

通讯作者: 乐小虬,ORCID: 0000-0002-7114-5544,E-mail:lexq@mail.las.ac.cn。

收稿日期: 2019-11-20 修回日期: 2020-01-6 网络出版日期: 2020-05-25

Received: 2019-11-20 Revised: 2020-01-6 Online: 2020-05-25

摘要

【目的】 针对先行表述复杂、指代词语义不明的问题,探索更有效的指代消解方法。【方法】 采用端到端的框架,使用打分排序法识别指代关系。先对文本段中的连续词序列进行“提及”打分,判断是否为“提及”;然后利用筛选出的候选“提及”对指代关系打分。其中词序列建模采用动态语义注意力机制,引入更匹配当前指代关系的外部词语义,并使用内部注意力编码,突出先行表述中与指代词关联的部分;综合两部分打分排序得到识别结果。【结果】 在基于OntoNotes5.0语料库的CoNLL-2012共享任务英语数据上进行实验,同参数情况下,准确率、召回率、F1值分别比基准模型提高2.02%、0.42%、1.14%。【局限】 外部语义表征的来源语料不够丰富,有待补充。训练语料皆为新闻、脱口秀或者网络日志等通用文本,可考虑加入科技文献语料,构造更为丰富的指代情境,并评估模型在各种指代情境下的表现。【结论】 动态语义注意力模块可在构建词序列表示时注入更有利于当前指代关系识别的语义特征,动态的、有选择性的外部语义注入更有利于指代关系的识别。

关键词： 指代消解 ; 动态语义注意力 ; 打分排序模型 ; 深度学习

Abstract

[Objective] This paper tries to more effectively identify the coreference, aiming to address the issues of ambiguous anaphor meaning and complex antecedent structure.[Methods] We established an end-to-end framework and used score ranking to identify the coreference relationships. Firstly, we calculated scores of all spans to retrieve the “mentions”. Then, we used scores of the candidate mention pairs to determine coreference relationship. We also built span representation with external multiple semantic representations. Finally, we combined scores of the two parts to generate the final list.[Results] We examined our model with the OntoNotes benchmark datasets. The precision, recall and F1 values of our model were 2.02%, 0.42% and 1.14% higher than those of the SOTA model.[Limitations] The training data sets only collected news, talk shows, or weblogs. More sci-tech literature is needed to further improve the model’s performance.[Conclusions] The proposed model could more effectively identify coreferences.

Keywords： Coreference Resolution ; Dynamic Semantic Attention ; Ranking Model ; Deep Learning

PDF (839KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

邓思艺, 乐小虬. 基于动态语义注意力的指代消解方法. 数据分析与知识发现[J], 2020, 4(5): 46-53 doi:10.11925/infotech.2096-3467.2019.1321

Deng Siyi, Le Xiaoqiu. Coreference Resolution Based on Dynamic Semantic Attention. Data Analysis and Knowledge Discovery[J], 2020, 4(5): 46-53 doi:10.11925/infotech.2096-3467.2019.1321

1 引言

指代是自然语言中的常见用法,指代关系通常包含指代部分和先行部分,这两部分统称为“提及”（mention）,它们均是对同一实体的叙述,先行表述在前,较为具体,指代表述在后,仅用简短的代词或名词指代先前所述。指代消解是从文本段中识别出指向同一实体的“提及”,由于涉及到文本理解和篇章构成逻辑,该任务为自然语言处理（Natural Language Processing, NLP）研究的核心组成部分,在其他NLP研究（如机器翻译、对话系统、自动摘要、文本分类、信息提取、文本蕴涵等）中也是不可或缺的一部分^[1,2,3,4]。

指代使得语言简洁的同时,也给NLP带来了挑战。首先,先行表述的复杂性导致其特征提取困难。实体的先行表述在大多数研究中通常被归纳为名词、代词或名词性短语,其特征构建也往往基于名词性短语的特点,但在不少实际情况下,也表现为一句话或有着独立句子结构的文本,示例如下：

[Our approach uses the antecedent distribution from a span-ranking architecture as an attention mechanism to [iteratively reﬁne span representations.]_b]_a [This]_a enables the model to softly consider multiple hops in the predicted clusters. To alleviate the computational cost of [this iterative process]_b, we introduce a coarse-to-fine approach that incorporates a less accurate but more efficient bilinear factor, enabling more aggressive pruning without hurting accuracy.

先行表述的多样性并没有被大多数算法额外考虑,而指代消解任务的常用数据中也未对此种情况有特别标注。此外,指代表述通常是代词或者其他较短名词（名词短语）,其词义宽泛,较难被解释。解决该问题通常需要理解整个上下文,甚至还需参考上下文无法提供的外界背景信息。尽管在同样的上下文中,面对不同先行表述,需要侧重的语义也是不同的,示例如下：

… …

[But UDWT suffers from the lack of directionality.]_a

… …

[But the edges are not preserved.]_b

… …

[Furthermore, the real-valued wavelet transform does not provide any details related to amplitude and local behavior of the function, while the effective of directionality also remains unknown.]_c

[These problems] have been overcome by using a special wavelet transform with shift invariance property and phase information called dual-tree complex wavelet transform (DTCWT).

其中,指代词“These problems”及其所在的句子环境是相同的,但面对不同先行表述（a,b,c）时所需要的语义特征却是不同的,例如,对于a句,“problem”需知道此问题体现在“缺乏”上;对于b句,“problem”需知道此问题体现在“否定含义”上;对于c句,“problem”需知道此问题体现在“未知”上。为此不仅需要根据不同情况具体化“problem”的含义,也需要找到复杂先行表述中的侧重点。

针对以上难点,本文提出动态语义注意力模块,根据当前指代情形从词的外部多重语义中选择更有利于当前指代识别的词义,构建新的“提及”表示。与其他研究不同,本文并非使用固定向量表示词的外部语义信息,而是根据上下文对词的外部语义分配注意力,动态生成词表示。对指代表述,当其为含义不明的名词时,动态引入未包含在自身上下文中的语义特征,具体化指代词词义,使得同一指代表述在面对不同先行表述时能够获取对应的语义表示;对先行表述,当其为结构复杂且重点不明的词序列时,突出先行表述中对指代消解起重要作用的部分。

2 相关研究

指代消解问题由来已久,早期基于规则的方法虽然能在一定表达范围内达到较高准确率,但是人工代价昂贵且召回率低,后来研究者开始采用有监督的机器学习或者深度学习方法解决该问题。将其视为分类、聚类或者打分排序问题处理,取得了较好的效果。随着NLP中深度学习的发展,文本可以表示为包含语义依赖或其他上下文信息的向量,推动了指代消解领域深度学习方法的提出。在此时期,大多数模型的结构可分为单例分类、共指关系分类和共指链推断三个部分,然而这三个阶段均存在复杂的、细粒度的、联合的特性,此种管道法可能会导致级联错误。因此,Lee等^[5]于2017年提出首个端到端的指代消解神经网络模型,不仅简化了模型结构也减少了多管道式模型的错误传递率,该模型尽管依赖于最小的特性,但其性能优于以前的方法,具有重大意义。除了减少级联错误和降低特征工程复杂性,对内外部信息的捕获也是优化指代消解模型的重要部分。

指代关系中指代表述通常为一个代词或者极短的短语,其自身语义较弱,而先行部分的表达又多样,在长文本中先行候选项也较多,因此需要对上下文信息有更深层次的理解,甚至需要引入自身文本外的相关背景信息^[6,7,8,9,10]。

对上下文信息的捕获方式多种多样,最常见的方式是在模型的输入层后拼接一层网络结构,由此得到每个词结合上下文的文本表示。在此之上,针对不同侧重点的信息捕获也有其他方式,例如Subramanian等^[11]通过对抗训练的方式减轻对词典中人名表示的依赖,将词典中的人名替换为未出现过的人名进行对抗训练,使得模型侧重于获取指代词和先行词之外的上下文信息;而Zhang等^[12]在Lee等^[5]的模型上改进了先行词打分,采用Biaffine Attention,在原来的基础上加入对某个“提及”是否有先行词概率的考虑;Peng等^[13]则提出一个新的文本表示以解决该问题,对通过非监督方式获得的信息进行实例化的“谓词模式”,突出上下文中谓词所表现的作用。

引入外部信息的难点在于其泛化性和庞大性,如何从中筛选出所需的有效信息是学界关注的重点。有些研究将人为定义的外部规则纳入其中^[6,8],例如,代词的数量、性别要求等;或者加入特定的知识,如医学^[14]或生物学^[15]的知识,以及世界知识^[16]等,或如Zhang等^[17]针对代词指代,引入有固定知识结构（属性三元组）的代词知识库,在先行词打分时根据所在文本语境加入更有效的知识;还有一些研究从大量外部资源中获得更完整的语义表示,如采用一些预训练语言模型,在其基础上对指代消解任务进行微调^[18]。

深度学习模型用包含上下文语义的向量表示词,隐式地包含各种语义信息,因此无需额外加入人工特征,但是由于指代关系的特殊性,该任务仅仅依靠所在上下文的信息并不足够,往往需要外部已经存在的背景或者信息进行辅助决策。传统方法虽然容易吸收外部信息,但却面临着没有有效的表征学习模型处理复杂信息的难题,而一些深度学习模型虽然能够通过注意力机制和一些大数据集的预训练模型获得上下文语义信息以及通用语义信息,但并不能有效将外部文本中已积累的复杂语义信息整合到自身的语义表征中。另外预训练词向量虽然包含丰富的词义,但过于通用且固定,在不同情境下不能灵活作用;已有的结构化知识库又存在一定局限性使其不够通用,且构造代价大。

因此,本文在Lee等^[5]端到端思路基础上,提出新的模块引入外部语义信息,并与端到端的模型进行效果对比以评估外部语义信息的选择性引入在指代消解任务中的作用。

3 研究方法

3.1 模型架构

参考Lee等^[5]的模型逻辑,采用端到端框架,输入为一段文本,输出为其中有指代关系的“提及”对,将指代消解中的“提及”识别和指代关系判断融合在一个模型中,两部分参数相互影响,共同优化,寻求全局最优解。最终指代关系的识别由两部分打分共同决定：“提及”打分,判断一个连续词序列是否为某实体的“提及”,即先行表述或者指代表述;指代打分,判断一对“提及”是否存在指代关系。模型框架如图1所示。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 基于动态语义注意力的指代消解模型

Fig.1 Coreference Resolution Model Based on Dynamic Semantic Attention

（1）对“提及”打分,提取输入文本中指定长度内的所有连续词序列,对其进行语义建模,加入词序列内部注意力权重,用以描述在“提及”打分时词序列内部各个词的重要性,接着使用前馈网络对词序列表示进行打分。

（2）对指代关系打分,依据“提及”打分排序筛选出一定量词序列,每个词序列与其前置位的词序列两两组成候选“提及”对,并对所有词序列表示重新建模,引入包含多重词含义的外部语义表征,根据其与当前“提及”对的匹配度,对词的多重含义动态分配权重,具体化单词的词义表示,灵活引入外部语义进行指代关系推断,解决指代词含义不明的问题,并重新计算序列内部的注意力权重,突出词序列内部与指代关系关联密切的词,解决先行表述复杂的问题。之后同样使用前馈网络对新的词序列表征进行打分。

（3）最终得分是两部分打分的加和,将最终得分输入Softmax层,判断候选“提及”对是否存在指代关系。

3.2 连续词序列表示和“提及”打分

判断连续词序列是否为实体“提及”表述。模型选取指定长度内所有的连续词序列,并对其进行文本语义建模,包括上下文信息的捕获和词序列内部的自注意力编码。

上下文信息对于区分单词或短语的语义至关重要,特别是对于文本表示学习^[19,20]。使用Bi-LSTM^[21]对上下文信息进行捕获,之后模型对每个序列进行自注意力编码^[22]以突出词序列内部重要部分的语义特征。现输入的一句话为 $[w_{1}, w_{2}, w_{3}, \dots, w_{i}, \dots, w_{L}]$ ,长度为 $L$ ,现获取指定长度内的所有连续词序列, $S = [s_{1}, s_{2}, s_{3}, \dots, s_{i}, \dots, s_{N}]$ , $s_{i} = [w_{i, start}, \dots, w_{i, end}]$ 。

$X_{t}$ 表示每个词的初始输入,由固定的GloVe词向量^[23]、预先训练的ELMo词向量^[24]和Char-Level CNN训练产生的字符特征向量^[25]拼接而成,将其输入Bi-LSTM层得到包含上下文信息的词表示,如公式（1）-公式（3）所示。

（1）

\vec{h_{t}} = LST M^{forward} (\vec{h_{t - 1}}, X_{t})

（2）

\overset{⃖}{h_{t}} = LST M^{backward} (\overset{⃖}{h_{t - 1}}, X_{t})

（3）

h_{t} = [\vec{h_{t}}, \overset{⃖}{h_{t}}]

使用一个前馈神经网络（Feedforward Neural Network,FFNN）对每个 $s_{i}$ 内的词分配自注意力权重,如公式（4）和公式（5）所示。

（4）

w_{i, t} = FFN N_{i, t} (h_{t})

（5） $\overline{w_{i,t}}=\frac{exp(w_{i,t})}{\sum^{end(i)}_{k=start(i)}exp(w_{i,k})}$

最后,拼接 $s_{i}$ 头和尾的非加权表示、 $s_{i}$ 内每个词的加权表示和序列长度等特征 $φ (i)$ ,形成 $s_{i}$ 的最终表示 ${\hat{s}}_{i}$ ,如公式（6）和公式（7）所示。

（6） $w_{i}=\sum^{end(i)}_{k=start(i)}\overline{w_{i,k}}·X_{k}$

（7）

{\hat{s}}_{i} = [h_{start (i)}, h_{end (i)}, w_{i}, φ (i)]

将 ${\hat{s}}_{i}$ 输入FFNN,对 $s_{i}$ 打分,用以衡量序列 $s_{i}$ 是否为“提及”,如公式（8）所示。

（8）

m_{i} = FFN N_{i} ({\hat{s}}_{i})

3.3 动态语义注意力建模和指代打分

采用动态语义注意力模块,对“指代表述”和“先行表述”重新进行文本语义建模,即根据指代的上下文信息动态分配权重给外部的多重语义表征,有选择性地加入更具体化的词含义,构建更有利于该段指代关系识别的词义。随着指代情境不同,外部语义表征获得不同的权重,侧重的语义特征也有所差别,因此该文本建模过程是动态的。在获得词的新表征后,对词序列内部再次进行自注意力编码以获取词序列的新表示。

在正式实验之前,使用大量未标注文本数据构建外部语义表征（见4.1节）,获取每个词汇在不同情境下的词向量表示, $w_{t}$ 存在 $Y$ 个相互区别的语义表示向量 $[k_{t, 1}, k_{t, 2}, k_{t, 3}, \dots, k_{t, i}, \dots, k_{t, Y}]$ 。

对 $s_{i}$ 和在其之前的任一 $s_{j} (1 \leq j \leq i - 1)$ ,使用 $F_{i, j}$ 表示 $s_{i}$ 和 $s_{j}$ 的拼接张量,如公式（9）所示。

（9）

F_{i, j} = [{\hat{s}}_{j}, {\hat{s}}_{i}]

为了计算 $s_{i}$ 和 $s_{j}$ 中各个单词的外部语义注意力权重,使用 $F_{i, j}$ 作为参照。 $k_{t, i}$ 与 $F_{i, j}$ 的相似度矩阵可以表示为公式（10）。

（10）

SIM I_{t, i, j} = U (k_{t, i}, F_{i, j})

通过两个FFNN可得到 $k_{t, i}$ 在 $(s_{i}, s_{j})$ 情境下的注意力权重为 $\bar{e_{t, i, j}}$ ,如公式（11）和公式（12）所示。

（11）

e_{t, i, j} = FFN N_{t, i, j}^{2} (SIM I_{t, i, j})

（12）

\bar{e_{t, i, j}} = \frac{\exp (e_{t, i, j})}{\sum_{k=1}^{Y} \exp (e_{k, i, j})}

在 $(s_{i}, s_{j})$ 情境下, $s_{i}$ 中 $w_{t}$ 的语义表示为 $α_{t, i, j}$ ,如公式（13）所示。

（13）

α_{t, i, j} = \sum_{t=1}^{Y} \bar{e_{t, i, j}} \times k_{i, t}

类似公式（4）和公式（5）所示过程,对每个词分配权重,表示为 $\bar{γ_{t, i, j}}$ ,之所以该过程产生注意力权重是因为前者的权重侧重于是否为“提及”,而这一部分的权重侧重于判断哪个词对指代关系的判别更有利。

最后,加入动态语义注意力的 $s_{i}$ 表示为 ${\hat{τ}}_{i, j}$ ,如公式（14）和公式（15）所示。

（14） $τ_{i,j}=\sum^{end(i)}_{t=start(i)}\overline{γ_{t,i,j}}\times α_{t,i,j}$

（15）

{\hat{τ}}_{i, j} = [{\hat{s}}_{i}, τ_{i, j}]

同样可以得到 $s_{j}$ 的动态语义表示 ${\hat{τ}}_{i, j}$ 。

3.4 最终得分

判断一对词序列之间是否存在指代关系需关注两点：两个词序列是否是实体的“提及”表述;两者之间是否为“先行-指代”关系。因此最终得分由这两部分的打分共同决定。

$s_{i}$ 和 $s_{j}$ 的最终共指关系评分$\overline{F(s_{i},s_{j})}$可以通过公式（16）和公式（17）得到。

（16）

F (s_{i}, s_{j}) = m_{i} + FFN N_{i, j} ([{\hat{τ}}_{i, j}, {\hat{τ}}_{j, i}])

（17） $\overline{F(s_{i},s_{j})}=\frac{exp(F(s_{i},s_{j}))}{\sum^{i-1}_{k=1}exp(F(s_{i},s_{k}))}$

4 实验及结果分析

4.1 实验数据及模型参数

（1）数据和评估方法

使用基于OntoNotes5.0语料库的CoNLL-2012共享任务英语数据^[26]评估模型。数据包含2 802篇训练文档、343篇验证文档和348篇测试文档。

使用准确率、召回率、F1值度量模型效果。使用以下三个标准指标的平均准确率、召回率和F1值作为任务的最终评判得分：MUC^[27],B3^[28]和CEAFφ4^[29]。

（2）外部语义表征构建

选取所有OntoNotes 5.0数据作为外部语义表征的来源语料,外部语义表征记录了语料中每个词在其所有出现情境下的语义特征表示,因此每个词都存在多个语义表征。

由于ELMo^[24]能够较好表现出每个单词结合上下文的词嵌入表示,因此使用该模型得到词的所有语义表示向量,预训练ELMo模型选取体积最小模型^①(①预训练模型及参数来自https://allennlp.org/elmo.)。由于介词和冠词过于通用,所能表示的语义有限,在该任务中出现次数过多且无太大意义,因此在构建中去除这类词。为了后续计算方便且降低数据冗余性,采用PCA对每个单词的所有语义表示进行特征降维,最终统一外部语义表征的形式：每个单词的语义表征数量为8,列表中的每个语义表征均为256维的向量。

（3）模型参数

为了公平评估,使用同样的参数训练Lee等的基准模型^[5]与本文模型,以下为模型涉及的所有参数：

①词向量：词的原始输入采用使用300维的GloVe固定词嵌入^[23]、8维的由CNN训练得到的字符向量^[25]和ELMo^[24]的语言模型嵌入表示拼接而成。

②计算限制：训练中,每个训练批次为1篇文档,用于训练的最大句子数不超过50句;序列修剪率为0.4,即“提及”打分后选取排名前40%的词序列进入后续模型;每个“提及”的候选先行词数不超过50个。

③模型超参数：所有连续词序列不超过30个单词;字符级CNNs的窗口大小为{3,4,5},使用8维向量和150个内核处理每个窗口大小;LSTMs的隐藏层大小为200;每个FFNN有两个隐藏层,其中包含150个单元并使用ReLU^[30]激活函数;词和字符的嵌入表示使用0.5的dropout,所有隐藏层和特征嵌入使用0.2的dropout;使用ADAM优化算法^[31]进行训练。

④额外特征向量：考虑表述主语、文本类型、先行表示和指代表示之间的距离、序列长度等特征作为20维的特征向量。

4.2 实验结果

（1）模型效果

表1展示了本模型与Lee等模型^[5]在准确率、召回率和F1值的对比结果。准确率提高2.02%,召回率提高0.42%,F1值提高1.14%。总的来说,本模型在各方面都优于基准系统。具体来说,性能提高主要来自于准确率得分,这表明在共指关系打分排序阶段的外部语义引入确实带来了更高的准确率,而动态语义注意力机制有效抓住了对该任务更有利的语义特征。

表1 模型性能对比

Table 1 Models Performance

模型	平均准确率（%）	平均召回率（%）	平均F1值（%）
E2E模型^[5]	72.58	65.12	68.64
本文模型	74.60	65.54	69.78
Δ	+2.02	+0.42	+1.14

新窗口打开| 下载CSV

（2）结果分析

“提及”打分阶段识别了所有可能的先行表述和指代表述,此阶段决定了模型的召回率,本模型在“提及”打分时的结构与Lee等模型^[5]类似,因此召回率提升不多。

两个模型在准确率上相差较多,差异主要来源于以下处理：

①根据“先行表述-指代表述”,对表述中每个单词的外部语义表征生成注意力权重矩阵,将更合适的语义信息注入词序列表示,由于指代词词义的模糊,因此该操作主要作用于指代词的表示构建;

②自动学习词序列的内部注意力权重,将经过外部语义注入的词向量有侧重地分配给词序列表示,由于先行表述较长且较为复杂,因此该操作主要作用于先行表述的表示构建。

结果表明,以上两种处理能够有效提高模型准确率,而外部语义的选择性注入对指代消解任务也是有益的。

5 结语

针对NLP中的指代消解问题,本文提出动态语义注意力模型构造新的词序列表示,通过量化外部语义和当前指代情境的相关度,给词序列选择性地注入所需要的外部语义信息。重构指代表述和先行表述的语义表示,具体化指代表述的含义并且找到先行表述中的侧重点。模型所需的外部语义表征构造过程简单,无需人工参与。实验结果表明,该模型能够较为准确地识别出一段文本内的指代关系,识别效果高于基准模型^[5]。

由于现有实验数据仅为新闻、网络日志或者脱口秀等通用文本,指代场景不够丰富,缺乏模型在各类指代情境下的效果对比,未来研究拟加入科技文献数据,并且保证一定量先行表述为句子结构的标注数据,对比外部语义的动态注入对各类指代场景的适用情况。

作者贡献声明

邓思艺：设计并实施技术方案和技术路线,采集、清洗数据,实验分析和验证,论文起草及最终版本修订;

乐小虬:提出研究方向和主要研究思路,修改研究方案,论文修改。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail: lexq@mail.las.ac.cn。

[1] 邓思艺, 乐小虬. Predict_result_100.jsonlines. 100篇文章指代关系识别实验结果.

[2] 邓思艺, 乐小虬. Train_sample_100.jsonlines. 100篇CoNLL格式的标注文章.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Steinberger

, Poesio

, Kabadjov M

, et al.

Two Uses of Anaphora Resolution in Summarization

[J]. Information Processing and Management, 2007,43(6):1663-1680.

检索词推荐：