Advanced Search

数据分析与知识发现  2018 , 2 (12): 23-32 https://doi.org/10.11925/infotech.2096-3467.2018.0583

研究论文

基于层级交互网络的文本阅读理解与问答方法研究*

程勇1, 徐德宽1, 吕学强2

1鲁东大学文学院 烟台 264025
2北京信息科技大学计算机学院 北京 100192

Comprehending Texts and Answering Questions Based on Hierarchical Interactive Network

Cheng Yong1, Xu Dekuan1, Lv Xueqiang2

1School of Chinese Language and Literature, Ludong University, Yantai 264025, China
2School of Computer Science, Beijing University of Information Technology, Beijing 100192, China

中图分类号:  G353

通讯作者:  通讯作者: 程勇, ORCID: 0000-0001-5096-4076, E-mail: chengokyong@126.com

收稿日期: 2018-05-24

修回日期:  2018-06-14

网络出版日期:  2018-12-25

版权声明:  2018 《数据分析与知识发现》编辑部 《数据分析与知识发现》编辑部

基金资助:  *本文系国家自然科学基金面上项目“中文专利侵权自动检测研究”(项目编号: 61671070)和国家语言文字工作委员会重点项目“汉语智能写作关键技术研究与应用”(项目编号: ZDI135-53)的研究成果之一

展开

摘要

【目的】实现基于文本阅读理解的精确问答。【方法】提出一种基于层级交互机制的神经网络模型。该模型借鉴人类在阅读理解过程中的思维习惯, 将分层处理机制、内容过滤机制、多维注意力机制等人类在阅读时的特性融合到神经网络构建中, 提升机器对文本信息的分析和理解能力。【结果】在中文阅读理解评测CMRC 2017发布的数据上验证本文模型, 测试集上的准确率达到0.78, 性能优于目前的主流模型以及评测比赛上发布的最好成绩。【局限】未对候选答案做进一步优化和排序, 性能距离人类阅读理解水平还有一定差距。【结论】本文构建的层级交互网络显著提升了对文本的自动分析与理解能力, 使机器能够在理解文本内容的基础上回答相关问题。

关键词: 层级交互网络 ; 机器阅读理解 ; 自动问答

Abstract

[Objective] This paper aims to help computer answer questions accurately based on text comprehension. [Methods] First, we proposed a neural network model based on hirrarchical interaction mechanism. We introduced various human thinking mechanism to build this model, which contained hierarchical processing, content filtering and multi-dimensional attention. Then, we ran the proposed model with dataset from Chinese Machine Reading Comprehension (CMRC) 2017. [Results] The precision of the proposed method on test-set was 0.78, which was better than the best result of other published models. [Limitations] There was no further optimization for the potential answers. [Conclusions] The proposed hierarchical interactive network improves machine’s ability to answer questions based on text comprehension.

Keywords: Hirarchical Interactive Network ; Machine Comprehension ; Automatic Question Answering

0

PDF (1865KB) 元数据 多维度评价 相关文章 收藏文章

本文引用格式 导出 EndNote Ris Bibtex

程勇, 徐德宽, 吕学强. 基于层级交互网络的文本阅读理解与问答方法研究*[J]. 数据分析与知识发现, 2018, 2(12): 23-32 https://doi.org/10.11925/infotech.2096-3467.2018.0583

Cheng Yong, Xu Dekuan, Lv Xueqiang. Comprehending Texts and Answering Questions Based on Hierarchical Interactive Network[J]. Data Analysis and Knowledge Discovery, 2018, 2(12): 23-32 https://doi.org/10.11925/infotech.2096-3467.2018.0583

1 引 言

随着互联网的飞速发展, 网络上累积了海量文本信息, 这些信息涉及到社会生活的方方面面, 蕴含着重要的商业和学术价值。如何挖掘和利用这些数据资源成为学术界以及工业界关注的一个重要问题。传统的文本分析研究往往更侧重对大规模数据进行广度或者粗粒度上的分析, 如文本检索、分类、聚类等[1,2,3], 在对文本信息的深入分析与理解层面则有所欠缺。如果计算机能够具备人类对文本深入理解的能力, 将大大提高智能化水平, 从而能够更加有效、智能地利用这些海量信息。比如在文本检索方面, 机器可以在对文本和用户意图充分理解的基础上进行检索, 提升返回结果的质量和精度。而在知识挖掘方面, 对文本信息的充分理解也将使计算机具备更强的推理能力, 可以从文本中挖掘到更深层的知识。总体来说, 提升机器阅读理解的能力能够为后续基于理解的信息检索、信息分析和知识挖掘等技术提供理论基础和技术支撑, 因此有重要的研究意义和价值。

自动问答任务常被用来衡量机器的自动阅读理解能力, 即在给定文本或者相关事实的基础上, 机器能够根据文本中的内容自动回答相关问题。与传统的面向多文档的问答技术不同, 基于阅读理解的问答能够利用的信息只有单文本中包含的信息, 因此更加强调机器的理解和推理能力。传统的方法常采用基于模块化的方式[4], 通过人工设计特征模板从文本中抽取特征表示文章、问题和答案, 构建匹配函数将答案与文章进行匹配, 将匹配度最高的答案作为正确答案。然而特征的主观性以及匹配方式过于简单等问题使传统方法不能很好地解决机器阅读理解问题。随着深度学习技术的兴起, 也有一些工作尝试利用神经网络方法解决机器阅读理解问题。这些方法通过构建端到端神经网络建模整个阅读理解过程, 虽然取得了一定效果, 但仍有以下不足: 从研究对象来看, 现有方法大部分都面向英文开展, 对于中文的阅读理解研究还相对欠缺, 而网络上海量的中文文本信息使得对中文阅读理解的研究变得迫切; 从模型来看, 中文的语言结构比英文更注重意合, 在文章理解中不追求语言形式和结构上的严谨, 而更加注重语义关系和内容推理。现有模型在这方面有所欠缺, 因此需要设计更加复杂、更具有分析与推理能力的模型来处理和理解中文文本 信息。

基于以上不足, 本文提出一种面向中文阅读理解的层级交互神经网络方法, 借鉴人类在中文阅读理解过程中的思维习惯, 将分层处理机制、内容过滤机制与注意力机制等人类阅读特性融合到神经网络构建当中, 从而有效提升机器的综合阅读理解能力, 使机器能够在充分理解文章的基础上回答相应问题。本文的主要贡献如下。

(1) 通过双向循环网络将中文的词表示与字表示相融合, 提升机器对词汇特别是未登录词的理解;

(2) 构建多层交互网络模拟人类的阅读理解过程, 网络中的每一层都对应人类思维中的具体步骤;

(3) 通过引入多注意力融合机制实现对文章内容的过滤, 包含文章到问题的注意力、问题到文章的注意力以及文章内部的自注意力信息, 这些信息能够有效帮助机器得到正确的答案信息。

2 相关研究综述

机器阅读理解的核心思路是在理解文章与问题的前提下通过检索得到正确答案。传统方法通常采用基于特征工程的方式实现上述流程, 其思想是人工设计候选答案的频率信息、答案与问题在文章中的共现信息及距离信息、答案所在句子与问题句的匹配信息等不同特征, 通过构建匹配函数对 (文章, 问题, 候选答案) 三元组打分。虽然基于特征工程的方法在机器阅读理解任务中取得了一定效果, 但仍有不少问题没有得到充分解决, 比如语义表达多样性问题、长距离依赖问题和内容推理问题等。基于深度学习的方法能够在一定程度上解决这些问题, 因此目前有部分工作尝试构建基于端到端神经网络的方法对整个阅读理解过程进行建模, 并且提出了一系列新颖的神经网络架构。Google的DeepMind团队在2015年发布文献[5], 拉开了利用深度学习解决机器阅读理解的序幕。该文献中发布了数据集CNN/Daily Mails, 并提出Attentive Reader和Impatient Reader两个网络结构, 在这两个网络中将注意力机制和深层推理机制引入到阅读理解网络的构建中, 后续提出的很多神经网络都可看作是这两个网络的变体。比如IBM Waston团队Kadlec等提出的Attention Sum Reader[6], 斯坦福大学的Chen等提出的Stanford Attentive Reader[7], 卡内基·梅隆大学的Dhingra等提出的Gated-Attention Reader[8], Sordoni等提出的Iterative Alternating Reader[9]等。国内, 哈尔滨工业大学·讯飞语言认知计算联合实验室的Cui等提出的Attention-over-Attention Reader[10]从二维角度计算文章与问题之间的注意力信息, 效果较一维的注意力机制有较大提升。这些网络结构在基于完形填空的数据集(CNN/Daily Mails, CBT)上都取得了一定效果。另外斯坦福大学在文献[11]中提出数据集SQuAD, 该数据集的特点是其正确答案对应文章中任意长度的一个片段, 而不只是一个关键词。斯坦福大学在该数据集上组织相应的评测, 吸引国内外科研机构参加并提出一些新颖的网络。比如微软亚洲研究院Wang等提出的R-Net将面向文章的自注意力信息引入到网络的构建中, 从而加强对文章上下文的理解[12]; Seo等提出的BiDAF模型[13]、Gong等提出的Ruminating Reader都将双向注意力机制引入到问题与文本的交互过程中[14]; Zhang等提出的J-Net使用Tree LSTM对问题编码, 从而充分考虑句法信息[15]; Shen等提出的ReasonNet[16]和Hu等提出的Mnemonic Reader则使用Memory Network框架[17], 利用多轮迭代模拟人的推理过程。

虽然目前的方法取得了一些成果, 但大部分研究仍然集中在英文阅读理解上, 一个重要原因是面向中文的阅读理解资源相较英文来说还有所欠缺, 同时针对中文的重意合、语义与推理等特点设计的阅读理解模型也相对较少。基于此, 中国中文信息学会与哈尔滨工业大学·讯飞语言认知计算联合实验室举办第一届中文阅读理解评测CMRC2017(①http://www.hfl-tek.com/cmrc2017/.), 吸引了不少科研机构参与并取得较好反响[18]。评测的数据对外开放, 本文的研究与实验基于该数据集开展。

3 基于层级交互机制的神经网络构建

阅读理解是自然语言理解中的一项核心任务, 对于文本数据的理解与分析有重要作用。该任务旨在让机器能够根据给定的文章和问题进行自动回答, 候选答案通常来自文章中的词汇信息, 因此阅读理解的过程即是根据问题在文章中选择正确答案的过程。具体而言, 机器阅读理解可以形式化为一个四元组问题<D, Q, H, A>, 其含义如下:

D: 语料库中所有文章的集合, Di表示第i篇文章;

Q: 语料库中所有问题的集合, Qi,j表示第i篇文章第j个问题;

H: 语料库中候选答案的集合, Hi,j,k表示第i篇文章第j个问题对应的第k个候选答案;

A: 语料库中正确答案的集合, Ai,j表示第i篇文章第j个问题的正确答案。

机器阅读理解的目标是要在理解文章d (d∈D)和问题q (q∈Q)的基础上从候选答案h (h∈H)中进行选择, 尽可能使选择的答案是正确答案a (a∈A)。

文献[19]中指出人类阅读的认知过程可分为感知、理解、巩固、评价等不同阶段。具体来说, 给定一篇文章和问题, 其阅读理解的思维过程通常包含以下步骤:

(1) 阅读文章的内容加以理解;

(2) 阅读问题的内容加以理解;

(3) 根据对问题的理解在文章中检索与问题相关的内容, 同时过滤掉那些与问题无关的内容;

(4) 对文章中相关部分进行推理得到最终答案。

本文借鉴人类在阅读理解时的思维过程, 提出一个基于多层交互机制的端到端神经网络实现机器的自动阅读理解, 核心框架如图1所示。

图1   本文网络的核心框架

   

(1) 文本表示, 即通过循环神经网络技术分别将文章和问题转换成数字向量的形式, 使计算机能够理解文本中包含的内容;

(2) 理解预测, 主要工作是实现文章和问题之间的内容交互, 从而在文章中找到并强调与问题内容相关的部分, 在此基础上计算候选答案与问题之间的匹配度信息, 得到能够回答问题的最终答案。

3.1 基于循环神经网络的文本表示方法

对于机器阅读理解来说, 首先要对文章d与问题q的文本内容进行表示, 将离散的文本信息转化成稠密的数字向量。机器通过该向量理解其中蕴含的语义信息, 并通过向量间的计算判断文本间的语义关联。此处的文本表示包含词的表示和文章的表示两个层面。传统的文本表示方法多采用基于词袋模型(Bag-of-Words)的方式, 往往忽略了词与词之间的语义联系, 如果不同词之间的语义相似, 词袋表示法是无法表示这种相似性的。本文利用深度学习的方式对文本中的词与文章分别进行表示, 其中词表示层面通过将字表示与词表示融合得到更加丰富的表示, 而文章表示层面则利用双向循环神经网络将构成文章的 词的语义从前后两个方向进行组合, 使机器能够捕 捉到文章的内容含义。由于在构建表示向量时都采用基于循环神经网络的方法, 因此首先介绍循环神经 网络的结构, 之后对词表示和文章的表示方法进行 描述。

(1) 循环神经网络

循环神经网络(Recurrent Neural Networks, RNN)模型的核心思想是将文本中的每个词以循环的方式输入到网络中, 通过维护一个隐藏层存储上下文信息。由于相对稳定的网络结构, 循环神经网络只需要在线性时间内即可构建得到文本的语义信息, 因此能够更加方便地对长文本内容进行建模。其工作原理是在每个时刻t, 将当前词xt与代表上下文信息的隐藏层yt-1进行融合得到新的隐藏层yt。这样从文本的第一个词循环计算到最后一个词, 当模型读入文本的所有词后, 通常会用最后一个词表示整个文本的语义。在优化方式上, 循环神经网络通过时间反向传播算法(Back Propagation Trough Time, BPTT)进行参数更新, 之后通过普通的反向传播算法逐层更新权重矩阵。然而循环神经网络也存在梯度衰减问题, 即在训练参数时, 反向传播算法通常只能传播固定层数, 对于长距离依赖的文本(比如阅读理解中的文章)则缺乏有效解决的办法。为解决这个问题, 采用基于长短时记忆单元(Long Short Term Memory Network, LSTM)的循环神经网络模型对文章和问题进行建模, 该模型通过引入记忆单元保存阅读理解文章中的长距离信息, 能够在任意时刻都考虑到对应位置的上下文信息, 从而更好地表示句子和文本语义。在LSTM单元部分中分别定义记忆单元c、输入门o、遗忘门f、输出门i模拟人类的记忆功能, 具体定义如公式(1)-公式(6)所示。

${{i}^{t}}=\sigma ({{W}_{ix}}{{x}^{t}}+{{W}_{iy}}{{y}^{t-1}}+{{b}_{i}})$ (1)

${{f}^{t}}=\sigma ({{W}_{fx}}{{x}^{t}}+{{W}_{fy}}{{y}^{t-1}}+{{b}_{f}})$ (2)

${{o}^{t}}=\sigma ({{W}_{ox}}{{x}^{t}}+{{W}_{oy}}{{y}^{t-1}}+{{b}_{o}})$ (3)

${{z}^{t}}=h({{W}_{zx}}{{x}^{t}}+{{W}_{zy}}{{y}^{t-1}}+{{b}_{z}})$ (4)

${{c}^{t}}={{i}^{t}}{{z}^{t}}+{{f}^{t}}{{c}^{t-1}}$ (5)

${{y}^{t}}={{o}^{t}}h({{c}^{t}})$ (6)

其中, ☉表示两个向量按元素相乘, ${{i}^{t}}$, ${{f}^{t}}$, ot分别表示输入、遗忘和输出门, Wb是模型对应的参数。σh表示Sigmoid和Tanh函数, 三个门的取值范围是[0,1], 取值为0时表示门关闭, 取值为1时表示打开。由公式(1)-公式(6)可以得到Y1···t=LSTM(X1···t), 其中X1···t表示从开始到时间t的输入向量, Y1···t表示从开始到时间t的输出向量。

(2) 融合字表示的中文词汇表示方法

词汇信息表示是阅读理解文本表示的基础, 其表示能力深刻地影响网络整体性能, 对最终阅读理解的性能有至关重要的作用。现有的阅读理解词汇表示方法主要有两种: 一种是利用预先训练好的词向量对每个词进行表示, 这些向量常常是在较大规模的数据集上通过一些算法训练得到的; 第二种是先随机初始化词向量, 之后将这些词向量看作模型参数在实际学习任务中进行更新。然而这两种方法都忽视了未登录词的问题。未登录词指没有在词典中出现的词, 通常是一些专有名词, 如人名、地名、机构名等。未登录词表示的缺失对整个文本的阅读理解造成了一定影响。为解决这个问题, 本文采用基于融合字表示的汉语词汇表示方法, 对词汇进行表示的同时融合词语所包含的汉字信息。由于未登录词中所包含的汉字往往是稳定的, 因此可以考虑融合这些汉字信息帮助理解未登录词的语义内容。将构成词的汉字用向量表示, 通过双向循环神经网络将词中所有的汉字信息进行顺序建模, 得到构成词的字信息表示, 将字信息与词本身的语义向量结合得到最终的词向量信息表示。具体来说, 对于词w, Ew是其初始词汇嵌入向量, c1,c2,···,cn是其包含的汉字序列, Ec1, Ec2, Ec3,···,Ecn是每一个汉字对应的嵌入向量, 同时也是循环神经网络的输入, 而o1,o2,···,on是汉字序列经过循环神经网络后的输出, 计算如公式(7)-公式(8)所示。

${{o}_{1}},{{o}_{2}},\cdot \cdot \cdot ,{{o}_{n}}=LSTM({{E}_{c1}},{{E}_{c2}},\cdot \cdot \cdot ,{{E}_{cn}})$ (7)

${{V}_{w}}={{E}_{w}}||{{O}_{n}}$ (8)

其中, Vw是词w的最终词汇表示, on是输出向量的第n个单元, ||指将向量拼接, LSTM()代表公式(1)-公式(6)中的循环神经网络。在向量Vw中既包含词汇本身的信息, 同时也包含构成词的字信息, 能够更加充分地对词的语义信息进行表示。

(3) 基于双向循环网络的文章表示方法

文章表示是在词汇表示的基础上, 将文章整体信息映射到统一的向量空间, 进而得到文章的语义表示。本文采用双向循环神经网络对文章进行表示。双向循环神经网络由两层循环神经网络构成, 从前后两个方向分别捕捉上下文语义, 因此更加适合长文本的内容表示。具体来说, 双向循环网络的输入部分是文章d中每一个词的表示V1···NdR|Nd*dim_w|, 其中Nd是文章中词的数目, dim_w是词向量的维度。在此基础上本文采用基于LSTM的双向循环神经网络对文章内容进行表示, 计算公式如公式(9)所示。

$R{{d}_{1\cdot \cdot \cdot Nd}}=Bi\mathrm{-}LSTM({{V}_{1\cdot \cdot \cdot Nd}})$ (9)

Bi-LSTM表示双向循环网络, 用于从前后两个角度理解文章内容, 最终得到经过上下文理解后的文章内容表示Rd1NdR|Nd*2dim_E|, 其中dim_E为循环神经网络的状态维度。对问题的表示也采用双向循环网络, 得到Rq1NqR|Nq*2dim_E|, Nq是问题长度。经过上述过程分别得到文章与问题的文本表示RdRq

3.2 基于层级交互网络的理解预测

构建基于层级交互的神经网络模拟阅读理解的整个过程, 并基于此预测相应的答案。该层级网络借鉴人类的思维过程, 主要包含阅读层、提问层、反思层、回答层4个层次。其中阅读层和提问层统称为理解层, 对应文章和问题的内容表示; 反思层以理解层为输入, 以文章的更新内容为输出; 回答层则以反思层为输入, 以预测的答案为输出。在层与层之间除了正常的数据流动外, 还使用注意力机制实现问题与文章间的内容交互。

(1) 注意力机制

注意力机制最先被用在图像识别任务中[20], 其思想来源是人类在观察图像时注意力会动态变化, 在不同的时间点会侧重于图像中不同的区域场景。之后该机制被用在机器翻译的序列到序列生成模型中[21], 用于计算当前翻译位置与源语言句子中不同位置的对应关系, 从而找到与当前位置最相关的上下文信息。在本文的层级网络中也利用注意力机制计算当前状态与上下文状态间的关系, 计算方法如公式(10)-公式(12)所示。

$Att({{h}^{t}},{{C}^{i}})=\frac{\exp ({{e}_{t,i}})}{\mathop{\sum }_{k}\exp ({{e}_{t,k}})}$ (10)

${{e}_{t,i}}=Corr({{h}^{t}},{{C}^{i}})$ (11)

$Corr({{h}^{t}},{{C}^{i}})={{W}_{e}}Tanh({{W}_{h}}{{h}^{t}}+{{W}_{c}}{{C}^{i}}+{{b}_{c}})+{{b}_{e}}$ (12)

其中, ht是当前状态对应的表示向量, Ci是上下文状态的向量表示, Att(ht, Ci)表示当前状态ht相对于上下文Ci的注意力权重, Corr()函数对应一个多层感知网络, 该网络将当前状态ht与上下文Ci映射到同一子空间中计算两者的相关度, 其中WhWcWebcbe是该网络对应的参数, Tanh()是激活函数。

(2) 基于注意力机制的层级交互网络

本文提出的层级交互网络可以概括为理解层、反思层以及回答层三部分, 其中理解层包含阅读层和提问层, 整体网络结构如图2所示。

图2   基于注意力机制的层级交互网络

   

①理解层

理解层包含阅读层与提问层两个层次, 目的都是对文本内容进行第一遍理解, 为后续内容交互做好基础。两者的区别在于处理对象不同, 阅读层是对文章内容表示, 而提问层则是对问题内容表示。具体来说, 理解层的任务是在对文本词汇表示的基础上, 将文本整体信息映射到统一的向量空间, 得到文章和问题的语义表示。此处的理解层是在之前的表示基础上再经过一个双向循环神经网络加深对文本的理解, 如公式(13)-公式(14)所示。

$Rd{{}_{1\cdot \cdot \cdot Nd}}=Bi\mathrm{-}LSTM(R{{d}_{1\cdot \cdot \cdot Nd}})$ (13)

$Rq{{}_{1\cdot \cdot \cdot Nq}}=Bi\mathrm{-}LSTM(R{{q}_{1\cdot \cdot \cdot Nq}})$ (14)

其中, Bi-LSTM表示双向循环网络, RdRq分别是文章与问题的内容表示, 而Rd’与Rq’则是经过内容加深理解后的输出, 也是下一层的输入部分。

②反思层

反思的目的是在阅读层与提问层的基础上重新对文章本身进行审视和理解, 从而强化与问题相关的内容, 过滤与问题无关的内容。反思层的输入部分主要来自阅读层的输出Rd’与提问层的输出Rq’, 通过这些输入信息更新对文章内容的理解。本文采用基于注意力机制的门网络框架模拟该过程, 如图2所示。该框架组合所有可能对反思文章有用的信息, 通过一个门网络对文章内容进行选择性过滤, 对有助于答案预测的文章内容予以保留和增强, 而对那些无关紧要的内容则予以过滤, 从而优化基于问题内容的文章理解。该网络的输入涉及到文章与问题间的内容交互, 主要有两部分内容。第一部分包含文章d在问题q中的上下文信息C_qd, 以及文章状态向量Rd’与C_qd间的求和、乘积等基础操作, 该部分旨在挖掘出问题中所有与文章当前词相关的上下文内容。第二部分则包含文章d相对于自身内容的上下文信息C_dd, 以及Rd’与C_dd间的基础操作, 这部分则旨在挖掘出文章本身所有与当前状态相关的上下文内容。最后这两部分内容将串联起来作为门网络的输入部分g_input。计算公式如公式(15)-公式(19)所示。

$\alpha =Att(Rd,Rq)$ (15)

$\beta =Att(Rd,Rd)$ (16)

${{C}_{qd}}=\alpha \cdot Rq$ (17)

${{C}_{dd}}=\beta \cdot Rd$ (18)

$\begin{align} & g\_input=Interaction(C\_qd,C\_dd,Rd)= \\ & \ \ \ \ \ \ \ \ \ \ C\_qd||Add(C\_qd,Rd)||Multi(C\_qd,Rd)|| \\ & \ \ \ \ \ \ \ \ \ \ C\_dd||Add(C\_dd,Rd)||Multi(C\_dd,Rd) \\ \end{align}$(19)

其中, Att()是公式(10)-公式(12)对应的注意力计算函数, Add()与Multi()分别对应求和与乘积操作, ||是向量拼接操作。最后得到的g_input为门网络的输入, 通过连接全连接网络和Sigmoid激活函数实现门网络。其中Sigmoid函数的值介于0-1之间, 因此门网络的目标是使需要强化的部分值接近1, 需要过滤的部分值接近0。最后再通过一个双向循环神经网络得到充分融合了问题语义信息的新的文章内容, 实现对文章内容的更新。上述过程如公式(20)-公式(22)所示。其中, Wgbg是全连接网络的参数。

$g\_output=Sigmoid({{W}_{g}}\cdot g\_input+{{b}_{g}})$ (20)

$d\_input=g\_outputRd$ (21)

$d\_output=Bi\mathrm{-}LSTM(d\_input)$ (22)

③回答层

该层的目的是在充分理解文章的基础上选择正确答案。由于答案对应的是文章中的词, 因此该层的任务就变成从文章的所有词中选择与问题相关度最高的词作为最后答案。采用指针网络结构, 通过全连接网络加Softmax函数的形式计算每一个词是答案的概率值, 选择概率值最高的词作为回答问题的答案, 过程如公式(23)-公式(24)所示。其中, Wpbp是全连接网络的参数, p_a是最终问题的预测答案。

$d\_pro=Softmax({{W}_{p}}\cdot d\_output+{{b}_{p}})$ (23)

$p\_a=argmax(d\_pro)$ (24)

4 实验与分析

4.1 实验数据与相关设置

以第一届中文阅读理解评测(The 1st Evaluation Workshop on Chinese Machine Reading Comprehension, CMRC2017)中使用的数据集作为实验数据集。对于阅读理解任务来说, 目前大部分的数据集都是基于英文的, 而CMRC2017采用的数据集是国内发布的第一个大规模中文阅读理解数据集, 是目前中文领域较权威的阅读理解数据集。该数据集中的文章主要来自儿童故事书, 其中训练集包含354 295个问题, 校验集包含2 000个问题, 测试集包含3 000个问题。问题的答案来自文章本身的词汇信息, 机器阅读理解的任务就是根据文章和问题的含义选择正确答案。在该数据集中答案以关键词的形式存在, 因此在测试阅读理解系统时采用答案预测准确率作为指标, 其定义如公式(25)所示。

$Accuracy=\frac{1}{N}\underset{ij}{\mathop \sum }\,II(pre({{D}_{i}},{{Q}_{ij}})=={{A}_{ij}})$ (25)

其中, II()是一个二值函数, N是问题数量, pre(Di, Qij)是系统根据文章DiQij预测的答案, 而Aij则对应问题的标准答案。在数据预处理方面, 对经过分词的数据集进行词频统计, 将出现次数少于5次的词标志为NULL, 通过这种方式在一定程度上解决未登录词表示的问题。采用基于TensorFlow的深度学习框架 搭建本文的神经网络, 机器配置以及训练时间如表 1所示。

表1   模型训练配置与时间

   

比较项
中央处理器Intel Xeon CPU8 Cores
内存DDR4 64GB
显卡Titan Xp 12GB
单轮平均迭代时间2小时 2分钟
总训练时间30小时 30分钟

新窗口打开

4.2 层级网络结构的实验分析

本文构建一个基于层级交互的神经网络实现机器阅读理解的功能, 为检验该网络中每一部分的重要性, 设计不同的实验分别测试该网络的整体性能。实验的设计主要包含三部分: 不同超参数的比较, 用来测试不同网络超参数对网络性能的影响, 并基于在校验集上的实验结果选择最优的超参数; 侧重于比较网络不同内部结构, 通过实验测试网络内部结构的变化对最终性能的影响, 在实验结果的基础上选择最优内部结构; 着重展示网络在最优超参数及内部结构下的整体性能。

(1) 不同超参数的比较

超参数的设置对于神经网络的训练以及最终性能都有重要作用。本文提出的层级神经网络主要包含以下超参数。

①词向量维度Dim_E, 即文章与问题中每个词对应的词向量的维度设置;

②状态向量维度Dim_S, 即在LSTM中状态单元的维度设置;

③神经元保存率, 即为避免过拟合对网络中神经单元的保存比例, 介于0-1之间。

为选择最优超参数, 对以上三种超参数分别进行采样并在校验集上进行相关实验, 结果如表2所示。

表2   不同超参数对性能的影响

   

超参数性能比较
词向量维度维度64128192256
准确率0.7590.7620.7570.756
状态向量
维度
维度64128192256
准确率0.7410.7620.7610.762
神经元
保存率
保存率0.50.60.70.8
准确率0.7510.7620.7570.755

新窗口打开

其中, 词向量维度的采样范围是{64, 128, 192, 256}, 状态向量维度的采样范围是{64, 128, 192, 256}, 神经元保存率的采样范围是{0.5, 0.6, 0.7, 0.8}。通过在校验集上的结果可以看到, 对于词向量维度Dim_E与状态向量维度Dim_S来说, 当维度等于128时取得最好效果, Dim_E不同维度的性能差异不大, 而Dim_S在低维时效果较差, 维度增加时则趋于平稳。对于神经元来说, 当保存率在0.6时性能达到最优。上述结果表明词向量维度与状态向量维度并不是越高越好, 而是需要确定在一定的范围内, 过高的向量维度会增加训练的时空代价并导致过拟合现象, 使模型的泛化能力降低。

(2) 不同内部结构的比较

本文采用的层级网络中主要包含理解层、反思层以及回答层三部分结构。其中理解层与回答层的网络结构相对固定, 性能主要受状态向量维度Dim_S影响, 本节主要对结构较为复杂的反思层进行实验, 测试反思层的网络结构对整体性能的影响。反思层的主要目的是计算文章与问题之间的交互信息, 并对文章的无关内容进行过滤。采用门网络结构构建反思层, 输入部分g_input包含以下6种不同的信息。

①当前词dt在问题q中的上下文信息C_qdt;

②当前状态Rdt 与上下文信息C_qdt之间的和信息Add(C_qdt, Rdt);

③当前状态Rdt与上下文信息C_qdt之间的乘信息Multi(C_qdt, Rdt);

④当前词dt在整个文章d中的上下文信息C_ddt;

⑤当前状态Rdt与上下文信息C_ddt之间的和信息Add(C_ddt, Rdt);

⑥当前状态Rdt与上下文信息C_ddt之间的乘信息Multi(C_ddt, Rdt)。

为测试不同的输入信息对问题与文章之间内容交互的重要程度, 设置相关实验, 依次测试排除某种信息后的网络性能, 并与包含所有输入信息的网络性能比较, 最后分别在校验集与测试集上测试得到结果, 如表3所示。

表3   不同网络结构对性能的影响

   

网络结构准确率(校验集)准确率(测试集)
All information0.7620.775
-query_attention0.7490.759
-doc_attention0.7540.766
-add0.7590.770
-multi0.7590.769

新窗口打开

其中, -query_attention表示从所有输入信息中去掉与问题相关的信息, 即去掉信息①②③; -doc_attention表示去掉与文章相关的信息, 即去掉信息④⑤⑥; -add表示去掉所有的加操作, 即去掉②⑤; -multi表示去掉所有的乘操作, 即去掉③⑥。根据表3得到以下结论: 包含所有信息的性能是最优的, 说明这6种不同信息都对网络性能做出贡献; 去掉与问题相关信息对整体性能影响最大, 下降接近2个百分点, 这充分说明了问题信息对于答案的选择有至关重要的作用; 加操作和乘操作对总体性能的影响相对较小, 但这两种信息仍然提高了网络整体性能。总体来说, 在问题与文章的内容互动中引入多元信息能够更好地促进对文章的理解, 这些信息中问题本身的内容是最重要的, 这是因为通过对问题的理解能够更好地对文章内容进行选择过滤, 强化与问题相关的部分而过滤掉无关部分, 更加有利于检索答案。

(3) 网络整体性能展示

在最优的超参数配置与内部网络结构基础上, 对整体网络进行训练。网络参数更新方法采用Adam策略, 学习率的值为0.001, 批训练样本大小设为64。为避免过拟合, 采用Early_stop的方法, 当校验集的准确率在一段时间内不再增加后则停止训练。网络的训练过程与性能变化如图3所示, 可以看到随着迭代轮数变化, 层级神经网络在训练集(Train)、校验集(Valid)以及测试集(Test)上的准确率变化情况。

图3   网络的训练过程与性能变化

   

其中, 横坐标是迭代的轮数, 纵坐标是阅读理解的准确率。三组数据都在训练开始时性能提升较快, 而在迭代10轮之后则趋向于稳定。在训练集上的准确率要高于在校验集与测试集上的结果, 能达到0.95以上, 这表明了模型训练的充分性。测试集和校验集整体的准确率比较接近, 测试集的准确率稍微高一点, 介于0.75 到0.79之间。总体来说, 本文提出的网络在处理阅读理解回答任务时能够取得不错的效果, 而目前在训练集上的结果与校验集、测试集上的准确率仍有接近20个百分点的差距, 说明模型本身的表示能力能够很好地拟合数据集, 但数据集的规模限制使目前的模型仍存在过拟合现象。

4.3 与现有方法的比较

将提出的方法与现有的主流方法进行比较, 主流方法主要分成两组: 第一组是基线模型(Baseline), 包括一些启发式方法以及一些发表过的模型, 这些模型的有效性已经在其他数据集上得到验证; 另外一组是在CMRC2017上取得前三名队伍的成绩。需要说明的是, 为验证模型的有效性, 只比较在单模型上的效 果, 并没有采用集成模型的方式。比较的结果如表4所示。

表4   与现有方法的比较结果

   

对比方法准确率(校验集)准确率(测试集)
基线
模型
Random Guess0.0170.017
Top Frequency0.1070.087
As Reader[6]0.6980.713
GA Reader[8]0.7480.751
CMRC
评测方法
Top 10.7610.777
Top 20.7720.775
Top 30.7790.774
Our Model0.7630.780

新窗口打开

本文提出的模型在测试集上准确率达到0.78, 相比于基线模型与评测方法都有较大提升, 验证了该模型在解决机器阅读理解问题上的有效性。可以看到神经网络模型的准确率要比一些启发式的方法(Random Guess、Top Frequency)有很大提升, 充分表明这类模型解决阅读理解问题的有效性。而与一些在英文数据集上取得不错效果的模型(As Reader、GA Reader)相比, 本文提出的模型在处理中文文本阅读理解时的性能更好, 准确率也超过CMRC2017评测的最好成绩。相比于校验集, 本文模型在测试集上的性能提升更加明显, 表明该模型在一定程度上减轻了过拟合现象对模型性能的影响。

4.4 讨 论

经过超参数的设置以及内部结构的选择, 本文方法在机器阅读理解上可以取得较好的性能, 然而与人类的最高水平还有一定距离。经过观察, 笔者发现人类在选择阅读理解的答案时常常会有一个逐步排除错误答案的过程, 即优先排除那些明显错误的答案, 之后再通过更详尽的方法选择最后的答案。为验证这个想法, 优先选择概率值最高的N个词作为候选答案, 并对这N个答案在验证集上进行性能测试, 得到top10、top20、top50候选答案的性能分别可以达到93%、97%、99%, 因此笔者认为通过重排序方法从精选的候选集中选择更优的答案可以进一步提高系统性能, 而这将是未来研究方向。

5 结 语

本文针对机器阅读理解与问答任务, 构建了一个基于层级交互机制的神经网络模型。该模型借鉴了人类思维机制, 主要包含文本表示与理解预测两大部分。文本表示部分通过双向循环神经网络将中文的词表示与字表示相融合, 以提升机器对于词汇特别是未登录词的理解。理解预测部分通过引入注意力机制实现理解层、反思层与回答层之间的内容交互, 从而使得机器能够更加有效地找到正确答案。在公开阅读理解数据集上的实验结果充分验证了本文模型在文本理解与分析上的有效性。

作者贡献声明

程勇: 提出研究思路, 设计研究方案, 撰写论文;

徐德宽: 收集数据, 修改论文;

吕学强: 论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: chengokyong@126.com。

[1] 程勇. MRC_data.rar. CMRC的阅读理解评测数据集.


参考文献

[1] 郭利敏.

基于卷积神经网络的文献自动分类研究

[J]. 图书与情报, 2017(6): 96-103.

https://doi.org/10.11968/tsyqb.1003-6938.2017119      URL      [本文引用: 1]      摘要

人工智能技术的蓬勃发展,驱动着文献自动分类由基于规则的分类向基于机器学习的方向发展.文章在对深度学习概述的基础上,将卷积神经网络引入到了文献自动分类,构建了基于题名、关键词的多层次卷积神经网络模型,使之能够根据文献的题名和关键词自动给出中图分类号.通过在TensorFlow平台上的深度学习模型,利用《全国报刊索引》约170万条记录进行模型训练,并对7000多篇待加工的文献做中图法分类预测,其在生产情况下一级分类准确率为75.39%,四级准确率为57.61%.当置信度为0.9时,一级正确率为43.98%,错误率为1.96%,四级正确率为25.66%,四级错误率为5.11%.证明该模型有着较低的错误率,可为《全国报刊索引》分类流程的半自动化提供帮助,解决存在的编目人员紧缺、加工质量和效率下降等问题.

(Guo Limin.

Study of Automatic Classification of Literature Based on Convolution Neural Network

[J]. Library and Information, 2017(6): 96-103.)

https://doi.org/10.11968/tsyqb.1003-6938.2017119      URL      [本文引用: 1]      摘要

人工智能技术的蓬勃发展,驱动着文献自动分类由基于规则的分类向基于机器学习的方向发展.文章在对深度学习概述的基础上,将卷积神经网络引入到了文献自动分类,构建了基于题名、关键词的多层次卷积神经网络模型,使之能够根据文献的题名和关键词自动给出中图分类号.通过在TensorFlow平台上的深度学习模型,利用《全国报刊索引》约170万条记录进行模型训练,并对7000多篇待加工的文献做中图法分类预测,其在生产情况下一级分类准确率为75.39%,四级准确率为57.61%.当置信度为0.9时,一级正确率为43.98%,错误率为1.96%,四级正确率为25.66%,四级错误率为5.11%.证明该模型有着较低的错误率,可为《全国报刊索引》分类流程的半自动化提供帮助,解决存在的编目人员紧缺、加工质量和效率下降等问题.
[2] 李慧宗, 胡学钢, 杨恒宇,.

基于LDA的社会化标签综合聚类方法

[J]. 情报学报, 2015, 34(2): 146-155.

https://doi.org/10.3772/j.issn.1000-0135.2015.002.004      URL      [本文引用: 1]      摘要

社会化标注系统产生了大量歧义的、不受控制的标签,不仅会降低用户的体验,而且会限制资源的利用效率。标签聚类能够把具有相近语义的标签聚集在一起,反映标签的潜在语义结构,从而有效缓解上述问题。传统的标签聚类方法通常只利用资源的被标注信息进行聚类,由于忽略了用户的标注信息使得聚类结果不能表达准确的语义。本文提出一种基于LDA(Latent Dirichlet Allocation)模型的社会化标签综合聚类方法,该方法分别利用用户的标注信息和资源的被标注信息来建立主题学习模型,通过学习,获取基于用户的标签潜在主题和基于资源的标签潜在主题,综合标签在这两类主题上的概率分布结果,建立标签主题的二次学习模型,学习出标签的混合主题并在此基础上判定标签的聚类簇。与传统方法相比,本文的方法不仅可以有效地利用标签之间的语义关系,而且能够在一定程度上缓解传统标签聚类方法所面临的高维和稀疏性问题。实验结果表明,本文的方法具有较好的效果。

(Li Huizong, Hu Xuegang, Yang Hengyu, et al.

A Comprehensive Clustering Method of Social Tags Based on LDA

[J]. Journal of the China Society for Scientific and Technical Information, 2015, 34(2): 146-155.)

https://doi.org/10.3772/j.issn.1000-0135.2015.002.004      URL      [本文引用: 1]      摘要

社会化标注系统产生了大量歧义的、不受控制的标签,不仅会降低用户的体验,而且会限制资源的利用效率。标签聚类能够把具有相近语义的标签聚集在一起,反映标签的潜在语义结构,从而有效缓解上述问题。传统的标签聚类方法通常只利用资源的被标注信息进行聚类,由于忽略了用户的标注信息使得聚类结果不能表达准确的语义。本文提出一种基于LDA(Latent Dirichlet Allocation)模型的社会化标签综合聚类方法,该方法分别利用用户的标注信息和资源的被标注信息来建立主题学习模型,通过学习,获取基于用户的标签潜在主题和基于资源的标签潜在主题,综合标签在这两类主题上的概率分布结果,建立标签主题的二次学习模型,学习出标签的混合主题并在此基础上判定标签的聚类簇。与传统方法相比,本文的方法不仅可以有效地利用标签之间的语义关系,而且能够在一定程度上缓解传统标签聚类方法所面临的高维和稀疏性问题。实验结果表明,本文的方法具有较好的效果。
[3] 徐彤阳, 尹凯.

大数据背景下微博语义检索

[J]. 情报杂志, 2017, 36(12): 173-179.

URL      [本文引用: 1]      摘要

[目的/意义]目前微博已经成为人们获取信息和发布信息的主要平台,现有微博平台的检索功能主要靠关键词匹配返回检索结果,使得检索结果无法满足用户需求。在大数据的背景下,实现微博语义检索已成为目前迫切需要解决的问题。[方法/过程]为了解决该问题,采用一种基于通用本体知识库的微博语义检索框架,利用通用本体知识库中概念之间的语义关系,借助概念相似度算法对用户查询进行扩展以及对微博短文本特征进行扩展与选择。[结果/结论]基于通用本体构建的微博语义检索框架,既可以从语义角度理解用户的查询并对其进行扩展,又可以克服微博短文本特征稀疏的缺点,从而可以提高微博检索的查全率和查准率,能有效解决大数据背景下传统微博检索不能满足用户检索需求的问题。最后对微博语义检索实现所涉及的相关问题进行了探讨。

(Xu Tongyang, Yin Kai.

Semantic Retrieval of Microblogging in the Background of Large Data

[J]. Journal of Intelligence, 2017, 36(12): 173-179.)

URL      [本文引用: 1]      摘要

[目的/意义]目前微博已经成为人们获取信息和发布信息的主要平台,现有微博平台的检索功能主要靠关键词匹配返回检索结果,使得检索结果无法满足用户需求。在大数据的背景下,实现微博语义检索已成为目前迫切需要解决的问题。[方法/过程]为了解决该问题,采用一种基于通用本体知识库的微博语义检索框架,利用通用本体知识库中概念之间的语义关系,借助概念相似度算法对用户查询进行扩展以及对微博短文本特征进行扩展与选择。[结果/结论]基于通用本体构建的微博语义检索框架,既可以从语义角度理解用户的查询并对其进行扩展,又可以克服微博短文本特征稀疏的缺点,从而可以提高微博检索的查全率和查准率,能有效解决大数据背景下传统微博检索不能满足用户检索需求的问题。最后对微博语义检索实现所涉及的相关问题进行了探讨。
[4] 张志昌.

开放域阅读理解关键技术研究[D]

. 哈尔滨: 哈尔滨工业大学, 2010.

[本文引用: 1]     

(Zhang Zhichang.

Key Technologies of Reading Comprehension for Open-Domain[D]

. Harbin: Harbin Institute of Technology, 2010.)

[本文引用: 1]     

[5] Hermann K M, Kočiský T, Grefenstette E, et al.

Teaching Machines to Read and Comprehend

[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. 2015: 1693-1701.

[本文引用: 1]     

[6] Kadlec R, Schmid M, Bajgar O, et al.

Text Understanding with the Attention Sum Reader Network

[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. 2016: 908-918.

[本文引用: 2]     

[7] Chen D, Bolton J, Manning C D.

A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task

[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. 2016: 2358-2367.

[本文引用: 1]     

[8] Dhingra B, Liu H, Yang Z, et al.

Gated-Attention Readers for Text Comprehension

[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. 2017: 1832-1846.

[本文引用: 2]     

[9] Sordoni A, Bachman P, Trischler A, et al.

Iterative Alternating Neural Attention for Machine Reading

[OL]. arXiv Preprint, arXiv: 1606.02245.

URL      [本文引用: 1]      摘要

Abstract: We propose a novel neural attention architecture to tackle machine comprehension tasks, such as answering Cloze-style queries with respect to a document. Unlike previous models, we do not collapse the query into a single vector, instead we deploy an iterative alternating attention mechanism that allows a fine-grained exploration of both the query and the document. Our model outperforms state-of-the-art baselines in standard machine comprehension benchmarks such as CNN news articles and the Children's Book Test (CBT) dataset.
[10] Cui Y, Chen Z, Wei S, et al.

Attention-over-Attention Neural Networks for Reading Comprehension

[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. 2017: 593-602.

[本文引用: 1]     

[11] Rajpurkar P, Zhang J, Lopyrev K, et al.

SQuAD: 100,000+ Questions for Machine Comprehension of Text

[C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016: 2383-2392.

[本文引用: 1]     

[12] Wang W, Yang N, Wei F, et al.

Gated Self-Matching Networks for Reading Comprehension and Question Answering

[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. 2017: 189-198.

[本文引用: 1]     

[13] Seo M, Kembhavi A, Farhadi A, et al.

Bidirectional Attention Flow for Machine Comprehension

[OL]. arXiv Preprint, arXiv: 1611.01603.

URL      [本文引用: 1]      摘要

Abstract: Machine comprehension (MC), answering a query about a given context paragraph, requires modeling complex interactions between the context and the query. Recently, attention mechanisms have been successfully extended to MC. Typically these methods use attention to focus on a small portion of the context and summarize it with a fixed-size vector, couple attentions temporally, and/or often form a uni-directional attention. In this paper we introduce the Bi-Directional Attention Flow (BIDAF) network, a multi-stage hierarchical process that represents the context at different levels of granularity and uses bi-directional attention flow mechanism to obtain a query-aware context representation without early summarization. Our experimental evaluations show that our model achieves the state-of-the-art results in Stanford Question Answering Dataset (SQuAD) and CNN/DailyMail cloze test.
[14] Gong Y, Bowman S R.

Ruminating Reader: Reasoning with Gated Multi-Hop Attention

[OL]. arXiv Preprint, arXiv: 1704.07415.

URL      [本文引用: 1]      摘要

Abstract: To answer the question in machine comprehension (MC) task, the models need to establish the interaction between the question and the context. To tackle the problem that the single-pass model cannot reflect on and correct its answer, we present Ruminating Reader. Ruminating Reader adds a second pass of attention and a novel information fusion component to the Bi-Directional Attention Flow model (BiDAF). We propose novel layer structures that construct an query-aware context vector representation and fuse encoding representation with intermediate representation on top of BiDAF model. We show that a multi-hop attention mechanism can be applied to a bi-directional attention structure. In experiments on SQuAD, we find that the Reader outperforms the BiDAF baseline by a substantial margin, and matches or surpasses the performance of all other published systems.
[15] Zhang J, Zhu X, Chen Q, et al.

Exploring Question Understanding and Adaptation in Neural-network Based Question Answering

[OL]. arXiv Preprint, arXiv: 1703.04617.

URL      [本文引用: 1]      摘要

Abstract: The last several years have seen intensive interest in exploring neural-network-based models for machine comprehension (MC) and question answering (QA). In this paper, we approach the problems by closely modelling questions in a neural network framework. We first introduce syntactic information to help encode questions. We then view and model different types of questions and the information shared among them as an adaptation task and proposed adaptation models for them. On the Stanford Question Answering Dataset (SQuAD), we show that these approaches can help attain better results over a competitive baseline.
[16] Shen Y, Huang P, Gao J, et al.

ReasoNet: Learning to Stop Reading in Machine Comprehension

[C]// Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2017: 1047-1055.

[本文引用: 1]     

[17] Hu M, Peng Y, Huang Z, et al.

Mnemonic Reader for Machine Comprehension

[OL]. arXiv Preprint, arXiv: 1705.02798.

[本文引用: 1]     

[18] Cui Y, Liu T, Chen Z, et al.

Dataset for First Evaluation on Chinese Machine Reading Comprehension

[OL]. arXiv Preprint, arXiv: 1709.08299.

URL      [本文引用: 1]      摘要

Machine Reading Comprehension (MRC) has become enormously popular recently and has attracted a lot of attention. However, existing reading comprehension datasets are mostly in English. To add diversity in reading comprehension datasets, in this paper we propose a new Chinese reading comprehension dataset for accelerating related research in the community. The proposed dataset contains two different types: cloze-style reading comprehension and user query reading comprehension, associated with large-scale training data as well as human-annotated validation and hidden test set. Along with this dataset, we also hosted the first Evaluation on Chinese Machine Reading Comprehension (CMRC-2017) and successfully attracted tens of participants, which suggest the potential impact of this dataset.
[19] 顾明远. 教育大辞典[M]. 上海: 上海教育出版社, 1998.

[本文引用: 1]     

(Gu Mingyuan.Dictionary of Education[M]. Shanghai: Shanghai Educational Publishing House, 1998.)

[本文引用: 1]     

[20] 张杰, 魏维.

基于视觉注意力模型的显著性提取

[J]. 计算机技术与发展, 2010, 20(11): 109-113.

https://doi.org/10.3969/j.issn.1673-629X.2010.11.027      URL      [本文引用: 1]      摘要

对现有基于注意力机制的静态显著计算和动态显著计算技术进行综述。它主要包括两部分:静态图像的显著性提取和动态图像的显著性提取。静态显著计算首先介绍了Itti和Stentiford静态显著性提取模型,然后分析了基础分割的注意力模型技术。动态显著性提取中的两个动静结合的注意力模型、强注意力偏向融合和基于运动优先的注意力模型。介绍了一些视觉注意力模型,并对其进行了讨论。探讨了各种模型的优缺点及应用。为视觉注意力模型在图像检索、人机交互、视频监控等领域提供了一定的基础。

(Zhang Jie, Wei Wei.

Saliency Extraction Based on Visual Attention Model

[J]. Computer Technology and Development, 2010, 20(11): 109-113.)

https://doi.org/10.3969/j.issn.1673-629X.2010.11.027      URL      [本文引用: 1]      摘要

对现有基于注意力机制的静态显著计算和动态显著计算技术进行综述。它主要包括两部分:静态图像的显著性提取和动态图像的显著性提取。静态显著计算首先介绍了Itti和Stentiford静态显著性提取模型,然后分析了基础分割的注意力模型技术。动态显著性提取中的两个动静结合的注意力模型、强注意力偏向融合和基于运动优先的注意力模型。介绍了一些视觉注意力模型,并对其进行了讨论。探讨了各种模型的优缺点及应用。为视觉注意力模型在图像检索、人机交互、视频监控等领域提供了一定的基础。
[21] 张家俊, 宗成庆.

神经网络语言模型在统计机器翻译中的应用

[J]. 情报工程, 2017, 3(3): 21-28.

https://doi.org/10.3772/j.issn.2095-915x.2017.03.004      URL      [本文引用: 1]      摘要

近两年来,神经机器翻译(Neural Machine Translation,NMT)模型主导了机器翻译的研究,但是统计机器翻译(Statistical Machine Translation,SMT)在很多应用场合(尤其是专业领域)仍有较强的竞争力。如何利用深度学习技术提升现有统计机器翻译的水平成为研究者们关注的主要问题。由于语言模型是统计机器翻译中最核心的模块之一,本文主要从语言模型的角度入手,探索神经网络语言模型在统计机器翻译中的应用。本文分别探讨了基于词和基于短语的神经网络语言模型,在汉语到英语和汉语到日语的翻译实验表明神经网络语言模型能够显著改善统计机器翻译的译文质量。

(Zhang Jiajun, Zong Chengqing.

Application of Neural Network Language Model in Statistical Machine Translation

[J]. Technology Intelligence Engineering, 2017, 3(3): 21-28.)

https://doi.org/10.3772/j.issn.2095-915x.2017.03.004      URL      [本文引用: 1]      摘要

近两年来,神经机器翻译(Neural Machine Translation,NMT)模型主导了机器翻译的研究,但是统计机器翻译(Statistical Machine Translation,SMT)在很多应用场合(尤其是专业领域)仍有较强的竞争力。如何利用深度学习技术提升现有统计机器翻译的水平成为研究者们关注的主要问题。由于语言模型是统计机器翻译中最核心的模块之一,本文主要从语言模型的角度入手,探索神经网络语言模型在统计机器翻译中的应用。本文分别探讨了基于词和基于短语的神经网络语言模型,在汉语到英语和汉语到日语的翻译实验表明神经网络语言模型能够显著改善统计机器翻译的译文质量。
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn

/