基于深度学习的学术论文语步结构分类方法研究*

doi:10.11925/infotech.2096-3467.2019.0487

基于深度学习的学术论文语步结构分类方法研究*

王末, 崔运鹏^,^,, 陈丽, 李欢

中国农业科学院农业信息研究所北京 100081

农业农村部农业大数据重点实验室北京 100081

A Deep Learning-based Method of Argumentative Zoning for Research Articles

Wang Mo, Cui Yunpeng^,^,, Chen Li, Li Huan

Agricultural Information Institute of Chinese Academy of Agricultural Sciences, Beijing 100081, China

Key Laboratory of Big Agri-data, Ministry of Agriculture and Rural Areas, Beijing 100081, China

通讯作者: 崔运鹏,ORCID: 0000-0001-5842-7208, E-mail:cuiyunpeng@caas.cn。

收稿日期: 2019-05-9 网络出版日期: 2020-06-25

基金资助:

*本文系中国农业科学院科技创新工程项目“多源异构农业大数据关联发现与计算挖掘”的研究成果之一. CAAS-ASTIP-2016-AII

Received: 2019-05-9 Online: 2020-06-25

摘要

【目的】 以深度学习语言表征模型学习论文句子表达,以此为基础构建论文语步分类模型,提高分类效果。【方法】 采用基于深度学习预训练语言表征模型BERT,结合句子文中位置改进模型输入,以标注数据集进行迁移学习,获得句子级的嵌入表达,并以此输入神经网络分类器训练分类模型,实现论文语步分类。【结果】 基于公开数据集的实验结果表明,11类别分类任务中,总体准确率提高了29.7%,达到81.3%;在7类别核心语步分类任务中,准确率达到85.5%。【局限】 受限于实验环境,所提改进输入模型的预训练参数来源于原始的模型结构,迁移学习的参数对于新模型输入的适用程度可进一步探索。【结论】 该方法较传统的“特征构建+机器学习”分类器方法效果有大幅提高,较原始BERT模型亦有一定提高,且无须人工构建特征,模型不局限于特定语言,可应用于中文学术论文的语步分类任务,具有较大的实际应用潜力。

关键词： 语步分类 ; 深度学习 ; 双向编码器 ; 神经网络

Abstract

[Objective] This study aims at developing a new argumentative zoning method based on deep learning language representation model to achieve better performance. [Methods] We adopted a pre-trained deep learning language representation model BERT, and improved model input with sentence position feature to conduct transfer learning on training data from biochemistry journals. The learned sentence representations were then fed into neural network classifier to achieve argumentative zoning classification. [Results] The experiment indicated that for the eleven-class task, the method achieved significant improvement for most classes. The accuracy reached 81.3%, improved by 29.7% compared to the best performance from previous studies. For the seven core classes, the model achieved an accuracy of 85.5%. [Limitations] Due to limitation on experiment environment, our refined model was trained based on pre-trained parameters, which could limit the potential for classification performance. [Conclusions] The proposed method showed significant improvement compared to shallow machine learning schema or original BERT model, and was able to avoid tedious work of feature engineering. The method is independent of language, hence also suitable for research articles in Chinese language.

Keywords： Argumentative Zoning ; Deep Learning ; Bidirectional Encoder ; Neural Networks

PDF (1458KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

王末, 崔运鹏, 陈丽, 李欢. 基于深度学习的学术论文语步结构分类方法研究*. 数据分析与知识发现[J], 2020, 4(6): 60-68 doi:10.11925/infotech.2096-3467.2019.0487

Wang Mo. A Deep Learning-based Method of Argumentative Zoning for Research Articles. Data Analysis and Knowledge Discovery[J], 2020, 4(6): 60-68 doi:10.11925/infotech.2096-3467.2019.0487

1 引言

学术论文是科研人员进行研究发现发表和学术观点交流的主要形式^[1]。在互联网时代,学术论文的发表和传播普遍采用电子化媒介,科研人员可查阅到海量的学术论文。这样的科研模式提出了高效过滤和梳理海量的学术文献知识的需求。因此,需要解决从非结构化的学术文献文本中进行信息提取和知识组织的问题。

学术论文普遍遵循规范的写作范式,论述研究背景、目标、方法、结果、结论等信息。学术论文的语步结构（Move Structure 或Argumentative Zone）指论文中学术论述的语言修辞成分的类别组成^[2],如“背景”、“方法”、“结果”等。语步结构的识别分类本质上是一种文本分类问题^[3],是多种应用和研究的基础,如内容提取、自动摘要等^[4]。读者可能只关注论文中的某一部分信息,如研究方法。通过语步结构分类,可高效地从大量文献中分析某一研究领域的进展。此外,语步结构的分类结果可进一步用于分析粒度更细的学术语篇研究任务。

深度学习算法具备从数据中学习深层抽象特征的能力,在分类任务中免去繁琐的特征构建步骤。本研究采用深度学习语言表征模型,改进模型输入,以标注数据集对模型参数进行调优,训练获得学术论文语步结构分类深度学习模型。

2 相关研究

学术论文语步结构分类属于学术语篇语类研究的范畴^[5]。自从Teufel等^[6]于1999年提出语步分类（Argumentative Zoning）论文标注模式以来,学术论文语步结构识别一直是学术语篇研究热点之一^[7]。学术论文语步结构分类示例如图1所示。国内外对学术论文语步结构分类的研究主要采用基于规则或浅层机器学习模型的方法^[8],需构建大量规则或特征。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 学术论文语步结构分类示例

Fig. 1 An Example of Move Structure of Research Articles

基于规则的语步分类方法通过设定特定的句法规则识别语步类型,如英文论文句子中是否包含特定的词汇：“result”“evaluation”等词识别“结果”;“this paper”“our approach”等词识别“方法”。Gupta等^[9]采用模式匹配和语句依赖树识别论文的研究目标、方法、领域,并采用LDA聚类方法识别论文主题,识别结果的召回率较高但准确率较低。Houngbo等^[10]采用词汇及句法规则从生物学论文中提取研究方法,并与条件随机场模型进行对比研究,取得较好的识别效果。基于规则的论文语步分类方法依赖于规则的质量,易导致规则过于严格或遗漏,分类效果难以实现准确率和召回率的平衡。

基于机器学习的语步分类方法较多。从分类算法的类型来看,朴素贝叶斯^[2,11-12]、隐含马尔可夫模型^[13,14]、条件随机场^[1,3,15-16]、支持向量机^[1,17]等机器学习分类算法都被应用于语步分类研究。其中大部分研究是基于医学或生物学领域论文且只对论文摘要进行分析。从分类效果的角度,对上述机器学习分类方法尚无完整的横向比较。从个别的对比研究来看,支持向量机和条件随机场具有较好的分类效果^[1]。

机器学习语步分类研究中的一个关键步骤是分类算法输入特征的构建。从特征构建的角度分析,可分为以下类型。

（1）第一类是词袋模型（Bag of Words）^[18,19]。以词袋模型表达语句的向量特征或语境句法特征,作为分类算法的输入,如贝叶斯分类器。该方法能穷尽词项特征,但不对特征进行筛选,存在特征稀疏的问题^[3]。

（2）第二类是基于句法或语言学规则构建特征^[1,3,14,20],如句子的长度、特征词的位置、语句在篇章中的位置等。此类方法依然存在特征构建繁琐、特征不确定性等问题。

（3）第三类是基于词向量嵌入（Word Embedding）的方法^[21]。基于深度学习语言模型训练的词向量嵌入蕴含语句的上下文及语义近似度信息,如Word2Vec^[22]、GloVe^[23]等词向量嵌入语言模型。词向量嵌入训练以语言符号（Token）为粒度,能较好地表达单个词的特征。虽然已有研究^[21]将Word2Vec应用于论文语步分类任务,但只是改进了词向量的表达,可被视为词袋模型的改进。对于以句子为单位的论文语步分类任务,仍难以越过特征构建步骤。而且,基于非学术语料训练的词向量嵌入,直接应用于论文语步分类任务存在较大的语义空间不确定性。

相比而言,句子粒度的深度学习语言表征模型,如BERT（Bidirectional Encoder Representations from Transformers）^[24],可训练获得句子粒度的向量表达,且蕴含了句子的潜在语言学特征,可根据特定任务进行参数调优。基于此,本文受BERT语言表达模型的启发,以学术论文训练的BERT模型参数为基础改进模型输入,增加句子位置向量,训练论文语句的向量表达,输入分类器实现论文语步结构分类。此方法对基于海量文本训练的深度学习语言表征模型进行迁移学习,调节模型参数以学习学术文献的语言特征,既提高了模型的训练速度,又能适应学术论文的应用场景,实现算法运行速度和效果的提升。

3 深度学习语步分类方法

本文语步分类模型的句子表达部分基于BERT构建。BERT是基于Transformer^[25]的双向编码器表征模型。在BERT模型的句子表征输出单元之上增加多层感知机分类器,实现句子语步分类。分类器的激活函数为softmax。模型的框架如图2所示。该深度神经网络结构共有14层：BERT模型部分为12层,多层感知机分类器部分为2层（全连接层+softmax输出层）。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 语步分类深度学习模型结构

Fig. 2 Deep Learning Classification Model Structure for Argumentative Zoning

BERT模型通过Transformer堆栈构建双向编码器表征。模型训练方法是采用大型的语料库,对语料进行随机屏蔽,并训练预测屏蔽内容,直至模型的损失函数最小。BERT通过联合调节所有层中的上下文预先训练深度双向表征,对上下文语境有较强的学习能力,具体训练机制是从语料文本中随机抽取15%单词,通过BERT模型预测这些被抽取单词位置的内容。BERT的双向机制在处理一个词的时候,能学习到该词前文和后文单词的信息,从而学习上下文的语境信息。

模型的输入以句子为单位,并在每个句子前加上一个特别的分类嵌入<CLS>,作为输入系列的第一个Token。对于句子分类任务,模型学习到的最后一层隐含状态的第一个位置的输出即作为句子的向量表达。

3.1 改进模型数据输入

学术论文写作遵循相对固定的章节顺序,一般写作顺序为：研究背景,相关研究,方法,结果,讨论,结论。句子在论文中出现的位置可为推断句子语步属性提供有用信息。例如,句子出现在论文开始部分,则大概率属于研究背景。基于此,本文设计改进了BERT模型的输入,增加表征输入句子在篇章中所处位置的向量,与原有的输入嵌入向量进行加和作为模型的输入。

BERT模型的输入是通过三种嵌入向量加和而成,分别为字符嵌入（Token Embeddings）、句子分段嵌入（Segment Embeddings）、字符位置嵌入（Position Embeddings）。模型在训练过程中构建三种嵌入向量的查询表,并将其作为模型参数在训练过程中学习。如图3所示,类似于字符位置嵌入向量,本文在此基础上提出非学习输入向量——句子位置嵌入向量,表征当前输入句子在论文中的位置,即本研究模型的输入为上述4种向量嵌入的加和。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 研究模型数据输入

Fig. 3 Input of Proposed Argumentative Zoning Model

本研究基于Transformer字符位置嵌入^[25]原理提出句子位置嵌入计算公式。对于篇章的第i个句子,当i为偶数时,句子位置嵌入向量元素计算方法如公式（1）所示;当i为奇数时,句子位置嵌入向量元素计算方法如公式（2）所示。

(1)

S E_{(pos, i)} = \sin (\frac{1000 pos}{10000^{i / d_{model}}})

(2)

S E_{(pos, i)} = \cos (\frac{1000 pos}{10000^{(i - 1) / d_{model}}})

其中, $pos$ 为句子在文中的相对顺序,如全文有m句,则第i个句子的pos=i/m;分子里系数1 000为位置调节系数,按照数据集篇章句子数的数量级来确定（论文句子数一般为100~1 000）; $d_{model}$ 为模型输入的Token固定向量维度;偶数序号（见公式（1））和奇数序号（见公式（2））的句子位置向量元素值分别为正弦及余弦三角函数。对于给定句子位置 $S E_{pos + k}$ ,该句子位置向量可通过 $S E_{pos}$ 位置向量的线性函数表达（经过k位置偏移）,保留了句子的顺序信息。篇章中的某一句子的位置向量可通过它前文或后文位置的向量函数的平移获得。因此,句子位置嵌入可理解为论文中句子间的距离。假定篇章有m个句子,则第k个句子的Token句子位置向量E_s组成的矩阵如图4所示。同一个句子中,每一个Token的句子位置向量相同。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 句子位置向量输入示例

Fig. 4 An Example of Sentence Position Embeddings

3.2 多层感知机分类器

如图5所示,本文分类器的原理是在BERT最后一层隐含状态的输出后增加多层感知机,在输出层通过softmax激活函数对论文句子实现语步分类。多层感知机结构为一个全连接隐藏层及输出层。

分类器的输入,即BERT模型的<CLS>位置对应输出,为768维的向量。中间隐藏层和输出层为全连接层。隐藏层节点数n采用256、128、64三种进行实验。输出层节点数量由分类类别数确定,按照分类任务为11个和7个。输出模型的损失函数采用交叉熵损失（Cross Entropy Loss）函数。训练过程中,BERT模型和最后全连接分类层参数联合调优,实现分类模型的收敛。

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 多层感知机论文语步分类器结构

Fig. 5 Multilayer Perceptron Classifier for Argumentative Zoning

3.3 预训练模型

本文模型的初始参数采用SciBERT^[26]预训练参数。该参数基于114万篇学术论文全文训练。82%的语料来自生物医学领域,与本研究的数据集领域相近,适用于该分类任务。模型深度神经网络为12层（Transfomer块）,隐藏状态尺寸为768,自注意力头数为12,一共有1.1亿个参数。

SciBERT预训练模型的大部分参数将保持不变。在图2所示模型上,采用实验数据进行训练,分类器以及BERT模型的最后两层网络的参数将进行优化,实现损失函数的最小化。

4 实验过程

4.1 数据来源

本文采用Liakata等^[1]公开的ART Corpus语料集为研究数据。该数据集包含225篇物理化学和生物化学领域论文全文,单词量超过一百万个,语句量为35 040条。该语料以句子为单位按照11种类型进行标注,详细内容如表1所示。其中,前7类为理工类科技论文的核心语步类型,在论文中应有相应的语句体现。该语料以XML数据格式储存,在数据分析前需进行预处理。

表1 ART Corpus数据集论文语步分类类别

Table 1 Move Structure Classes of ART Corpus Dataset

类别	类别缩写	中文含义
Conclusion	CON	结论
Result	RES	结果
Goal	GOA	目标
Method	MET	方法
Object	OBJ	对象
Experiment	EXP	实验
Observation	OBS	观察
Hypothesis	HYP	假设
Motivation	MOT	动机
Background	BAC	背景
Model	MOD	模型

新窗口打开| 下载CSV

4.2 数据预处理

对XML格式的语料集进行解析和去噪处理,提取句子所属的文章ID、章节ID、语句文本、语句标签、句子序号,并清除无效的噪声数据,如少数人为错误（句子长度过短、句子内容为公式符号等）。预处理后所得有效数据为34 590条。预处理后的部分数据如图6所示。数据集中各标签的数据量统计信息如表2所示。由于学术论文写作风格特点,各语步标签的数据量不平衡。介绍“背景”的语句数量最多,介绍“动机”的语句数量最少。

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 预处理后部分数据内容示例

Fig. 6 Example of Preprocessed Data

表2 各语步标签的论文语句统计

Table 2 Statistics of the Dataset for Each Move Structure Class

统计指标	CON	RES	GOA	MET	OBJ	EXP	OBS	HYP	MOT	BAC	MOD
句子数	3 082	7 349	548	3 740	1 189	2 822	4 643	655	465	6 648	3 449
占比(%)	8.91	21.25	1.58	10.81	3.44	8.16	13.42	1.89	1.35	19.22	9.97
平均单词数	28.10	26.70	28.46	25.07	25.16	24.33	22.81	27.33	25.39	25.50	27.16

新窗口打开| 下载CSV

数据中已标注句子所属（标题、摘要、正文）,以及句子序号。由于标题、摘要与正文句子的重要性和位置属性不同,在处理句子位置信息时,区分标题、摘要、正文。分别将标题、摘要、正文作为单独篇章,按照3.1所述方法计算各句子位置嵌入向量,用于后续处理。

为验证分类模型的健壮性,在上述数据格式转换和噪声数据清理后,进行数据筛选,过滤出前7种核心语步标签,形成只包含前7个类别的数据子集。

4.3 实验方法

实验分为两部分：第一部分采用全部11个标签的数据集;第二部分仅采用前7个核心分类的数据集,以验证在核心语步分类上的效果。两部分实验分别采用本文改进的模型输入与原始的模型输入进行分类结果比较。以篇章为单位随机选取实验训练集、开发集、测试集,比例分别为82%、8%、10%。

由于模型深度和参数数量较大,训练需要较好的硬件支持。本文模型采用Python 3.5语言,基于TensorFlow 1.13和Google BERT开源代码开发。硬件环境为Intel Xeon 16核处理器、Nvidia Tesla P100显卡、64GB内存。

5 实验结果及分析

实验结果从准确率（Accuracy）、召回率（Recall）、F1三个维度进行评价。在上述实验环境下,单个模型的训练时间约需一个小时。改进输入的模型分类任务的最佳模型超参数如表3所示。

表3 各分类任务的最佳模型超参数

Table 3 Hyper-parameters of Optimum Models

分类模型	批处理大小	学习率	训练期	分类器隐含层节点数
11标签分类	16	$2 e^{- 5}$	4	256
7标签分类	32	$2 e^{- 5}$	4	128

新窗口打开| 下载CSV

基于同样的实验数据,分类模型效果对比如表4所示。本文分类总体准确率较支持向量机模型LibSVM（51.6%）提高了29.7%,达到81.3%;平均召回率及平均F1均大幅提高。

表4 语步分类结果对比

Table 4 Classification Results of Different Argumentative Zoning Models

分类模型		总体准确率（%）	平均召回率（%）	平均F1（%）
LibSVM 11标签		51.6	43.0	46.3
11标签分类	SciBERT	75.2	68.5	74.6
11标签分类	改进输入	81.3	72.4	75.5
7标签分类	SciBERT	80.1	76.4	78.8
7标签分类	改进输入	85.5	80.7	83.1

新窗口打开| 下载CSV

表4中,11标签分类以及7标签分类分别采用改进输入模型以及SciBERT模型进行对比实验。对7标签分类的核心语步数据集,本文分类模型表现出更优的语步分类能力,分类总体准确率达85.5%。改进输入的SciBERT训练模型较原模型在11标签分类和7标签分类任务上均有提高,总体准确度分别提高6.1%和5.4%。

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 本研究模型11标签分类论文语步分类结果评价指标对比（%）

Fig. 7 Classification Metrics on 11-class Argumentative Zoning for Each Class(%)

如图7所示,11标签分类任务结果表明对“实验”（EXP）、“背景”（BAC）、“观察”（OBS）、“模型”（MOD）4类语步分类效果最好,F1值分别为78.7%、88.3%、81.6%、86.2%。从训练数据的分布分析,“背景”和“观察”语步在训练集中占比较高（分别为19.22%和13.42%）,可解释较好的分类效果。但“实验”和“模型”语步在训练集中占比较低（分别为8.16%和9.97%）,却获得较好的分类效果,这可能与这两个语步显著的化学实验描述专业写作特点（如大量的化学反应式等）有较强关系。

6 结论

本文将深度学习语言表征模型与学术文献语步分类任务结合,改进模型输入,增加表征句子位置的输入,对模型进行迁移学习和联合调优。该方法可学习单词潜在的上下文语境特征,生成句子级别的嵌入表达,避免了传统分类方法的特征构建步骤。模型训练基于预训练模型参数进行迁移学习,可大幅缩短模型训练时间,同时保证模型效果。此外,该模型不受限于语言类别,可适用于各种语言的学术论文语类语篇研究。

采用公开的数据集进行模型训练、测试评估。实验结果表明,该方法较传统的“特征构建+机器学习”分类模式的分类效果有较大提高。此外,由于句子位置能在一定程度上反映论文语步属性,结合句子位置信息的模型输入对模型效果有一定程度的提高。基于以海量学术论文语料训练的预训练模型SciBERT,本提出的改进模型输入的方法,模型分类效果较浅层学习方法有大幅提高,较原SciBERT模型也有一定程度提高,具有实际应用潜力。受限于实验环境,本文提出的模型输入基于预训练参数训练,模型参数尚有进一步拟合空间。

作者贡献声明

王末,崔运鹏：提出研究思路,设计研究方案,进行实验,论文起草;

陈丽,李欢：采集、清洗数据;

王末：论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据:

支撑数据见期刊网络版,http://www.infotech.ac.cn。

[1] Liakata Maria, Soldatova Larisa.ART_Corpus.tar.gz. The ART Corpus.

[2] 王末,崔运鹏,陈丽,李欢. preprocessed_sentence_core_concept_class.tsv. 预处理后数据集.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Liakata

, Saha

, Dobnik

, et al.

Automatic Recognition of Conceptualization Zones in Scientific Articles and Two Life Science Applications

[J]. Bioinformatics, 2012,28(7):991-1000.

DOI:10.1093/bioinformatics/bts071 URL [本文引用: 6]

Motivation: Scholarly biomedical publications report on the findings of a research investigation. Scientists use a well-established discourse structure to relate their work to the state of the art, express their own motivation and hypotheses and report on their methods, results and conclusions. In previous work, we have proposed ways to explicitly annotate the structure of scientific investigations in scholarly publications. Here we present the means to facilitate automatic access to the scientific discourse of articles by automating the recognition of 11 categories at the sentence level, which we call Core Scientific Concepts (CoreSCs). These include: Hypothesis, Motivation, Goal, Object, Background, Method, Experiment, Model, Observation, Result and Conclusion. CoreSCs provide the structure and context to all statements and relations within an article and their automatic recognition can greatly facilitate biomedical information extraction by characterizing the different types of facts, hypotheses and evidence available in a scientific publication.
Results: We have trained and compared machine learning classifiers (support vector machines and conditional random fields) on a corpus of 265 full articles in biochemistry and chemistry to automatically recognize CoreSCs. We have evaluated our automatic classifications against a manually annotated gold standard, and have achieved promising accuracies with 'Experiment', 'Background' and 'Model' being the categories with the highest F1-scores (76%, 62% and 53%, respectively). We have analysed the task of CoreSC annotation both from a sentence classification as well as sequence labelling perspective and we present a detailed feature evaluation. The most discriminative features are local sentence features such as unigrams, bigrams and grammatical dependencies while features encoding the document structure, such as section headings, also play an important role for some of the categories. We discuss the usefulness of automatically generated CoreSCs in two biomedical applications as well as work in progress.

[2]

Teufel

, Moens

Summarizing Scientific Articles: Experiments with Relevance and Rhetorical Status

[J]. Computational Linguistics, 2002,28(4):409-445.

DOI:10.1162/089120102762671936 URL [本文引用: 2]

[3]

王立非, 刘霞.

英语学术论文摘要语步结构自动识别模型的构建

[J]. 外语电化教学, 2017(2):45-50,64.

[本文引用: 4]

( Wang

Lifei

, Liu

Xia

Constructing a Model for the Automatic Identification of Move Structure in English Research Article Abstracts

[J]. Technology Enhanced Foreign Language Education, 2017(2):45-50, 64.)

[本文引用: 4]

[4]

Guo

, Korhonen

, Poibeau

A Weakly-Supervised Approach to Argumentative Zoning of Scientific Documents

[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. 2011: 273-283.

检索词推荐：