Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (12): 1-9    DOI: 10.11925/infotech.2096-3467.2019.0266
     研究论文 本期目录 | 过刊浏览 | 高级检索 |
不同深度学习模型的科技论文摘要语步识别效果对比研究 *
张智雄1,2,3,4(),刘欢1,2,4,丁良萍1,2,4,吴朋民1,2,于改红1,2
1 中国科学院文献情报中心 北京 100190
2 中国科学院大学经济与管理学院图书情报与档案管理系 北京 100190
3 中国科学院武汉文献情报中心 武汉 430071
4 科技大数据湖北省重点实验室 武汉 430071
Identifying Moves of Research Abstracts with Deep Learning Methods
Zhixiong Zhang1,2,3,4(),Huan Liu1,2,4,Liangping Ding1,2,4,Pengmin Wu1,2,Gaihong Yu1,2
1 National Science Library, Chinese Academy of Sciences, Beijing 100190, China
2 Department of Library Information and Archives Management, University of Chinese Academy of Sciences, Beijing 100190, China
3 Wuhan Library, Chinese Academy of Sciences, Wuhan 430071, China
4 Hubei Key Laboratory of Big Data in Science and Technology, Wuhan 430071, China
全文: PDF(566 KB)   HTML ( 46
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】探究不同深度学习模型的科技论文摘要语步识别效果, 并分析识别效果差异原因。【方法】构建大规模的科技论文结构化摘要语料库, 选择10 000和50 000两种样本量的训练集, 以传统机器学习方法SVM作为对比基准, 引入多种深度学习方法(包括DNN、LSTM、Attention-BiLSTM等神经网络模型), 开展语步识别实验, 并对实验结果进行对比分析。【结果】Attention-BiLSTM方法在两种样本量下的实验中都取得最好的识别效果, 50 000样本量下F1值达0.9375; SVM方法的识别效果意外好于DNN、LSTM两种深度学习方法; 但是, 样本量从10 000增加到50 000时, SVM方法的识别效果提升最小(F1值提升0.0125), LSTM方法效果提升最大(F1值提升0.1125)。【局限】由于该领域尚未有公开的通用语料, 主要以笔者收集的结构化论文摘要作为训练和测试语料, 因此本文的研究结果在与他人比较时有一定的局限性。【结论】双向LSTM网络结构和注意力机制能够显著提升深度学习模型的语步识别效果; 深度学习方法在大规模训练集下更能体现其优越性。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
张智雄
刘欢
丁良萍
吴朋民
于改红
关键词 深度学习神经网络语步识别支持向量机    
Abstract

[Objective] This paper compares the performance of move recognition methods with different deep learning algorithms. [Methods] Firstly, we built a large training corpus. Then, we used the traditional machine learning method SVM as a benchmark, and developed four moves recognition models based on DNN, LSTM, Attention-BiLSTM and LSTM. Finally, we conducted two rounds of experiments with sample size of 10,000 and 50,000. [Results] Attention-BiLSTM method achieved the best results in both experiments over the four methods (F1=0.9375 with the larger sample). SVM method outperformed DNN and LSTM in both experiments. While changing sample size from 10,000 to 50,000, SVM received the least increase of F1 score (0.0125), and LSTM had the largest increase of F1 score (0.1125). [Limitations] There is no universal test corpus for similar research. Therefore, our results could not be compared with the results of other studies. [Conclusions] The bi-directional LSTM network structure and attention mechanism can significantly improve the performance of move recognition. The deep learning methods work better with larger sample size.

Key wordsDeep Learning    Neural Network    Moves Recognition    Support Vector Machine
收稿日期: 2019-03-07     
中图分类号:  G202 TP393  
基金资助:*本文系中国科学院文献情报能力建设专项子项目“科技文献丰富语义检索应用示范”(项目编号: 院1734)
通讯作者: 张智雄     E-mail: zhangzhx@mail.las.ac.cn
引用本文:   
张智雄,刘欢,丁良萍,吴朋民,于改红. 不同深度学习模型的科技论文摘要语步识别效果对比研究 *[J]. 数据分析与知识发现, 2019, 3(12): 1-9.
Zhixiong Zhang,Huan Liu,Liangping Ding,Pengmin Wu,Gaihong Yu. Identifying Moves of Research Abstracts with Deep Learning Methods. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2019.0266.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0266
对比项 SciAnnoDoc[2,3] CoreSC[4] AZ[5]/AZ-II[6] Multi-Layer[7]
类别数 5 11 7/15 5
语料领域 人文性别研究 生物化学 计算语言学/生物化学 计算机图形学
自动分类算法 基于规则的算法 SVM、CRF NB LR和SVM
特定类别上的最好效果(F1值) Methodology59% Experiment75% OWN85% Approach 87.6%
表1  国外相关研究成果
图1  使用Word2Vec表示词汇和文档
图2  Attention机制
类别 P R F1值
Purpose 0.8900 0.8800 0.8900
Methods 0.9000 0.9400 0.9200
Results 0.8700 0.9200 0.8900
Conclusions 0.8900 0.8200 0.8600
平均值 0.8875 0.8900 0.8900
表2  样本量10 000时的支持向量机实验结果
类别 P R F1值
Purpose 0.9000 0.9200 0.9100
Methods 0.9300 0.9200 0.9300
Results 0.8700 0.9200 0.9000
Conclusions 0.9100 0.8400 0.8700
平均值 0.9025 0.9000 0.9025
表3  样本量50 000时的支持向量机实验结果
类别 P R F1值
Purpose 0.8300 0.7900 0.8100
Methods 0.8600 0.8700 0.8700
Results 0.8000 0.8300 0.8100
Conclusions 0.7900 0.7900 0.7900
平均值 0.8200 0.8200 0.8200
表4  样本量10 000时的DNN模型实验结果
类别 P R F1值
Purpose 0.8500 0.8400 0.8500
Methods 0.8800 0.9000 0.8900
Results 0.8800 0.8100 0.8400
Conclusions 0.7800 0.8400 0.8100
平均值 0.8475 0.8475 0.8475
表5  样本量50 000时的DNN模型实验结果
类别 P R F1值
Purpose 0.7900 0.7300 0.7600
Methods 0.8000 0.9000 0.8500
Results 0.8200 0.7100 0.7700
Conclusions 0.7200 0.7800 0.7500
平均值 0.7825 0.7800 0.7825
表6  样本量10 000时的LSTM模型实验
类别 P R F1值
Purpose 0.9000 0.9400 0.9200
Methods 0.9100 0.9200 0.9200
Results 0.8800 0.8700 0.8700
Conclusions 0.9000 0.8500 0.8700
平均值 0.8975 0.8950 0.8950
表7  样本量50 000时的LSTM模型实验
类别 P R F1值
Purpose 0.9200 0.9300 0.9300
Methods 0.9300 0.9400 0.9300
Results 0.9200 0.9200 0.9200
Conclusions 0.9100 0.9000 0.9000
平均值 0.9200 0.9225 0.9200
表8  样本量10 000时的Attention-BiLSTM模型实验结果
类别 P R F1值
Purpose 0.9600 0.9500 0.9500
Methods 0.9400 0.9500 0.9400
Results 0.9400 0.9100 0.9300
Conclusions 0.9200 0.9300 0.9300
平均值 0.9400 0.9350 0.9375
表9  样本量50 000时的Attention-BiLSTM模型实验结果
样本量 类别 SVM
模型
DNN
模型
LSTM
模型
Att-BiLSTM
模型
10 000 Purpose 0.8900 0.8100 0.7600 0.9300
Methods 0.9200 0.8700 0.8500 0.9300
Results 0.8900 0.8100 0.7700 0.9200
Conclusions 0.8600 0.7900 0.7500 0.9000
50 000 Purpose 0.9100 0.8500 0.9200 0.9500
Methods 0.9300 0.8900 0.9200 0.9400
Results 0.9000 0.8400 0.8700 0.9300
Conclusions 0.8700 0.8100 0.8700 0.9300
表10  各组实验4种语步识别结果的F1值整理
因子 自由度 离差平方和 均方 F统计量 p
样本量
(整体)
1.0 0.014450 0.014450 5.14006 0.03075
样本量
(SVM方法)
1.0 0.000313 0.000313 0.51020 0.50188
样本量
(DNN方法)
1.0 0.001513 0.001513 1.32 0.29432
样本量
(LSTM方法)
1.0 0.025313 0.025313 17.30769 0.00594
样本量
(Att-BiLSTM方法)
1.0 0.000612 0.000612 4.2 0.08632
表11  不同样本量下实验结果方差分析结果
因子 自由度 离差平方和 均方 F统计量 p
SVM,
DNN, LSTM,
Att-BiLSTM
3.0 0.050837 0.016946 9.895377 0.000129
SVM, DNN 1.0 0.015625 0.015625 17.676768 0.000883
SVM, LSTM 1.0 0.013225 0.013225 4.862771 0.044665
SVM,
Att-BiLSTM
1.0 0.004225 0.004225 10.803653 0.005401
DNN, LSTM 1.0 0.000100 0.000100 0.032961 0.858538
DNN,
Att-BiLSTM
1.0 0.036100 0.036100 51.179747 0.000005
LSTM,
Att-BiLSTM
1.0 0.032400 0.032400 12.750527 0.003071
表12  不同方法下方差分析结果
[1] Swales J M . Research Genres: Explorations and Applications [M]. Cambridge: Cambridge University Press, 2004: 228-229.
[2] Ribaupierre H D, Falquet G . User-Centric Design and Evaluation of a Semantic Annotation Model for Scientific Documents [C]//Proceedings of the 14th International Conference on Knowledge Technologies and Data-driven Business. New York: ACM, 2014: 40.
[3] Ribaupierre H D, Falquet G . An Automated Annotation Process for the SciDocAnnot Scientific Document Model [C] //Proceedings of the 5th International Workshop on Semantic Digital Archives. Osaka: International Workshop on Semantic Digital Archives, 2015: 30-41.
[4] Liakata M, Teufel S, Siddharthan A , et al. Corpora for the Conceptualisation and Zoning of Scientific Papers [C] //Proceedings of the 2010 International Conference on Language Resources and Evaluation. Valletta: European Languages Resources Association (ELRA), 2010: 105-108.
[5] Teufel S, Carletta J, Moens M . An Annotation Scheme for Discourse-level Argumentation in Research Articles [C] //Proceedings of the 9th Conference on European Chapter of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 1999: 110-117.
[6] Teufel S, Batchelor C . Towards Discipline-independent Argumentative Zoning: Evidence from Chemistry and Computational Linguistics [C]// Proceeding of the Conference on Empirical Methods in Natural Language Processing. Singapore: Association for Computational Linguistics, 2009: 1493-1502.
[7] Fisas B, Ronzano F, Saggion H . A Multi-layered Annotated Corpus of Scientific Papers [C]//Proceedings of the 10th International Conference on Language Resources and Evaluation. European Language Resources Association, 2016: 3081-3088.
[8] 刘霞 . 英语学术论文摘要语步结构自动识别模型的构建[D]. 北京: 北京外国语大学, 2016.
( Liu Xia . Constructing a Model for the Automatic Identification of Move Structure in English Research Article Abstracts[D]. Beijing: Beijing Foreign Studies University, 2016.)
[9] 王立非, 刘霞 . 英语学术论文摘要语步结构自动识别模型的构建[J]. 外语电化教学, 2017(2):47-52, 66.
( Wang Lifei, Liu Xia . Constructing a Model for the Automatic Identification of Move Structure in English Research Article Abstracts[J]. Technology Enhance Foreign Language Education, 2017(2):47-52, 66.)
[10] Mikolov T, Chen K, Corrado G , et al. Efficient Estimation of Word Representations in Vector Space[OL]. arXiv Preprint, arXiv:1301.3781v3.
[11] Bengio Y, Delalleau O . On the Expressive Power of Deep Architectures [C]//Proceeding of the International Conference on Algorithmic Learning Theory. Springer-Verlag, 2011: 18-36.
[12] Hochreiter S, Schmidhuber J . Long Short-Term Memory[J]. Neural Computation, 1997,9(8):1735-1780.
[13] Irsoy O, Cardie C . Opinion Mining with Deep Recurrent Neural Networks [C]//Proceeding of the 2014 Conference on Empirical Methods in Natural Language Processing. 2014: 720-728.
[14] Mnih V, Heess N, Graves A , et al. Recurrent Models of Visual Attention[OL]. arXiv Preprint , arXiv: 1406.6247.
[1] 聂维民,陈永洲,马静. 融合多粒度信息的文本向量表示模型 *[J]. 数据分析与知识发现, 2019, 3(9): 45-52.
[2] 邵云飞,刘东苏. 基于类别特征扩展的短文本分类方法研究 *[J]. 数据分析与知识发现, 2019, 3(9): 60-67.
[3] 秦贺然,刘浏,李斌,王东波. 融入实体特征的典籍自动分类研究 *[J]. 数据分析与知识发现, 2019, 3(9): 68-76.
[4] 王若佳,张璐,王继民. 基于机器学习的在线问诊平台智能分诊研究[J]. 数据分析与知识发现, 2019, 3(9): 88-97.
[5] 李纲,周华阳,毛进,陈思菁. 基于机器学习的社交媒体用户分类研究 *[J]. 数据分析与知识发现, 2019, 3(8): 1-9.
[6] 何振宇,董祥祥,朱庆华. 基于用户使用行为视角的百度百科词条分类研究*[J]. 数据分析与知识发现, 2019, 3(6): 117-122.
[7] 曾庆田,戴明弟,李超,段华,赵中英. 轨迹数据融合用户表示方法的重要位置发现*[J]. 数据分析与知识发现, 2019, 3(6): 75-82.
[8] 刘勘,陈露. 面向医疗分诊的深度神经网络学习*[J]. 数据分析与知识发现, 2019, 3(6): 99-108.
[9] 张梦吉,杜婉钰,郑楠. 引入新闻短文本的个股走势预测模型[J]. 数据分析与知识发现, 2019, 3(5): 11-18.
[10] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[11] 陈万成,戴浩然,金映含. 基于数据挖掘方法的HEDONIC房屋价格评估模型——以美国城市西雅图为例[J]. 数据分析与知识发现, 2019, 3(5): 19-26.
[12] 裴晶晶,乐小虬. 篇章级并列关系文本块识别方法研究[J]. 数据分析与知识发现, 2019, 3(5): 51-56.
[13] 吴菊华,张烁,陶雷,姜顺军. 基于神经网络的脑卒中风险预测模型研究 *[J]. 数据分析与知识发现, 2019, 3(12): 70-75.
[14] 丁良萍,张智雄,刘欢. 影响支持向量机模型语步自动识别效果的因素研究 *[J]. 数据分析与知识发现, 2019, 3(11): 16-23.
[15] 余丽,钱力,付常雷,赵华茗. 基于深度学习的文本中细粒度知识元抽取方法研究*[J]. 数据分析与知识发现, 2019, 3(1): 38-45.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn