Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (12): 1-9     https://doi.org/10.11925/infotech.2096-3467.2019.0266
     研究论文 本期目录 | 过刊浏览 | 高级检索 |
不同深度学习模型的科技论文摘要语步识别效果对比研究 *
张智雄1,2,3,4(),刘欢1,2,4,丁良萍1,2,4,吴朋民1,2,于改红1,2
1 中国科学院文献情报中心 北京 100190
2 中国科学院大学经济与管理学院图书情报与档案管理系 北京 100190
3 中国科学院武汉文献情报中心 武汉 430071
4 科技大数据湖北省重点实验室 武汉 430071
Identifying Moves of Research Abstracts with Deep Learning Methods
Zhixiong Zhang1,2,3,4(),Huan Liu1,2,4,Liangping Ding1,2,4,Pengmin Wu1,2,Gaihong Yu1,2
1 National Science Library, Chinese Academy of Sciences, Beijing 100190, China
2 Department of Library Information and Archives Management, University of Chinese Academy of Sciences, Beijing 100190, China
3 Wuhan Library, Chinese Academy of Sciences, Wuhan 430071, China
4 Hubei Key Laboratory of Big Data in Science and Technology, Wuhan 430071, China
全文: PDF (566 KB)   HTML ( 68
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】探究不同深度学习模型的科技论文摘要语步识别效果, 并分析识别效果差异原因。【方法】构建大规模的科技论文结构化摘要语料库, 选择10 000和50 000两种样本量的训练集, 以传统机器学习方法SVM作为对比基准, 引入多种深度学习方法(包括DNN、LSTM、Attention-BiLSTM等神经网络模型), 开展语步识别实验, 并对实验结果进行对比分析。【结果】Attention-BiLSTM方法在两种样本量下的实验中都取得最好的识别效果, 50 000样本量下F1值达0.9375; SVM方法的识别效果意外好于DNN、LSTM两种深度学习方法; 但是, 样本量从10 000增加到50 000时, SVM方法的识别效果提升最小(F1值提升0.0125), LSTM方法效果提升最大(F1值提升0.1125)。【局限】由于该领域尚未有公开的通用语料, 主要以笔者收集的结构化论文摘要作为训练和测试语料, 因此本文的研究结果在与他人比较时有一定的局限性。【结论】双向LSTM网络结构和注意力机制能够显著提升深度学习模型的语步识别效果; 深度学习方法在大规模训练集下更能体现其优越性。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
张智雄
刘欢
丁良萍
吴朋民
于改红
关键词 深度学习神经网络语步识别支持向量机    
Abstract

[Objective] This paper compares the performance of move recognition methods with different deep learning algorithms. [Methods] Firstly, we built a large training corpus. Then, we used the traditional machine learning method SVM as a benchmark, and developed four moves recognition models based on DNN, LSTM, Attention-BiLSTM and LSTM. Finally, we conducted two rounds of experiments with sample size of 10,000 and 50,000. [Results] Attention-BiLSTM method achieved the best results in both experiments over the four methods (F1=0.9375 with the larger sample). SVM method outperformed DNN and LSTM in both experiments. While changing sample size from 10,000 to 50,000, SVM received the least increase of F1 score (0.0125), and LSTM had the largest increase of F1 score (0.1125). [Limitations] There is no universal test corpus for similar research. Therefore, our results could not be compared with the results of other studies. [Conclusions] The bi-directional LSTM network structure and attention mechanism can significantly improve the performance of move recognition. The deep learning methods work better with larger sample size.

Key wordsDeep Learning    Neural Network    Moves Recognition    Support Vector Machine
收稿日期: 2019-03-07      出版日期: 2019-12-25
ZTFLH:  G202 TP393  
基金资助:*本文系中国科学院文献情报能力建设专项子项目“科技文献丰富语义检索应用示范”(项目编号: 院1734)
通讯作者: 张智雄     E-mail: zhangzhx@mail.las.ac.cn
引用本文:   
张智雄,刘欢,丁良萍,吴朋民,于改红. 不同深度学习模型的科技论文摘要语步识别效果对比研究 *[J]. 数据分析与知识发现, 2019, 3(12): 1-9.
Zhixiong Zhang,Huan Liu,Liangping Ding,Pengmin Wu,Gaihong Yu. Identifying Moves of Research Abstracts with Deep Learning Methods. Data Analysis and Knowledge Discovery, 2019, 3(12): 1-9.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0266      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2019/V3/I12/1
对比项 SciAnnoDoc[2,3] CoreSC[4] AZ[5]/AZ-II[6] Multi-Layer[7]
类别数 5 11 7/15 5
语料领域 人文性别研究 生物化学 计算语言学/生物化学 计算机图形学
自动分类算法 基于规则的算法 SVM、CRF NB LR和SVM
特定类别上的最好效果(F1值) Methodology59% Experiment75% OWN85% Approach 87.6%
  国外相关研究成果
  使用Word2Vec表示词汇和文档
  Attention机制
类别 P R F1值
Purpose 0.8900 0.8800 0.8900
Methods 0.9000 0.9400 0.9200
Results 0.8700 0.9200 0.8900
Conclusions 0.8900 0.8200 0.8600
平均值 0.8875 0.8900 0.8900
  样本量10 000时的支持向量机实验结果
类别 P R F1值
Purpose 0.9000 0.9200 0.9100
Methods 0.9300 0.9200 0.9300
Results 0.8700 0.9200 0.9000
Conclusions 0.9100 0.8400 0.8700
平均值 0.9025 0.9000 0.9025
  样本量50 000时的支持向量机实验结果
类别 P R F1值
Purpose 0.8300 0.7900 0.8100
Methods 0.8600 0.8700 0.8700
Results 0.8000 0.8300 0.8100
Conclusions 0.7900 0.7900 0.7900
平均值 0.8200 0.8200 0.8200
  样本量10 000时的DNN模型实验结果
类别 P R F1值
Purpose 0.8500 0.8400 0.8500
Methods 0.8800 0.9000 0.8900
Results 0.8800 0.8100 0.8400
Conclusions 0.7800 0.8400 0.8100
平均值 0.8475 0.8475 0.8475
  样本量50 000时的DNN模型实验结果
类别 P R F1值
Purpose 0.7900 0.7300 0.7600
Methods 0.8000 0.9000 0.8500
Results 0.8200 0.7100 0.7700
Conclusions 0.7200 0.7800 0.7500
平均值 0.7825 0.7800 0.7825
  样本量10 000时的LSTM模型实验
类别 P R F1值
Purpose 0.9000 0.9400 0.9200
Methods 0.9100 0.9200 0.9200
Results 0.8800 0.8700 0.8700
Conclusions 0.9000 0.8500 0.8700
平均值 0.8975 0.8950 0.8950
  样本量50 000时的LSTM模型实验
类别 P R F1值
Purpose 0.9200 0.9300 0.9300
Methods 0.9300 0.9400 0.9300
Results 0.9200 0.9200 0.9200
Conclusions 0.9100 0.9000 0.9000
平均值 0.9200 0.9225 0.9200
  样本量10 000时的Attention-BiLSTM模型实验结果
类别 P R F1值
Purpose 0.9600 0.9500 0.9500
Methods 0.9400 0.9500 0.9400
Results 0.9400 0.9100 0.9300
Conclusions 0.9200 0.9300 0.9300
平均值 0.9400 0.9350 0.9375
  样本量50 000时的Attention-BiLSTM模型实验结果
样本量 类别 SVM
模型
DNN
模型
LSTM
模型
Att-BiLSTM
模型
10 000 Purpose 0.8900 0.8100 0.7600 0.9300
Methods 0.9200 0.8700 0.8500 0.9300
Results 0.8900 0.8100 0.7700 0.9200
Conclusions 0.8600 0.7900 0.7500 0.9000
50 000 Purpose 0.9100 0.8500 0.9200 0.9500
Methods 0.9300 0.8900 0.9200 0.9400
Results 0.9000 0.8400 0.8700 0.9300
Conclusions 0.8700 0.8100 0.8700 0.9300
  各组实验4种语步识别结果的F1值整理
因子 自由度 离差平方和 均方 F统计量 p
样本量
(整体)
1.0 0.014450 0.014450 5.14006 0.03075
样本量
(SVM方法)
1.0 0.000313 0.000313 0.51020 0.50188
样本量
(DNN方法)
1.0 0.001513 0.001513 1.32 0.29432
样本量
(LSTM方法)
1.0 0.025313 0.025313 17.30769 0.00594
样本量
(Att-BiLSTM方法)
1.0 0.000612 0.000612 4.2 0.08632
  不同样本量下实验结果方差分析结果
因子 自由度 离差平方和 均方 F统计量 p
SVM,
DNN, LSTM,
Att-BiLSTM
3.0 0.050837 0.016946 9.895377 0.000129
SVM, DNN 1.0 0.015625 0.015625 17.676768 0.000883
SVM, LSTM 1.0 0.013225 0.013225 4.862771 0.044665
SVM,
Att-BiLSTM
1.0 0.004225 0.004225 10.803653 0.005401
DNN, LSTM 1.0 0.000100 0.000100 0.032961 0.858538
DNN,
Att-BiLSTM
1.0 0.036100 0.036100 51.179747 0.000005
LSTM,
Att-BiLSTM
1.0 0.032400 0.032400 12.750527 0.003071
  不同方法下方差分析结果
[1] Swales J M . Research Genres: Explorations and Applications [M]. Cambridge: Cambridge University Press, 2004: 228-229.
[2] Ribaupierre H D, Falquet G . User-Centric Design and Evaluation of a Semantic Annotation Model for Scientific Documents [C]//Proceedings of the 14th International Conference on Knowledge Technologies and Data-driven Business. New York: ACM, 2014: 40.
[3] Ribaupierre H D, Falquet G . An Automated Annotation Process for the SciDocAnnot Scientific Document Model [C] //Proceedings of the 5th International Workshop on Semantic Digital Archives. Osaka: International Workshop on Semantic Digital Archives, 2015: 30-41.
[4] Liakata M, Teufel S, Siddharthan A , et al. Corpora for the Conceptualisation and Zoning of Scientific Papers [C] //Proceedings of the 2010 International Conference on Language Resources and Evaluation. Valletta: European Languages Resources Association (ELRA), 2010: 105-108.
[5] Teufel S, Carletta J, Moens M . An Annotation Scheme for Discourse-level Argumentation in Research Articles [C] //Proceedings of the 9th Conference on European Chapter of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 1999: 110-117.
[6] Teufel S, Batchelor C . Towards Discipline-independent Argumentative Zoning: Evidence from Chemistry and Computational Linguistics [C]// Proceeding of the Conference on Empirical Methods in Natural Language Processing. Singapore: Association for Computational Linguistics, 2009: 1493-1502.
[7] Fisas B, Ronzano F, Saggion H . A Multi-layered Annotated Corpus of Scientific Papers [C]//Proceedings of the 10th International Conference on Language Resources and Evaluation. European Language Resources Association, 2016: 3081-3088.
[8] 刘霞 . 英语学术论文摘要语步结构自动识别模型的构建[D]. 北京: 北京外国语大学, 2016.
[8] ( Liu Xia . Constructing a Model for the Automatic Identification of Move Structure in English Research Article Abstracts[D]. Beijing: Beijing Foreign Studies University, 2016.)
[9] 王立非, 刘霞 . 英语学术论文摘要语步结构自动识别模型的构建[J]. 外语电化教学, 2017(2):47-52, 66.
[9] ( Wang Lifei, Liu Xia . Constructing a Model for the Automatic Identification of Move Structure in English Research Article Abstracts[J]. Technology Enhance Foreign Language Education, 2017(2):47-52, 66.)
[10] Mikolov T, Chen K, Corrado G , et al. Efficient Estimation of Word Representations in Vector Space[OL]. arXiv Preprint, arXiv:1301.3781v3.
[11] Bengio Y, Delalleau O . On the Expressive Power of Deep Architectures [C]//Proceeding of the International Conference on Algorithmic Learning Theory. Springer-Verlag, 2011: 18-36.
[12] Hochreiter S, Schmidhuber J . Long Short-Term Memory[J]. Neural Computation, 1997,9(8):1735-1780.
[13] Irsoy O, Cardie C . Opinion Mining with Deep Recurrent Neural Networks [C]//Proceeding of the 2014 Conference on Empirical Methods in Natural Language Processing. 2014: 720-728.
[14] Mnih V, Heess N, Graves A , et al. Recurrent Models of Visual Attention[OL]. arXiv Preprint , arXiv: 1406.6247.
[1] 范少萍,赵雨宣,安新颖,吴清强. 基于卷积神经网络的医学实体关系分类模型研究*[J]. 数据分析与知识发现, 2021, 5(9): 75-84.
[2] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[3] 范涛,王昊,吴鹏. 基于图卷积神经网络和依存句法分析的网民负面情感分析研究*[J]. 数据分析与知识发现, 2021, 5(9): 97-106.
[4] 顾耀文, 张博文, 郑思, 杨丰春, 李姣. 基于图注意力网络的药物ADMET分类预测模型构建方法*[J]. 数据分析与知识发现, 2021, 5(8): 76-85.
[5] 张乐, 冷基栋, 吕学强, 崔卓, 王磊, 游新冬. RLCPAR:一种基于强化学习的中文专利摘要改写模型*[J]. 数据分析与知识发现, 2021, 5(7): 59-69.
[6] 赵丹宁,牟冬梅,白森. 基于深度学习的科技文献摘要结构要素自动抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 70-80.
[7] 徐月梅, 王子厚, 吴子歆. 一种基于CNN-BiLSTM多特征融合的股票走势预测模型*[J]. 数据分析与知识发现, 2021, 5(7): 126-138.
[8] 钟佳娃,刘巍,王思丽,杨恒. 文本情感分析方法及应用综述*[J]. 数据分析与知识发现, 2021, 5(6): 1-13.
[9] 黄名选,蒋曹清,卢守东. 基于词嵌入与扩展词交集的查询扩展*[J]. 数据分析与知识发现, 2021, 5(6): 115-125.
[10] 马莹雪,甘明鑫,肖克峻. 融合标签和内容信息的矩阵分解推荐方法*[J]. 数据分析与知识发现, 2021, 5(5): 71-82.
[11] 韩普,张展鹏,张明淘,顾亮. 基于多特征融合的中文疾病名称归一化研究*[J]. 数据分析与知识发现, 2021, 5(5): 83-94.
[12] 孟镇,王昊,虞为,邓三鸿,张宝隆. 基于特征融合的声乐分类研究*[J]. 数据分析与知识发现, 2021, 5(5): 59-70.
[13] 张国标,李洁. 融合多模态内容语义一致性的社交媒体虚假新闻检测*[J]. 数据分析与知识发现, 2021, 5(5): 21-29.
[14] 王楠,李海荣,谭舒孺. 基于改进SMOTE算法与集成学习的舆情反转预测研究*[J]. 数据分析与知识发现, 2021, 5(4): 37-48.
[15] 成彬,施水才,都云程,肖诗斌. 基于融合词性的BiLSTM-CRF的期刊关键词抽取方法[J]. 数据分析与知识发现, 2021, 5(3): 101-108.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn