Please wait a minute...
Advanced Search
数据分析与知识发现  2021, Vol. 5 Issue (7): 70-80     https://doi.org/10.11925/infotech.2096-3467.2020.1139
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于深度学习的科技文献摘要结构要素自动抽取方法研究*
赵丹宁1,牟冬梅1,2(),白森2
1吉林大学公共卫生学院 长春 130021
2吉林大学第一医院临床研究部 长春 130021
Automatically Extracting Structural Elements of Sci-Tech Literature Abstracts Based on Deep Learning
Zhao Danning1,Mu Dongmei1,2(),Bai Sen2
1School of Public Health, Jilin University, Changchun 130021, China
2Division of Clinical Research, The First Hospital of Jilin University, Changchun 130021, China
全文: PDF (1115 KB)   HTML ( 16
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 构建基于深度学习的科技文献非结构式摘要结构要素自动抽取方法。【方法】 以结构式摘要为训练样本,采用LSTM、Attention机制等深度学习方法训练模型,自动抽取非结构式摘要中的“目的”“方法”“结果”三种结构要素,并对摘要进行结构化。【结果】 该方法对非结构式摘要中的“目的”“方法”“结果”三种结构要素抽取的F值分别为0.951、0.916、0.960。【局限】 深度学习可解释性相对较弱。【结论】 该方法在非结构式摘要的结构要素自动抽取和摘要结构化方面具有良好的准确性。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
赵丹宁
牟冬梅
白森
关键词 深度学习Attention-LSTM结构要素抽取    
Abstract

[Objective] This paper proposes a deep learning-based method to automatically extract key elements from unstructured abstracts of sci-tech literature. [Methods] We used structured abstracts as the training corpus, and utilized deep learning methods (e.g., LSTM and the attention mechanism) to extract “objective”, “method” and “results” from the sci-tech literature, and then generated new structured abstracts. [Results] The method’s F-scores were 0.951, 0.916, and 0.960 respectively for the three structural elements of “objective”, “method”, and “results”. [Limitations] The deep learning technique in this paper is relatively uninterpretable. [Conclusions] The proposed method could effectively extract elements from unstructured abstracts.

Key wordsDeep Learning    Attention-LSTM    Structural Elements Extraction
收稿日期: 2020-11-18      出版日期: 2021-08-11
ZTFLH:  TP391  
基金资助:*国家自然科学基金项目(71974074);吉林省科技发展计划项目(20200301004RQ)
通讯作者: 牟冬梅     E-mail: moudm@jlu.edu.cn
引用本文:   
赵丹宁,牟冬梅,白森. 基于深度学习的科技文献摘要结构要素自动抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 70-80.
Zhao Danning,Mu Dongmei,Bai Sen. Automatically Extracting Structural Elements of Sci-Tech Literature Abstracts Based on Deep Learning. Data Analysis and Knowledge Discovery, 2021, 5(7): 70-80.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2020.1139      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2021/V5/I7/70
Fig.1  模型训练流程
Fig.2  结构要素抽取模型
Fig.3  Attention层网络结构
结构要素 提示词
目的 Introduction
Aim
Purpose
Objective
Background
方法 Method
Design
Material and Method
结果 Finding
Result
Conclusion
Result and Conclusion
Table 1  结构要素与提示词映射关系
器件 规格/型号
处理器 Intel i7-4700MQ @2.40GHz
内存 32GB
显卡 GeForce TGX 765M
显存 2GB
TensorFlow版本 2.0.0
Table 2  实验环境参数
Fig.4  文献摘要长度统计结果
Fig.5  摘要句子长度统计结果
参数 参数值
Epoch 20
Batch Size 64
优化器 Adam
LSTM输出向量维度 40
Table 3  模型参数设置
Fig.6  LSTM层数与模型准确率的相关性
Fig.7  权重非共享的Attention层网络结构
Fig.8  Attention机制与模型准确率的相关性
Fig. 9  非结构式摘要原文示例
Fig.10  非结构式摘要机器标注结果示例
PMID “方法”首句真值 “结果”首句真值 “方法”首句预测 “结果”首句预测 “摘要”句子总数
31586506 2 5 2 6 6
31823650 6 9 6 9 11
31106574 6 7 6 7 11
31257264 3 6 3 6 9
32105001 5 10 5 10 13
31166383 2 4 2 4 8
Table 4  非结构式摘要人工标注和机器标注结果示例
评价指标 评价结果
MS E M 0.148
MS E R 0.556
MS E MR 0.352
Table 5  结构式摘要的模型均方误差
评价指标 评价结果
MS E M 0.348
MS E R 0.418
MS E MR 0.383
Table 6  非结构式摘要的模型均方误差
结构要素 准确率 召回率 F值
目的 0.953 0.988 0.970
方法 0.937 0.931 0.934
结果 0.973 0.965 0.969
平均值 0.954 0.961 0.958
Table 7  结构式摘要的模型效果评估
结构要素 准确率 召回率 F值
目的 0.937 0.966 0.951
方法 0.922 0.910 0.916
结果 0.965 0.956 0.960
平均值 0.941 0.944 0.942
Table 8  非结构式摘要的模型效果评估
结构要素 准确率 召回率 F值
本文 文献[7] 本文 文献[7] 本文 文献[7]
目的 0.953 0.957 0.988 0.960 0.970 0.958
方法 0.937 0.900 0.931 0.900 0.934 0.904
结果 0.973 0.907 0.965 0.912 0.969 0.910
Table 9  结构式摘要的方法准确率对比
结构要素 准确率 召回率 F值
本文 文献[7] 本文 文献[7] 本文 文献[7]
目的 0.937 0.955 0.966 0.841 0.951 0.895
方法 0.922 0.787 0.910 0.856 0.916 0.820
结果 0.965 0.819 0.956 0.825 0.960 0.822
Table 10  非结构式摘要方法准确率对比
领域 目的 方法 结果
准确率 召回率 F值 准确率 召回率 F值 准确率 召回率 F值
1 0.968 0.966 0.967 0.933 0.923 0.928 0.971 0.977 0.974
2 0.956 0.962 0.959 0.930 0.916 0.923 0.975 0.980 0.977
3 0.967 0.960 0.963 0.905 0.919 0.912 0.972 0.968 0.970
4 0.969 0.968 0.968 0.920 0.928 0.924 0.974 0.971 0.973
5 0.967 0.956 0.961 0.932 0.923 0.928 0.971 0.979 0.975
6 0.971 0.964 0.968 0.947 0.916 0.932 0.952 0.978 0.965
7 0.981 0.967 0.974 0.958 0.954 0.956 0.970 0.977 0.973
8 0.982 0.968 0.975 0.919 0.947 0.933 0.978 0.967 0.972
9 0.960 0.980 0.970 0.944 0.905 0.924 0.969 0.981 0.975
10 0.969 0.984 0.976 0.966 0.936 0.951 0.969 0.984 0.977
Table 11  Medline不同领域的模型准确率
序号 领域 期刊
1 Environmental Science Agriculture Ecosystem & Environment
2 Chemistry Carbohydrate Polymers
3 Computer Science Expect Systems with Applications
4 Food Science & Technology Journal of Food Engineering
Table 12  Web of Science部分领域及期刊列表
领域 目的 方法 结果
准确率 召回率 F值 准确率 召回率 F值 准确率 召回率 F值
1 0.865 0.951 0.906 0.720 0.699 0.709 0.966 0.932 0.949
2 0.672 1.000 0.804 0.910 0.628 0.743 0.969 0.947 0.957
3 0.746 0.935 0.830 0.817 0.378 0.517 0.621 0.956 0.752
4 0.741 0.948 0.832 0.747 0.541 0.628 0.832 0.879 0.855
Table 13  Web of Science不同领域的模型准确率
[1] 赵丽莹, 苗秀芝, 国荣. 中文科技期刊采用结构式长摘要的建议[J]. 编辑学报, 2017, 29(S1):59-61.
[1] (Zhao Liying, Miao Xiuzhi, Guo Rong. Suggestions on Extended Structured Abstract of Chinese Language Sci-Tech Journal[J]. Acta Editologica, 2017, 29(S1):59-61.)
[2] Zhang C F, Liu X L. Review of James Hartley’s Research on Structured Abstracts[J]. Journal of Information Science, 2011, 37(6):570-576.
doi: 10.1177/0165551511420217
[3] Budgen D, Burn A J, Kitchenham B. Reporting Computing Projects Through Structured Abstracts: A Quasi-experiment[J]. Empirical Software Engineering, 2011, 16(2):244-277.
doi: 10.1007/s10664-010-9139-3
[4] 李清. 基于机器学习的文本摘要技术的研究与实现[D]. 成都: 电子科技大学, 2020.
[4] (Li Qing. Research and Implementation of Text Summarization Technology Based on Machine Learning[D]. Chengdu: University of Electronic Science and Technology of China, 2020.)
[5] 周青宇. 基于深度神经网络的文本自动摘要研究[D]. 哈尔滨: 哈尔滨工业大学, 2020.
[5] (Zhou Qingyu. Research on Deep Neural Networks Based Automatic Text Summarization[D]. Harbin: Harbin Institute of Technology, 2020.)
[6] Almugbel Z, Elhaggar N, Bugshan N. Automatic Structured Abstract for Research Papers Supported by Tabular Format Using NLP[J]. International Journal of Advanced Computer Science and Applications, 2019, 10(2):233-240.
[7] Nam S, Jeong S, Kim S K, et al. Structuralizing Biomedical Abstracts with Discriminative Linguistic Features[J]. Computers in Biology and Medicine, 2016, 79:276-285.
doi: 10.1016/j.compbiomed.2016.10.026
[8] Ripple A M, Mork J G, Knecht L S, et al. A Retrospective Cohort Study of Structured Abstracts in Medline, 1992-2006[J]. Journal of the Medical Library Association, 2011, 99(2):160-163.
doi: 10.3163/1536-5050.99.2.009 pmid: 21464855
[9] Harbourt A M, Knecht L S, Humphreys B L. Structured Abstracts in Medline, 1989-1991[J]. Bulletin of the Medical Library Association, 1995, 83(2):190-195.
pmid: 7599584
[10] Ripple A M, Mork J G, Rozier J M, et al. Structured Abstracts in Medline: Twenty-Five Years Later[R]. National Library of Medicine, 2012: 1-3.
[11] 曾志红. 科技期刊结构式摘要的探索与实践——以数学学术性论文为例[J]. 湖北第二师范学院学报, 2019, 36(12):104-108.
[11] (Zeng Zhihong. Exploration and Practice of Structured Abstracts in Scientific Journals Exploration and Practice of Structured Abstracts in Scientific Journals[J]. Journal of Hubei University of Education, 2019, 36(12):104-108.)
[12] 宋东桓, 李晨英, 刘子瑜, 等. 英文科技论文摘要的语义特征词典构建[J]. 图书情报工作, 2020, 64(6):108-119.
[12] (Song Donghuan, Li Chenying, Liu Ziyu, et al. Semantic Feature Dictionary Construction of Abstract in English Scientific Journals[J]. Library and Information Service, 2020, 64(6):108-119.)
[13] Gratez N. Teaching EFL Students to Extract Structural Information from Abstracts[A]// Ulijn J M, Pugh A K. Reading for Professional Purposes: Methods and Materials in Teaching Languages[M]. Leuven, Belgium: Acco Press, 1985: 123-135.
[14] Nilsen D L F, Nilsen A P. Semantic Theory: A Linguistic Perspective[J]. Teaching German, 1975, 11(2):1-20.
[15] 郑梦悦, 秦春秀, 马续补. 面向中文科技文献非结构化摘要的知识元表示与抽取研究——基于知识元本体理论[J]. 情报理论与实践, 2020, 43(2):157-163.
[15] (Zheng Mengyue, Qin Chunxiu, Ma Xubu. Research on Knowledge Unit Representation and Extraction for Unstructured Abstracts of Chinese Scientific and Technical Literature: Ontology Theory Based on Knowledge Unit[J]. Information Studies: Theory and Application, 2020, 43(2):157-163.)
[16] 邹箭, 钟茂生, 孟荔. 中文文本分割模式获取及其优化方法[J]. 南昌大学学报(理科版), 2011, 49(6):597-601.
[16] (Zou Jian, Zhong Maosheng, Meng Li. Method of Chinese Text Segmentation Model Acquisition and its Optimization[J]. Journal of Nanchang University(Natural Science), 2011, 49(6):597-601.)
[17] Ribeiro S, Yao J T, Rezende D A. Discovering IMRaD Structure with Different Classifiers[C]// Proceedings of IEEE International Conference on Big Knowledge (ICBK), Singapore. Los Alamitos, CA: IEEE Computer Society, 2018: 200-204.
[18] 丁良萍, 张智雄, 刘欢. 影响支持向量机模型语步自动识别效果的因素研究[J]. 数据分析与知识发现, 2019, 3(11):16-23.
[18] (Ding Liangping, Zhang Zhixiong, Liu Huan. Factors Affecting Rhetorical Move Recognition with SVM Model[J]. Data Analysis and Knowledge Discovery, 2019, 3(11):16-23.)
[19] 赵丹宁, 牟冬梅, 斯琴. 研究型科技文献的实验数据自动抽取研究——以药物代谢动力学文献为例[J]. 图书馆建设, 2017, 40(12):33-38.
[19] (Zhao Danning, Mu Dongmei, Si Qin. Research on Experimental Data Automatic Extraction of Scientific and Technological Literature——A Case Study of Pharmacokinetic Literature[J]. Library Development, 2017, 40(12):33-38.)
[20] 陈果, 许天祥. 基于主动学习的科技论文句子功能识别研究[J]. 数据分析与知识发现, 2019, 3(8):53-61.
[20] (Chen Guo, Xu Tianxiang. Sentence Function Recognition Based on Active Learning[J]. Data Analysis and Knowledge Discovery, 2019, 3(8):53-61.)
[21] Yang M, Tu W T, Wang J X, et al. Attention-Based LSTM for Target-Dependent Sentiment Classification[C]// Proceedings of the 31st AAAI Conference on Artificial Intelligence. 2017: 5013-5014.
[22] Gers F A, Schmidhuber J, Cummins F, et al. Learning to Forget: Continual Prediction with LSTM[J]. Neural Computation, 2000, 12(10):2451-2471.
pmid: 11032042
[23] Hochreiter S, Schmidhuber J. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735-1780.
pmid: 9377276
[24] 赵华茗, 余丽, 周强. 基于均值漂移算法的文本聚类数目优化研究[J]. 数据分析与知识发现, 2019, 3(9):27-35.
[24] (Zhao Huaming, Yu Li, Zhou Qiang. Determining Best Text Clustering Number with Mean Shift Algorithm[J]. Data Analysis and Knowledge Discovery, 2019, 3(9):27-35.)
[1] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[2] 徐月梅, 王子厚, 吴子歆. 一种基于CNN-BiLSTM多特征融合的股票走势预测模型*[J]. 数据分析与知识发现, 2021, 5(7): 126-138.
[3] 钟佳娃,刘巍,王思丽,杨恒. 文本情感分析方法及应用综述*[J]. 数据分析与知识发现, 2021, 5(6): 1-13.
[4] 黄名选,蒋曹清,卢守东. 基于词嵌入与扩展词交集的查询扩展*[J]. 数据分析与知识发现, 2021, 5(6): 115-125.
[5] 马莹雪,甘明鑫,肖克峻. 融合标签和内容信息的矩阵分解推荐方法*[J]. 数据分析与知识发现, 2021, 5(5): 71-82.
[6] 张国标,李洁. 融合多模态内容语义一致性的社交媒体虚假新闻检测*[J]. 数据分析与知识发现, 2021, 5(5): 21-29.
[7] 常城扬,王晓东,张胜磊. 基于深度学习方法对特定群体推特的动态政治情感极性分析*[J]. 数据分析与知识发现, 2021, 5(3): 121-131.
[8] 冯勇,刘洋,徐红艳,王嵘冰,张永刚. 融合近邻评论的GRU商品推荐模型*[J]. 数据分析与知识发现, 2021, 5(3): 78-87.
[9] 成彬,施水才,都云程,肖诗斌. 基于融合词性的BiLSTM-CRF的期刊关键词抽取方法[J]. 数据分析与知识发现, 2021, 5(3): 101-108.
[10] 胡昊天,吉晋锋,王东波,邓三鸿. 基于深度学习的食品安全事件实体一体化呈现平台构建*[J]. 数据分析与知识发现, 2021, 5(3): 12-24.
[11] 张琪,江川,纪有书,冯敏萱,李斌,许超,刘浏. 面向多领域先秦典籍的分词词性一体化自动标注模型构建*[J]. 数据分析与知识发现, 2021, 5(3): 2-11.
[12] 吕学强,罗艺雄,李家全,游新冬. 中文专利侵权检测研究综述*[J]. 数据分析与知识发现, 2021, 5(3): 60-68.
[13] 李丹阳, 甘明鑫. 基于多源信息融合的音乐推荐方法 *[J]. 数据分析与知识发现, 2021, 5(2): 94-105.
[14] 余传明, 张贞港, 孔令格. 面向链接预测的知识图谱表示模型对比研究*[J]. 数据分析与知识发现, 2021, 5(11): 29-44.
[15] 韩普, 张伟, 张展鹏, 王宇欣, 方浩宇. 基于特征融合和多通道的突发公共卫生事件微博情感分析*[J]. 数据分析与知识发现, 2021, 5(11): 68-79.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn