Please wait a minute...
Advanced Search
数据分析与知识发现  2023, Vol. 7 Issue (2): 61-71     https://doi.org/10.11925/infotech.2096-3467.2022.0933
  专题 本期目录 | 过刊浏览 | 高级检索 |
中文科技论文标题自动生成系统的设计与实现*
王宇飞1,2,张智雄1,2(),赵旸1,2,张梦婷1,2,李雪思1,2
1中国科学院文献情报中心 北京 100190
2中国科学院大学经济与管理学院信息资源管理系 北京 100190
Designing and Implementing Automatic Title Generation System for Sci-Tech Papers
Wang Yufei1,2,Zhang Zhixiong1,2(),Zhao Yang1,2,Zhang Mengting1,2,Li Xuesi1,2
1National Science Library, Chinese Academy of Sciences, Beijing 100190, China
2Department of Information Resources Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190, China
全文: PDF (1931 KB)   HTML ( 34
输出: BibTeX | EndNote (RIS)      
摘要 

目的】 设计中文科技论文标题自动生成系统,根据科技论文摘要自动生成论文标题,辅助研究人员进行科技论文标题的写作。【方法】 重点解决系统构建过程中涉及的三个关键问题:基于中国科学引文数据库构建大规模训练数据集,为系统提供数据支撑;基于BERT-UniLM构建标题生成模型,以取得较好的生成效果;基于HTTP设计应用程序接口,以实现系统的开放调用。【结果】 初步实现了中文科技论文标题自动生成系统,能够生成较为恰当地反映论文内容的标题。【局限】 BERT模型具有最大输入长度限制,对于输入超过长度限制的摘要会自动截断,因此较长摘要的标题生成效果可能会受到影响。【结论】 重点从数据、模型、开放调用三个方面设计和实现了中文科技论文标题自动生成系统,为科研人员及文献服务机构提供便捷易用工具,并为其他科技文本进行标题自动生成提供了一种实践路径。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王宇飞
张智雄
赵旸
张梦婷
李雪思
关键词 标题自动生成系统中文科技论文摘要文本生成任务BERT-UniLM    
Abstract

[Objective] This paper designs an automatic title generation system based on Chinese sci-tech papers’ abstracts, aiming to help researchers compose better titles. [Methods] First, we constructed a large-scale training dataset based on the CSCD database. Then, we created a title generation model with the help of BERT-UniLM. Finally, we designed the system interface using HTTP protocol to enable open calls. [Results] The implemented system could generate titles for articles appropriately. [Limitations] Since the BERT model limits its maximum token length, our new system automatically truncates abstracts exceeding the length limits and might affect the title generation. [Conclusions] This paper provides convenient tools for researchers and literature services, and also benefits automatic generation of titles for other scientific and technological documents.

Key wordsAutomatic Title Generation System    Abstracts of Chinese Scientific and Technical Papers    Text Generation Task    BERT-UniLM
收稿日期: 2022-09-05      出版日期: 2023-03-28
ZTFLH:  G254  
基金资助:*中国科学院文献情报能力建设专项的研究成果之一(E0290906)
通讯作者: 张智雄,ORCID:0000-0003-1596-7487,E-mail: zhangzhx@mail.las.ac.cn。   
引用本文:   
王宇飞, 张智雄, 赵旸, 张梦婷, 李雪思. 中文科技论文标题自动生成系统的设计与实现*[J]. 数据分析与知识发现, 2023, 7(2): 61-71.
Wang Yufei, Zhang Zhixiong, Zhao Yang, Zhang Mengting, Li Xuesi. Designing and Implementing Automatic Title Generation System for Sci-Tech Papers. Data Analysis and Knowledge Discovery, 2023, 7(2): 61-71.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2022.0933      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2023/V7/I2/61
Fig.1  中文科技论文标题自动生成系统技术框架
Fig.2  中文科技论文标题自动生成模型整体架构
Fig.3  Seq2Seq目标下Mask后的注意力矩阵
最小字数 最大字数 平均字数
标题 5 50 20.04
摘要 15 1 489 261.98
Table 1  数据集统计信息
Fig.4  文本字数区间统计
学科 论文数量
社会科学 13 773
理学 65 104
医学 120 282
农学 37 312
工学 167 530
Table 2  数据所在学科分布
Fig.5  数据基本结构
参数 参数值
嵌入层维度 512
隐藏层层数 12
隐藏层维度 768
注意力头数 12
网络参数 110MB
Table 3  BERT-Base-Chinese模型参数值
参数 参数值
epoch 10
batch_size 5
num_beam 1
max_input_seq_length 450
max_output_seq_length 30
Table 4  模型训练参数值
模型 文本处理
前/后
ROUGE-1
F1/%
ROUGE-2
F1/%
ROUGE-L
/%
BLEU/%
TextRank 处理前 28.39 18.89 27.90 10.77
处理后 37.26 25.73 33.76 18.00
LSA 处理前 30.65 21.16 31.06 12.55
处理后 37.57 26.44 34.61 18.35
Table 5  文本处理前后效果对比
模型 ROUGE-1
F1/%
ROUGE-2
F1/%
ROUGE-L
/%
BLEU/%
TextRank 37.26 25.73 33.76 18.00
LSA 37.57 26.44 34.61 18.35
BiLSTM+Attention 46.26 34.31 45.92 24.45
BERT-UniLM 68.39 55.54 64.46 44.80
Table 6  实验结果对比
示例摘要 模型 标题
针对红外与可见光融合的特点,提出一种基于非下采样Contourlet变换(NSCT)和区域能量判断的图像融合方法。利用NSCT变换对两原图像进行分解,得到一个低频子图像和多个不同方向的高频子图像,对低频子带采用最大值的方法进行融合,而高频子带先计算各个系数的区域能量匹配度,再计算判断阈值。当高频系数中各点的匹配度大于阈值时,采用区域能量加权融合方法;当对应点的匹配度小于阈值时,采用区域能量最大值的方法进行融合,通过NSCT逆变换获得融合图像。该方法的特点是算法简单,阈值选取具有自适应性。实验结果表明该方法能够取得较好的视觉效果和量化数据,相比于其他基于NSCT的融合方法,熵值提高了0.5%~6.8%,空间频率提高了1%~ 13%,标准方差提高了0~24.1%,是一种简单有效的融合方法。 原标题 基于NSCT的红外与可见光图像融合方法研究
TextRank 提出一种基于非下采样Contourlet变换和区域能量判断的图像融合方法
LSA 采用区域能量最大值的方法进行融合
BiLSTM+ Attention 低频子图像和区域能量判断的图像融合方法研究与应用研究简单方法
BERT-UniLM 基于nsct和区域能量判断的红外与可见光融合方法
做好土地资源数量管控,加强耕地质量管理和生态管护是当前的一项非常重要的工作。选择吉林省大安市东南区域为研究对象,进行土地质量地球化学评估,并融合污染元素进行农用地分等研究。结果表明研究区内评定为三等及以上的土壤占全区总面积的72.61%,研究区土地质量总体较好,优质和优良土地分布面积较大,主要为黑钙土,差等的土地主要为盐碱土或盐化草甸土。尝试性地将农用地分等成果中的产能评价和土地质量地球化学评估中的元素含量评价结合,开展了绿色产能评价。 原标题 土地质量地球化学评估与绿色产能评价研究:以吉林大安市为例
TextRank 尝试性地将农用地分等成果中的产能评价和土地质量地球化学评估中的元素含量评价结合
LSA 研究区土地质量总体较好
BiLSTM+ Attention 黑钙土地资源数量管理及其农用地分等研究——以吉林省大安市东南
BERT-UniLM 大安市东南区域土地质量地球化学评估及农用地分等研究
Table 7  不同方法生成标题实例展示
参数 类型 描述 示例
请求参数 list 中文科技论文摘要列表 { “data”:[“智能制造是制造技术与信息技术的结合,并朝着自动化、集成化、信息化、绿色化的趋势发展…”, “金属有机框架 (Metal-Organic Frameworks,MOFs)是由有机配体与金属离子通过配位键形成的多孔结晶性聚合物,具有可调控的周期性孔道结构、…”]}
返回参数 dict 标题生成结果字典 { 0:“智能制造中的状态监测技术” 1:“ 金属有机框架在生物医药领域中的应用” }
Table 8  POST API参数信息
Fig.6  中文科技论文标题自动生成系统效果展示
[6] Rush A M, Chopra S, Weston J. A Neural Attention Model for Abstractive Sentence Summarization[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015: 379-389.
[7] Chopra S, Auli M, Rush A M. Abstractive Sentence Summarization with Attentive Recurrent Neural Networks[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. 2016: 93-98.
[8] Takase S, Suzuki J, Okazaki N, et al. Neural Headline Generation on Abstract Meaning Representation[C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016: 1054-1059.
[9] 钱揖丽, 马雪雯. 基于句子级LSTM编码的文本标题生成[J]. 计算机应用与软件, 2021, 38(5): 190-195.
[9] (Qian Yili, Ma Xuewen. Text Headline Generation Based on Sentence-level LSTM Encoding[J]. Computer Applications and Software, 2021, 38(5): 190-195.)
[10] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies, Volume 1 (Long and Short Papers). 2019: 4171-4186.
[11] Vaswani A, Shazeer N, Parmar N, et al. Attention is All You Need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017: 6000-6010.
[12] Liu Y, Lapata M. Text Summarization with Pretrained Encoders[C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. 2019: 3730-3740.
[13] Lewis M, Liu Y H, Goyal N, et al. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020: 7871-7880.
[14] Dong L, Yang N, Wang W H, et al. Unified Language Model Pre-training for Natural Language Understanding and Generation[C]// Proceedings of the 33rd International Conference on Neural Information Processing Systems. 2019: 13063-13075.
[15] Dorr B, Zajic D, Schwartz R. Hedge Trimmer: A Parse-and-Trim Approach to Headline Generation[C]// Proceedings of the HLT-NAACL 03 on Text Summarization Workshop. 2003: 1-8.
[16] Gatti L, Ozbal G, Guerini M, et al. Heady-lines: A creative generator of newspaper headlines[C]// Companion Publication of the 21st International Conference on Intelligent User Interfaces. 2016: 79-83.
[17] 蔡中祥. 基于自动文本摘要的党建新闻标题生成系统的设计与实现[D]. 沈阳: 中国科学院沈阳计算技术研究所, 2020.
[17] (Cai Zhongxiang. Design and implementation of News Title Generation System of Party Building Based on Automatic Text Summarization[D]. Shenyang: Shenyang Institute of Computing Technology, Chinese Academy of Sciences, 2020.)
[18] 张智雄, 赵旸, 刘欢. 构建面向实际应用的科技文献自动分类引擎[J]. 中国图书馆学报, 2022, 48(4): 104-115.
[18] (Zhang Zhixiong, Zhao Yang, Liu Huan. Construction of a Practical Application-Oriented Automatic Classification Engine for Scientific Literature[J]. Journal of Library Science in China, 2022, 48(4): 104-115.)
[19] 中国科学文献服务系统[EB/OL].[2022-07-08]. http://sciencechina.cn/.
[19] (ScienceChina[EB/OL].[2022-07-08]. http://sciencechina.cn/.)
[20] Mihalcea R, Tarau P. TextRank: Bringing Order into Text[C]// Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. 2004: 404-411.
[21] Gong Y H, Liu X. Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis[C]// Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2001: 19-25.
[22] Lin C Y. ROUGE: A Package for Automatic Evaluation of Summaries[C]// Proceedings of Workshop on Text Summarization Branches Out, Post-Conference Workshop of ACL 2004. 2004: 74-81.
[23] Papineni K, Roukos S, Ward T, et al. BLEU: A Method for Automatic Evaluation of Machine Translation[C]// Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. 2002: 311-318.
[24] Grinberg M. Flask Web Development: Developing Web Applications with Python[M]. Sebastopol, CA: O’Reilly Media Inc., 2014.
[25] Li Z, Niu K, He Z Q. Generating Poetry Title Based on Semantic Relevance with Convolutional Neural Network[J]. IOP Conference Series: Materials Science and Engineering, 2017, 235: 012007.
doi: 10.1088/1757-899X/235/1/012007
[26] Ayana, Shen S Q, Lin Y K, et al. Recent Advances on Neural Headline Generation[J]. Journal of Computer Science and Technology, 2017, 32: 768-784.
doi: 10.1007/s11390-017-1758-3
[27] 张智雄, 刘欢, 于改红. 构建基于科技文献知识的人工智能引擎[J]. 农业图书情报学报, 2021, 33(1): 17-31.
doi: 10.13998/j.cnki.issn1002-1248.20-0797
[27] (Zhang Zhixiong, Liu Huan, Yu Gaihong. Building an Artificial Intelligence Engine Based on Scientific and Technological Literature Knowledge[J]. Journal of Library and Information Science in Agriculture, 2021, 33(1): 17-31.)
doi: 10.13998/j.cnki.issn1002-1248.20-0797
[28] 科技文献知识人工智能引擎[EB/OL]. [2022-07-08]. http://sciengine.las.ac.cn/.
[28] (SciAIEngine[EB/OL]. [2022-07-08]. http://sciengine.las.ac.cn/.)
[1] 李慧, 胡吉霞, 佟志颖. 面向多源数据的学科主题挖掘与演化分析*[J]. 数据分析与知识发现, 2022, 6(7): 44-55.
[2] 王永生, 王昊, 虞为, 周泽聿. 融合结构和内容的方志文本人物关系抽取方法*[J]. 数据分析与知识发现, 2022, 6(2/3): 318-328.
[3] 吕璐成, 周健, 王学昭, 刘细文. 基于双层主题模型的技术演化分析框架及其应用*[J]. 数据分析与知识发现, 2022, 6(2/3): 18-32.
[4] 张金柱,主立鹏,刘菁婕. 基于表示学习的无监督跨语言专利推荐研究*[J]. 数据分析与知识发现, 2020, 4(10): 93-103.
[5] 王鑫芸,王昊,邓三鸿,张宝隆. 面向期刊选择的学术论文内容分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 96-109.
[6] 魏伟,郭崇慧,邢小宇. 基于语义关联规则的试题知识点标注及试题推荐*[J]. 数据分析与知识发现, 2020, 4(2/3): 182-191.
[7] 余本功,曹雨蒙,陈杨楠,杨颖. 基于nLD-SVM-RF的短文本分类研究*[J]. 数据分析与知识发现, 2020, 4(1): 111-120.
[8] 张金柱,王玥,胡一鸣. 基于专利科学引文内容表示学习的科学技术主题关联分析研究 *[J]. 数据分析与知识发现, 2019, 3(12): 52-60.
[9] 贾君枝,叶壮壮. 基于潜在语义索引的Wikidata机构实体聚类研究 *[J]. 数据分析与知识发现, 2019, 3(10): 56-65.
[10] 赵宇翔, 刘周颖, 宋士杰. 新一代知识问答平台中提问者付费意愿的影响因素探究*[J]. 数据分析与知识发现, 2018, 2(8): 16-30.
[11] 贾君枝, 李晓. 关联数据中owl:sameAs网络分析*[J]. 数据分析与知识发现, 2017, 1(10): 77-84.
[12] 姜霖, 王东波. 引文元数据的自动发现和标注方法研究——以外文引文为例[J]. 数据分析与知识发现, 2017, 1(1): 47-54.
[13] 王晓耘, 钱璐, 黄时友. 基于粗糙用户聚类的协同过滤推荐模型[J]. 现代图书情报技术, 2015, 31(1): 45-51.
[14] 夏冬, 肖晓旦, 李国垒, 陈先来. 基于潜在语义分析的关键词-分类号对应关系研究[J]. 现代图书情报技术, 2014, 30(12): 92-96.
[15] 曾新红, 蔡庆河, 黄华军, 林伟明. 基于力导向模型的非一致节点群组布局可视化算法研究[J]. 现代图书情报技术, 2014, 30(9): 33-43.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn