Please wait a minute...
Advanced Search
数据分析与知识发现  2021, Vol. 5 Issue (5): 10-20     https://doi.org/10.11925/infotech.2096-3467.2020.1275
     研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于科技论文中未来工作句集的学术创新构想话题自动生成方法研究*
宋若璇,钱力(),杜宇
中国科学院大学经济与管理学院图书情报与档案管理系 北京 100190
Identifying Academic Creative Concept Topics Based on Future Work of Scientific Papers
Song Ruoxuan,Qian Li(),Du Yu
Department of Library, Information and Archives Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190, China
全文: PDF (1018 KB)   HTML ( 27
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 以科技论文中未来工作句集为入手点,研究学术创新构想话题自动生成方法,加速创新问题求解。【方法】 首先采用规则匹配与BERT相结合的方法从论文全文中抽取未来工作句集;然后通过相关领域论文集进行关联知识扩展计算,发现与未来研究方向相关的关键词、论文等,共同形成创新提要;再利用基于UniLM的文本生成模型自动生成创新构想话题。【结果】 经实证验证和专家评估,生成结果的整体创新性平均分为6.04分,整体兴趣度平均分为6.01分,呈正向评价。【局限】 基于UniLM的创新构想话题生成模型未嵌入先验语义知识以及没有使用大规模数据实验,生成创新构想话题通顺性及创新性还存在不足。【结论】 所提方法探索了学术创新构想话题自动生成的目标,为拓宽科技创新路径提供了新思路。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
宋若璇
钱力
杜宇
关键词 创新构想话题未来工作人工智能文本生成BERTUniLM    
Abstract

[Objective] This paper analyzes the sentences on future work from scientific papers, aiming to automatically generate academic innovation ideas. [Methods] First, we combined rule matching with BERT to extract sentences on future work from papers. Then, we conducted the expansion calculation on papers in related fields, and identified keywords and papers on future directions. Finally, these innovative raw materials were fed to the UniLM-based model to create topics of innovation concepts. [Results] The average innovation score of the generated results is 6.04 points, and the average interest level score is 6.01 points. [Limitations] The topic generation model neither includes prior semantic knowledge nor uses large-scale data for experiment, and the quality of generated topics needs to be improved. [Conclusions] The proposed method provides a new idea to expand technological innovation.

Key wordsCreative Concept Topics    Future Work    Artificial Intelligence    Text Generation    BERT    UniLM
收稿日期: 2020-12-21      出版日期: 2021-05-27
ZTFLH:  TP391  
基金资助:*本文系中国科学院青年创新促进会项目(院1721);军委科技委国防科技创新项目的研究成果之一。(JW1701)
通讯作者: 钱力     E-mail: qianl@mail.las.ac.cn
引用本文:   
宋若璇,钱力,杜宇. 基于科技论文中未来工作句集的学术创新构想话题自动生成方法研究*[J]. 数据分析与知识发现, 2021, 5(5): 10-20.
Song Ruoxuan,Qian Li,Du Yu. Identifying Academic Creative Concept Topics Based on Future Work of Scientific Papers. Data Analysis and Knowledge Discovery, 2021, 5(5): 10-20.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2020.1275      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2021/V5/I5/10
Fig.1  创新构想话题自动生成方法框架
Fig.2  加入Sentence_position Embeddings的BERT模型输入
指示词 章节标题 比例
结语 结语、结语与讨论 91.32%
结论 结论、研究结论、结论和讨论、结论与讨论、结论与启示、结论与展望、结论及展望、结论与不足、结论与局限、结论及建议、结论与建议 4.56%
未来发展 未来发展趋势、未来发展方向 0.15%
展望 展望、未来展望、评述与展望、讨论与展望、总结和展望、总结及展望、总结与展望、问题讨论与未来展望、局限性与下一步展望、研究局限和展望 2.65%
未来研究 未来研究、未来研究方向、未来研究设想、局限与未来研究 0.37%
未来工作 讨论与未来工作、研究建议与未来工作 0.15%
其他 后续工作、结果与讨论、总结与讨论、发展思考、总结思考、发展建议、分析与建议等 1.32%
Table 1  未来工作章节标题统计
模型 类别1:Future Work Accuracy Macro Avg F1-score
Precision Recall F1-score
BERT+Sentence_position- Embeddings 0.876 4 0.827 0 0.851 0 0.906 9 0.891 6
BERT 0.844 1 0.808 7 0.826 0 0.890 5 0.873 0
Table 2  改进模型与BERT在测试集上的效果对比
论文原标题 论文原有关键词 未来工作关键短语 关联词语 扩展论文标题
一种融合网络表示学习与XGBoost的评分预测模型 网络表示学习;XGBoost;评分预测;协同过滤;Node2Vec 用户兴趣;时序变化;融入时间序列特征;时间因素;方法 K-truss;LDA;学术文献;基于会话的推荐系统;社区挖掘 面向时序图的K-truss社区搜索算法研究
基于LSTM网络的盗窃犯罪时间序列预测研究 犯罪预测;时间序列;LSTM网络;盗窃 人口数量;大时段;犯罪数量;天气;波动 AlexNet;股票收益率;动态因子模型;天气特征提取;EM算法 股票市场的高维动态因子模型及其实证分析
网络热点事件话题漂移指数构建与实证研究 网络热点事件;话题漂移指数;LDA;网络舆情预警 外延子话题;多媒体内容;语义层面;深度语义分析方法;网络热点事件话题漂移指数预测精准度;话题内容 话题检测和追踪;多维度;形状匹配;话题层次;视音频;搜索方案;相似性计算;不同维度;网络社交媒体;协同学习;知识感知;子事件 基于网络社交媒体的子话题检测技术综述
…… …… …… …… ……
基于LDA的微博用户主题图谱构建及实证研究——以“埃航空难”为例 LDA;微博用户;主题图谱 参数选择方式;微博用户;研究价值;情感分类训练器;优主题数;意见领袖;时间复杂度;研究中将选用时间 模糊性;正则树;虚拟社区;识别模型;在线争议解决;法律人工智能;互联网仲裁;仲裁系统 虚拟学习社区中意见领袖识别模型研究
Table 3  关联知识扩展计算模块的部分输出结果
序号 创新构想话题 序号 创新构想话题
1 国家人口健康科学数据仓储 26 基于知识提升的DEKG事件关系构建
2 健康医疗大数据环境下的匿名问题研究 27 基于SemMedDB的医学知识计量学研究
3 基于全科医学知识库的临床诊断支持系统 28 融合多步翻译路径和作者的属性信息
4 实时量表信息抽取方法可行性研究 29 多样性指标在文档检索中的应用
5 基于逆向分析的突发公共卫生事件误导信息传播特征研究 30 基于LDA的微博用户情感分类模型
6 基于关联规则的糖尿病知识推荐机制 31 基于线特征及ICP算法的地基建筑物点云配准
7 网络环境下传统音乐术语的实体识别 32 基于网络社交媒体的热点话题检测
8 基于会话的矩阵分解推荐算法 33 基于隐私度量的微博图片数据识别研究
9 智慧城市多领域的情感分类研究 34 基于双向聚合度的专利情报分析方法
10 基于学习自动机的微博推荐效果研究 35 基于知识的专利语义关联方法研究
11 基于多粒度粗糙集的民航风险预警分析 36 基于贪心策略的少样本文本分类模型
12 面向动态群组的深度神经网络群组推荐算法 37 中文临床文本语义一致性研究
13 基于深度卷积神经网络的交通事件识别研究 38 基于多策略集成学习的科技文献信息抽取模型
14 基于需求导向的学科知识发现服务 39 技术路线图的理论研究
15 基于双向门控循环网络的自由文本识别方法 40 大数据环境下的命名实体消歧研究
16 综述性论文结构功能识别 41 基于用户需求的出口管制文件剖析
17 基于多因子算法的虚假评论检测模型 42 基于本体的网络区域公共安全信息服务应用研究
18 基于时间序列特征的推荐系统 43 基于动态分析的不变量综合技术
19 基于BERT模型的心脏病预测 44 突发公共卫生事件网络舆情主题发现研究
20 智能图片房源基础设施识别研究 45 不同地理要素变化时间规律方面的研究
21 基于动态因子模型的日盗窃犯罪预测 46 基于skip-PTM模型的突发事件要素识别
22 网络热点事件话题漂移指数预测 47 基于赋时Petri网的城市画像分析
23 产品图像与文字描述之间的相互作用机制 48 融合特定任务信息的文本表示研究
24 消费品缺陷领域短语词典研究 49 一种改进的双语实体命名方法
25 基于特征维度LDA模型的城市画像研究 50 基于深度卷积神经网络的两阶段盲卷积降噪模型
Table 4  创新构想话题列表
生成话题 #多样性指标在文档检索中的应用#
话题来源 《基于深度学习的问答平台查询推荐研究》
【目的】 针对社会化问答平台场景,构建深度神经网络模型,改善查询推荐的效果。【方法】 以Yahoo Answers和Yahoo! L6为基础构建实验数据集,基于语义匹配矩阵、变长卷积层和多层感知机构建CNMNN神经网络模型,并与MQ2QC、IBLM、DRMM和MatchPyramid等基线进行了对比。【结果】 对比MQ2QC、IBLM、DRMM、MatchPyramid这4种现有方法的最优效果,CNMNN模型在nDCG@5、nDCG@10、nDCG@20、MRR和MAP等相关性评价指标上的提升率分别为45.0%、38.7%、33.4%、34.8%和52.9%,在α-nDCG@5、α-nDCG@10、α-nDCG@20、ERR-IA@5、ERR-IA@10和ERR-IA@20等多样性指标上的提升率分别为31.5%、23.6%、25.5%、38.1%、36.9%和30.7%。【局限】 尽管分析了多样性指标α-nDCG@k和ERR-IA@k,但是没有针对推荐结果提出进一步的多样化方法。【结论】 CNMNN模型不仅可以计算查询和自然语言问句在短语级别的语义相关性,还避免了层次卷积操作导致的特征信号压缩问题。
(1)关键词查询和自然语言问句都是极其短小的文本片段,因此,传统的基于词的相关性模型无法有效衡量两者的提问意图相似性。(2)由于用户查询往往不存在完备的句法结构,使严重依赖句法结构特征的问句搜索方法失效。本文的不足之处在于,尽管分析了多种模型在多样性指标上的得分,但是没有提出多样性指标优化的方法模型。后续研究将聚焦于推荐结果多样化方法,减少推荐结果列表中提问意图相同的自然语言问句。
拓展词汇 相关性评分;三元组;文档检索;片段整合计算;多特征语义匹配模型;字符相似度;相关片段比例
相关论文 《文档检索中文本片段化机制的研究》
文档检索是自然语言处理的研究热点,相对于短文本文档具有信息丰富且冗长的特征。在长文本检索中,查询语句与长文本中的句子往往不是全部相关,可能会出现某些高相似片段的强干扰,因此查询语句与文档之间的相关性评分不能简单采用基于词语或字符串之间的相似度计算。提出了一种文本片段化机制(TSM)进行文档检索,首先将每个候选文档划分成片段,再计算查询语句与文档片段之间的相关度,所使用的相关度匹配方案考虑了语义和词频等因素,筛选出关键的文本片段并得出相关片段比率,综合这些片段信息计算查询与文档之间的相关性得分,从而获取Top-K文档集。
Table 5  创新构想话题完整示例——“多样性指标在文档检索中的应用”
Fig.3  专家评分结果统计
序号 创新构想话题 创新性
平均分
1 基于隐私度量的微博图片数据识别研究 7.2
2 基于逆向分析的突发公共卫生事件误导信息传播特征研究 7.2
3 基于多因子算法的虚假评论检测模型 7.2
4 基于BERT模型的心脏病预测 7.1
5 智能图片房源基础设施识别研究 7.0
Table 6  创新性平均分最高的5个创新构想话题
序号 创新构想话题 兴趣度
平均分
1 基于逆向分析的突发公共卫生事件误导信息传播特征研究 7.6
2 基于多因子算法的虚假评论检测模型 7.4
3 基于BERT模型的心脏病预测 7.2
4 基于隐私度量的微博图片数据识别研究 7.2
5 基于全科医学知识库的临床诊断支持系统 7.1
Table 7  兴趣度平均分最高的5个创新构想话题
[1] Olcay E, Dengler C, Lohmann B. Data-driven System Identification of an Innovation Community Model[J]. IFAC-Papers OnLine, 2018,51(11):1269-1274.
[2] Martinez-Torres R, Olmedilla M. Identification of Innovation Solvers in Open Innovation Communities Using Swarm Intelligence[J]. Technological Forecasting and Social Change, 2016,109(8):15-24.
doi: 10.1016/j.techfore.2016.05.007
[3] von Hippel E, von Krogh G. Open Source Software and the “Private-Collective” Innovation Model: Issues for Organization Science[J]. Organization Science, 2003,14(2):209-223.
doi: 10.1287/orsc.14.2.209.14992
[4] 陈丽娟, 兰艳艳, 庞亮, 等. 创新构想话题生成[J]. 山西大学学报(自然科学版), 2019,42(1):56-63.
[4] ( Chen Lijuan, Lan Yanyan, Pang Liang, et al. Generation of Creative Concept Topic[J]. Journal of Shanxi University (Natural Science Edition), 2019,42(1):56-63.)
[5] 李瑛, 周立. 科技期刊论文创新点合理呈现的价值及理想模式[J]. 中国科技期刊研究, 2018,29(10):993-999.
[5] ( Li Ying, Zhou Li. Value and Ideal Model of Reasonable Showing of Innovation Points in Scientific Papers[J]. Chinese Journal of Scientific and Technical Periodicals, 2018,29(10):993-999.)
[6] Zhang M, Fan B, Zhang N, et al. Mining Product Innovation Ideas from Online Reviews[J]. Information Processing & Management, 2020,58(1):102389.
doi: 10.1016/j.ipm.2020.102389
[7] Almeida J N, Azevedo S, Carvalho J P. Towards Automatic Web Identification of Solutions in Patient Innovation[A]//Computational Intelligence and Mathematics for Tackling Complex Problems[M]. Springer, Cham, 2020: 9-14.
[8] 温有奎, 吴广印. 碎片化科研创新点动态挖掘研究[J]. 数字图书馆论坛, 2014(7):25-32.
[8] ( Wen Youkui, Wu Guangyin. Dynamic Mining of Fragmented Scientific Research Innovation Points[J]. Digital Library Forum, 2014(7):25-32.)
[9] 冷伏海, 白如江, 祝清松. 面向科技文献的混合语义信息抽取方法研究[J]. 图书情报工作, 2013,57(11):112-119.
[9] ( Leng Fuhai, Bai Rujiang, Zhu Qingsong. A Hybrid Semantic Information Extraction Method for Scientific Research Papers[J]. Library and Information Service, 2013,57(11):112-119.)
[10] Chen L L, Fang H. An Automatic Method for Extracting Innovative Ideas Based on the Scopus® Database[J]. Knowledge Organization, 2019,46(3):171-186.
doi: 10.5771/0943-7444-2019-3
[11] 周海晨, 郑德俊, 郦天宇. 学术全文本的学术创新贡献识别探索[J]. 情报学报, 2020,39(8):845-851.
[11] ( Zhou Haichen, Zheng Dejun, Li Tianyu. Research on the Identification of Academic Innovation Contributions of Full Academic Texts[J]. Journal of the China Society for Scientific and Technical Information, 2020,39(8):845-851.)
[12] 黄璐, 朱一鹤, 张嶷. 基于加权网络链路预测的新兴技术主题识别研究[J]. 情报学报, 2019,38(4):335-341.
[12] ( Huang Lu, Zhu Yihe, Zhang Yi. Research on Identification of Emerging Topics Based on Link Prediction with Weighted Networks[J]. Journal of the China Society for Scientific and Technical Information, 2019,38(4):335-341.)
[13] 王金凤, 吴敏, 岳俊举, 等. 创新过程的技术机会识别路径研究——基于专利挖掘和形态分析[J]. 情报理论与实践, 2017,40(8):82-86.
[13] ( Wang Jinfeng, Wu Min, Yue Junju, et al. Research on the Path of Technology Opportunity Identification in the Innovation Process[J]. Information Studies: Theory & Application, 2017,40(8):82-86.)
[14] Krenn M, Zeilinger A. Predicting Research Trends with Semantic and Neural Networks with an Application in Quantum Physics[J]. PNAS, 2020,117(4):1910-1916.
doi: 10.1073/pnas.1914370116
[15] Wang Q Y, Huang L F, Jiang Z Y, et al. PaperRobot: Incremental Draft Generation of Scientific Ideas[OL]. arXiv Preprint, arXiv: 1905. 07870.
[16] Spangler S, Wilkins A D, Bachman B J, et al. Automated Hypoconfproc Generation Based on Mining Scientific Literature[C]// Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2014: 1877-1886.
[17] Hu Y, Wan X J. Mining and Analyzing the Future Works in Scientific Articles[OL]. arXiv Preprint, arXiv: 1507. 02140.
[18] Vaswani A, Shazeer N, Parmar N, et al. Attention is All You Need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017: 5998-6008.
[19] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[OL]. arXiv Preprint, arXiv: 1810. 04805.
[20] Liu Y. Fine-tune BERT for Extractive Summarization[OL]. arXiv Preprint, arXiv: 1903. 10318.
[21] Levenshtein V I. Binary Codes Capable of Correcting Deletions, Insertions, and Reversals[J]. Soviet Physics Doklady, 1966,10(8):707-710.
[22] Dong L, Yang N, Wang W H, et al. Unified Language Model Pre-training for Natural Language Understanding and Generation[C]// Proceedings of the 33rd Conference on Neural Information Processing Systems. 2019: 13063-13075.
[1] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[2] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[3] 马江微, 吕学强, 游新冬, 肖刚, 韩君妹. 融合BERT与关系位置特征的军事领域关系抽取方法*[J]. 数据分析与知识发现, 2021, 5(8): 1-12.
[4] 江雅仁, 乐小虬. 一对多实体关系少样本持续学习方法研究[J]. 数据分析与知识发现, 2021, 5(8): 45-53.
[5] 李文娜, 张智雄. 基于联合语义表示的不同知识库中的实体对齐方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 1-9.
[6] 王昊, 林克柔, 孟镇, 李心蕾. 文本表示及其特征生成对法律判决书中多类型实体识别的影响分析[J]. 数据分析与知识发现, 2021, 5(7): 10-25.
[7] 喻雪寒, 何琳, 徐健. 基于RoBERTa-CRF的古文历史事件抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 26-35.
[8] 张乐, 冷基栋, 吕学强, 崔卓, 王磊, 游新冬. RLCPAR:一种基于强化学习的中文专利摘要改写模型*[J]. 数据分析与知识发现, 2021, 5(7): 59-69.
[9] 陆泉, 何超, 陈静, 田敏, 刘婷. 基于两阶段迁移学习的多标签分类模型研究*[J]. 数据分析与知识发现, 2021, 5(7): 91-100.
[10] 刘文斌, 何彦青, 吴振峰, 董诚. 基于BERT和多相似度融合的句子对齐方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 48-58.
[11] 尹鹏博,潘伟民,张海军,陈德刚. 基于BERT-BiGA模型的标题党新闻识别研究*[J]. 数据分析与知识发现, 2021, 5(6): 126-134.
[12] 胡昊天,吉晋锋,王东波,邓三鸿. 基于深度学习的食品安全事件实体一体化呈现平台构建*[J]. 数据分析与知识发现, 2021, 5(3): 12-24.
[13] 王倩,王东波,李斌,许超. 面向海量典籍文本的深度学习自动断句与标点平台构建研究*[J]. 数据分析与知识发现, 2021, 5(3): 25-34.
[14] 吕学强,罗艺雄,李家全,游新冬. 中文专利侵权检测研究综述*[J]. 数据分析与知识发现, 2021, 5(3): 60-68.
[15] 常城扬,王晓东,张胜磊. 基于深度学习方法对特定群体推特的动态政治情感极性分析*[J]. 数据分析与知识发现, 2021, 5(3): 121-131.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn