Please wait a minute...
Data Analysis and Knowledge Discovery  2021, Vol. 5 Issue (5): 10-20    DOI: 10.11925/infotech.2096-3467.2020.1275
Current Issue | Archive | Adv Search |
Identifying Academic Creative Concept Topics Based on Future Work of Scientific Papers
Song Ruoxuan,Qian Li(),Du Yu
Department of Library, Information and Archives Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190, China
Download: PDF (1018 KB)   HTML ( 37
Export: BibTeX | EndNote (RIS)      
Abstract  

[Objective] This paper analyzes the sentences on future work from scientific papers, aiming to automatically generate academic innovation ideas. [Methods] First, we combined rule matching with BERT to extract sentences on future work from papers. Then, we conducted the expansion calculation on papers in related fields, and identified keywords and papers on future directions. Finally, these innovative raw materials were fed to the UniLM-based model to create topics of innovation concepts. [Results] The average innovation score of the generated results is 6.04 points, and the average interest level score is 6.01 points. [Limitations] The topic generation model neither includes prior semantic knowledge nor uses large-scale data for experiment, and the quality of generated topics needs to be improved. [Conclusions] The proposed method provides a new idea to expand technological innovation.

Key wordsCreative Concept Topics      Future Work      Artificial Intelligence      Text Generation      BERT      UniLM     
Received: 21 December 2020      Published: 27 May 2021
ZTFLH:  TP391  
Fund:The work is supported by the Youth Innovation Promotion Association, Chinese Academy of Sciences(Grant No)(院1721);the National Defense Science and Technology Innovation Project of the Central Military Commission Science and Technology Commission(Grant No)(JW1701)
Corresponding Authors: Qian Li     E-mail: qianl@mail.las.ac.cn

Cite this article:

Song Ruoxuan,Qian Li,Du Yu. Identifying Academic Creative Concept Topics Based on Future Work of Scientific Papers. Data Analysis and Knowledge Discovery, 2021, 5(5): 10-20.

URL:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/EN/10.11925/infotech.2096-3467.2020.1275     OR     https://manu44.magtech.com.cn/Jwk_infotech_wk3/EN/Y2021/V5/I5/10

The Framework of the Automatic Generation Method of Creative Concept Topics
BERT Input Representation after Adding Sentence_position Embeddings
指示词 章节标题 比例
结语 结语、结语与讨论 91.32%
结论 结论、研究结论、结论和讨论、结论与讨论、结论与启示、结论与展望、结论及展望、结论与不足、结论与局限、结论及建议、结论与建议 4.56%
未来发展 未来发展趋势、未来发展方向 0.15%
展望 展望、未来展望、评述与展望、讨论与展望、总结和展望、总结及展望、总结与展望、问题讨论与未来展望、局限性与下一步展望、研究局限和展望 2.65%
未来研究 未来研究、未来研究方向、未来研究设想、局限与未来研究 0.37%
未来工作 讨论与未来工作、研究建议与未来工作 0.15%
其他 后续工作、结果与讨论、总结与讨论、发展思考、总结思考、发展建议、分析与建议等 1.32%
Statistics of Future Work Chapter Titles
模型 类别1:Future Work Accuracy Macro Avg F1-score
Precision Recall F1-score
BERT+Sentence_position- Embeddings 0.876 4 0.827 0 0.851 0 0.906 9 0.891 6
BERT 0.844 1 0.808 7 0.826 0 0.890 5 0.873 0
The Performance of the Improved Model and BERT on the Test Set
论文原标题 论文原有关键词 未来工作关键短语 关联词语 扩展论文标题
一种融合网络表示学习与XGBoost的评分预测模型 网络表示学习;XGBoost;评分预测;协同过滤;Node2Vec 用户兴趣;时序变化;融入时间序列特征;时间因素;方法 K-truss;LDA;学术文献;基于会话的推荐系统;社区挖掘 面向时序图的K-truss社区搜索算法研究
基于LSTM网络的盗窃犯罪时间序列预测研究 犯罪预测;时间序列;LSTM网络;盗窃 人口数量;大时段;犯罪数量;天气;波动 AlexNet;股票收益率;动态因子模型;天气特征提取;EM算法 股票市场的高维动态因子模型及其实证分析
网络热点事件话题漂移指数构建与实证研究 网络热点事件;话题漂移指数;LDA;网络舆情预警 外延子话题;多媒体内容;语义层面;深度语义分析方法;网络热点事件话题漂移指数预测精准度;话题内容 话题检测和追踪;多维度;形状匹配;话题层次;视音频;搜索方案;相似性计算;不同维度;网络社交媒体;协同学习;知识感知;子事件 基于网络社交媒体的子话题检测技术综述
…… …… …… …… ……
基于LDA的微博用户主题图谱构建及实证研究——以“埃航空难”为例 LDA;微博用户;主题图谱 参数选择方式;微博用户;研究价值;情感分类训练器;优主题数;意见领袖;时间复杂度;研究中将选用时间 模糊性;正则树;虚拟社区;识别模型;在线争议解决;法律人工智能;互联网仲裁;仲裁系统 虚拟学习社区中意见领袖识别模型研究
Part of the Output of the Related Knowledge Expansion Computing Module
序号 创新构想话题 序号 创新构想话题
1 国家人口健康科学数据仓储 26 基于知识提升的DEKG事件关系构建
2 健康医疗大数据环境下的匿名问题研究 27 基于SemMedDB的医学知识计量学研究
3 基于全科医学知识库的临床诊断支持系统 28 融合多步翻译路径和作者的属性信息
4 实时量表信息抽取方法可行性研究 29 多样性指标在文档检索中的应用
5 基于逆向分析的突发公共卫生事件误导信息传播特征研究 30 基于LDA的微博用户情感分类模型
6 基于关联规则的糖尿病知识推荐机制 31 基于线特征及ICP算法的地基建筑物点云配准
7 网络环境下传统音乐术语的实体识别 32 基于网络社交媒体的热点话题检测
8 基于会话的矩阵分解推荐算法 33 基于隐私度量的微博图片数据识别研究
9 智慧城市多领域的情感分类研究 34 基于双向聚合度的专利情报分析方法
10 基于学习自动机的微博推荐效果研究 35 基于知识的专利语义关联方法研究
11 基于多粒度粗糙集的民航风险预警分析 36 基于贪心策略的少样本文本分类模型
12 面向动态群组的深度神经网络群组推荐算法 37 中文临床文本语义一致性研究
13 基于深度卷积神经网络的交通事件识别研究 38 基于多策略集成学习的科技文献信息抽取模型
14 基于需求导向的学科知识发现服务 39 技术路线图的理论研究
15 基于双向门控循环网络的自由文本识别方法 40 大数据环境下的命名实体消歧研究
16 综述性论文结构功能识别 41 基于用户需求的出口管制文件剖析
17 基于多因子算法的虚假评论检测模型 42 基于本体的网络区域公共安全信息服务应用研究
18 基于时间序列特征的推荐系统 43 基于动态分析的不变量综合技术
19 基于BERT模型的心脏病预测 44 突发公共卫生事件网络舆情主题发现研究
20 智能图片房源基础设施识别研究 45 不同地理要素变化时间规律方面的研究
21 基于动态因子模型的日盗窃犯罪预测 46 基于skip-PTM模型的突发事件要素识别
22 网络热点事件话题漂移指数预测 47 基于赋时Petri网的城市画像分析
23 产品图像与文字描述之间的相互作用机制 48 融合特定任务信息的文本表示研究
24 消费品缺陷领域短语词典研究 49 一种改进的双语实体命名方法
25 基于特征维度LDA模型的城市画像研究 50 基于深度卷积神经网络的两阶段盲卷积降噪模型
List of Creative Concept Topics
生成话题 #多样性指标在文档检索中的应用#
话题来源 《基于深度学习的问答平台查询推荐研究》
【目的】 针对社会化问答平台场景,构建深度神经网络模型,改善查询推荐的效果。【方法】 以Yahoo Answers和Yahoo! L6为基础构建实验数据集,基于语义匹配矩阵、变长卷积层和多层感知机构建CNMNN神经网络模型,并与MQ2QC、IBLM、DRMM和MatchPyramid等基线进行了对比。【结果】 对比MQ2QC、IBLM、DRMM、MatchPyramid这4种现有方法的最优效果,CNMNN模型在nDCG@5、nDCG@10、nDCG@20、MRR和MAP等相关性评价指标上的提升率分别为45.0%、38.7%、33.4%、34.8%和52.9%,在α-nDCG@5、α-nDCG@10、α-nDCG@20、ERR-IA@5、ERR-IA@10和ERR-IA@20等多样性指标上的提升率分别为31.5%、23.6%、25.5%、38.1%、36.9%和30.7%。【局限】 尽管分析了多样性指标α-nDCG@k和ERR-IA@k,但是没有针对推荐结果提出进一步的多样化方法。【结论】 CNMNN模型不仅可以计算查询和自然语言问句在短语级别的语义相关性,还避免了层次卷积操作导致的特征信号压缩问题。
(1)关键词查询和自然语言问句都是极其短小的文本片段,因此,传统的基于词的相关性模型无法有效衡量两者的提问意图相似性。(2)由于用户查询往往不存在完备的句法结构,使严重依赖句法结构特征的问句搜索方法失效。本文的不足之处在于,尽管分析了多种模型在多样性指标上的得分,但是没有提出多样性指标优化的方法模型。后续研究将聚焦于推荐结果多样化方法,减少推荐结果列表中提问意图相同的自然语言问句。
拓展词汇 相关性评分;三元组;文档检索;片段整合计算;多特征语义匹配模型;字符相似度;相关片段比例
相关论文 《文档检索中文本片段化机制的研究》
文档检索是自然语言处理的研究热点,相对于短文本文档具有信息丰富且冗长的特征。在长文本检索中,查询语句与长文本中的句子往往不是全部相关,可能会出现某些高相似片段的强干扰,因此查询语句与文档之间的相关性评分不能简单采用基于词语或字符串之间的相似度计算。提出了一种文本片段化机制(TSM)进行文档检索,首先将每个候选文档划分成片段,再计算查询语句与文档片段之间的相关度,所使用的相关度匹配方案考虑了语义和词频等因素,筛选出关键的文本片段并得出相关片段比率,综合这些片段信息计算查询与文档之间的相关性得分,从而获取Top-K文档集。
Creative Concept Topic Example —“The Application of Diversity Index in Document Retrieval”
Statistics of Expert Evaluation Results
序号 创新构想话题 创新性
平均分
1 基于隐私度量的微博图片数据识别研究 7.2
2 基于逆向分析的突发公共卫生事件误导信息传播特征研究 7.2
3 基于多因子算法的虚假评论检测模型 7.2
4 基于BERT模型的心脏病预测 7.1
5 智能图片房源基础设施识别研究 7.0
Top 5 Creative Concept Topics with the Highest Average Innovation Score
序号 创新构想话题 兴趣度
平均分
1 基于逆向分析的突发公共卫生事件误导信息传播特征研究 7.6
2 基于多因子算法的虚假评论检测模型 7.4
3 基于BERT模型的心脏病预测 7.2
4 基于隐私度量的微博图片数据识别研究 7.2
5 基于全科医学知识库的临床诊断支持系统 7.1
Top 5 Creative Concept Topics with the Highest Average Interest Level Score
[1] Olcay E, Dengler C, Lohmann B. Data-driven System Identification of an Innovation Community Model[J]. IFAC-Papers OnLine, 2018,51(11):1269-1274.
[2] Martinez-Torres R, Olmedilla M. Identification of Innovation Solvers in Open Innovation Communities Using Swarm Intelligence[J]. Technological Forecasting and Social Change, 2016,109(8):15-24.
doi: 10.1016/j.techfore.2016.05.007
[3] von Hippel E, von Krogh G. Open Source Software and the “Private-Collective” Innovation Model: Issues for Organization Science[J]. Organization Science, 2003,14(2):209-223.
doi: 10.1287/orsc.14.2.209.14992
[4] 陈丽娟, 兰艳艳, 庞亮, 等. 创新构想话题生成[J]. 山西大学学报(自然科学版), 2019,42(1):56-63.
[4] ( Chen Lijuan, Lan Yanyan, Pang Liang, et al. Generation of Creative Concept Topic[J]. Journal of Shanxi University (Natural Science Edition), 2019,42(1):56-63.)
[5] 李瑛, 周立. 科技期刊论文创新点合理呈现的价值及理想模式[J]. 中国科技期刊研究, 2018,29(10):993-999.
[5] ( Li Ying, Zhou Li. Value and Ideal Model of Reasonable Showing of Innovation Points in Scientific Papers[J]. Chinese Journal of Scientific and Technical Periodicals, 2018,29(10):993-999.)
[6] Zhang M, Fan B, Zhang N, et al. Mining Product Innovation Ideas from Online Reviews[J]. Information Processing & Management, 2020,58(1):102389.
doi: 10.1016/j.ipm.2020.102389
[7] Almeida J N, Azevedo S, Carvalho J P. Towards Automatic Web Identification of Solutions in Patient Innovation[A]//Computational Intelligence and Mathematics for Tackling Complex Problems[M]. Springer, Cham, 2020: 9-14.
[8] 温有奎, 吴广印. 碎片化科研创新点动态挖掘研究[J]. 数字图书馆论坛, 2014(7):25-32.
[8] ( Wen Youkui, Wu Guangyin. Dynamic Mining of Fragmented Scientific Research Innovation Points[J]. Digital Library Forum, 2014(7):25-32.)
[9] 冷伏海, 白如江, 祝清松. 面向科技文献的混合语义信息抽取方法研究[J]. 图书情报工作, 2013,57(11):112-119.
[9] ( Leng Fuhai, Bai Rujiang, Zhu Qingsong. A Hybrid Semantic Information Extraction Method for Scientific Research Papers[J]. Library and Information Service, 2013,57(11):112-119.)
[10] Chen L L, Fang H. An Automatic Method for Extracting Innovative Ideas Based on the Scopus® Database[J]. Knowledge Organization, 2019,46(3):171-186.
doi: 10.5771/0943-7444-2019-3
[11] 周海晨, 郑德俊, 郦天宇. 学术全文本的学术创新贡献识别探索[J]. 情报学报, 2020,39(8):845-851.
[11] ( Zhou Haichen, Zheng Dejun, Li Tianyu. Research on the Identification of Academic Innovation Contributions of Full Academic Texts[J]. Journal of the China Society for Scientific and Technical Information, 2020,39(8):845-851.)
[12] 黄璐, 朱一鹤, 张嶷. 基于加权网络链路预测的新兴技术主题识别研究[J]. 情报学报, 2019,38(4):335-341.
[12] ( Huang Lu, Zhu Yihe, Zhang Yi. Research on Identification of Emerging Topics Based on Link Prediction with Weighted Networks[J]. Journal of the China Society for Scientific and Technical Information, 2019,38(4):335-341.)
[13] 王金凤, 吴敏, 岳俊举, 等. 创新过程的技术机会识别路径研究——基于专利挖掘和形态分析[J]. 情报理论与实践, 2017,40(8):82-86.
[13] ( Wang Jinfeng, Wu Min, Yue Junju, et al. Research on the Path of Technology Opportunity Identification in the Innovation Process[J]. Information Studies: Theory & Application, 2017,40(8):82-86.)
[14] Krenn M, Zeilinger A. Predicting Research Trends with Semantic and Neural Networks with an Application in Quantum Physics[J]. PNAS, 2020,117(4):1910-1916.
doi: 10.1073/pnas.1914370116
[15] Wang Q Y, Huang L F, Jiang Z Y, et al. PaperRobot: Incremental Draft Generation of Scientific Ideas[OL]. arXiv Preprint, arXiv: 1905. 07870.
[16] Spangler S, Wilkins A D, Bachman B J, et al. Automated Hypoconfproc Generation Based on Mining Scientific Literature[C]// Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2014: 1877-1886.
[17] Hu Y, Wan X J. Mining and Analyzing the Future Works in Scientific Articles[OL]. arXiv Preprint, arXiv: 1507. 02140.
[18] Vaswani A, Shazeer N, Parmar N, et al. Attention is All You Need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017: 5998-6008.
[19] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[OL]. arXiv Preprint, arXiv: 1810. 04805.
[20] Liu Y. Fine-tune BERT for Extractive Summarization[OL]. arXiv Preprint, arXiv: 1903. 10318.
[21] Levenshtein V I. Binary Codes Capable of Correcting Deletions, Insertions, and Reversals[J]. Soviet Physics Doklady, 1966,10(8):707-710.
[22] Dong L, Yang N, Wang W H, et al. Unified Language Model Pre-training for Natural Language Understanding and Generation[C]// Proceedings of the 33rd Conference on Neural Information Processing Systems. 2019: 13063-13075.
[1] Chen Jie,Ma Jing,Li Xiaofeng. Short-Text Classification Method with Text Features from Pre-trained Models[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[2] Zhou Zeyu,Wang Hao,Zhao Zibo,Li Yueyan,Zhang Xiaoqin. Construction and Application of GCN Model for Text Classification with Associated Information[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[3] Ma Jiangwei, Lv Xueqiang, You Xindong, Xiao Gang, Han Junmei. Extracting Relationship Among Military Domains with BERT and Relation Position Features[J]. 数据分析与知识发现, 2021, 5(8): 1-12.
[4] Jiang Yaren, Le Xiaoqiu. Continual Learning for One-to-many Entity Relationship Generation with Small Samples[J]. 数据分析与知识发现, 2021, 5(8): 45-53.
[5] Li Wenna, Zhang Zhixiong. Entity Alignment Method for Different Knowledge Repositories with Joint Semantic Representation[J]. 数据分析与知识发现, 2021, 5(7): 1-9.
[6] Wang Hao, Lin Kerou, Meng Zhen, Li Xinlei. Identifying Multi-Type Entities in Legal Judgments with Text Representation and Feature Generation[J]. 数据分析与知识发现, 2021, 5(7): 10-25.
[7] Yu Xuehan, He Lin, Xu Jian. Extracting Events from Ancient Books Based on RoBERTa-CRF[J]. 数据分析与知识发现, 2021, 5(7): 26-35.
[8] Zhang Le, Leng Jidong, Lv Xueqiang, Cui Zhuo, Wang Lei, You Xindong. RLCPAR: A Rewriting Model for Chinese Patent Abstracts Based on Reinforcement Learning[J]. 数据分析与知识发现, 2021, 5(7): 59-69.
[9] Lu Quan, He Chao, Chen Jing, Tian Min, Liu Ting. A Multi-Label Classification Model with Two-Stage Transfer Learning[J]. 数据分析与知识发现, 2021, 5(7): 91-100.
[10] Liu Wenbin, He Yanqing, Wu Zhenfeng, Dong Cheng. Sentence Alignment Method Based on BERT and Multi-similarity Fusion[J]. 数据分析与知识发现, 2021, 5(7): 48-58.
[11] Yin Pengbo,Pan Weimin,Zhang Haijun,Chen Degang. Identifying Clickbait with BERT-BiGA Model[J]. 数据分析与知识发现, 2021, 5(6): 126-134.
[12] Hu Haotian,Ji Jinfeng,Wang Dongbo,Deng Sanhong. An Integrated Platform for Food Safety Incident Entities Based on Deep Learning[J]. 数据分析与知识发现, 2021, 5(3): 12-24.
[13] Wang Qian,Wang Dongbo,Li Bin,Xu Chao. Deep Learning Based Automatic Sentence Segmentation and Punctuation Model for Massive Classical Chinese Literature[J]. 数据分析与知识发现, 2021, 5(3): 25-34.
[14] Lv Xueqiang,Luo Yixiong,Li Jiaquan,You Xindong. Review of Studies on Detecting Chinese Patent Infringements[J]. 数据分析与知识发现, 2021, 5(3): 60-68.
[15] Chang Chengyang,Wang Xiaodong,Zhang Shenglei. Polarity Analysis of Dynamic Political Sentiments from Tweets with Deep Learning Method[J]. 数据分析与知识发现, 2021, 5(3): 121-131.
  Copyright © 2016 Data Analysis and Knowledge Discovery   Tel/Fax:(010)82626611-6626,82624938   E-mail:jishu@mail.las.ac.cn