Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (8): 114-122    DOI: 10.11925/infotech.2096-3467.2018.1297
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基金项目数据和论文数据融合视角下科学研究前沿主题识别 *——以碳纳米管领域为例
刘博文,白如江(),周彦廷,王效岳
山东理工大学科技信息研究所 淄博 255049
Identifying Frontier Topics from Funding and Paper——Case Study of Carbon Nanotube
Bowen Liu,Rujiang Bai(),Yanting Zhou,Xiaoyue Wang
Institute of Scientific and Technical Information, Shandong University of Technology, Zibo 255049, China
全文: PDF(635 KB)   HTML ( 20
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】对比分析基金项目数据和论文数据的细粒度特征, 识别科学研究前沿主题。【方法】以碳纳米管领域的美国国家科学基金会(NSF)基金项目和WOS论文为数据源, 进行LDA主题识别, 提出并利用主题强度、主题新颖度和主题相似度三个研究指标进行对比分析。【结果】共识别出该领域2个热点研究前沿主题、5个新兴研究前沿主题、4个消亡研究前沿主题以及2个潜在研究前沿主题。【局限】本文以英文文本为例进行研究, 对中文文本的研究需在主题识别和相似度计算上做出调整。【结论】本文方法与单数据源、单维度识别方法相比, 能更有效识别科学研究前沿主题。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
刘博文
白如江
周彦廷
王效岳
关键词 科学研究前沿主题识别基金项目论文    
Abstract

[Objective] This paper analyzes the fine-grained characteristics of funding and paper data in English, aiming to identify the frontiers of scientific research. [Methods] We retrieved NSF funded projects and WOS papers in the field of carbon nanotubes, and identified their LDA themes. Then, we compared their topic novelty, intensity and similarity. [Results] We found two trending topics, five emerging topics, four dying topics and two topics with potentialities. [Limitations] We did not evaluate our method with data in Chinese. [Conclusions] Compared with methods relying on single data source or dimension, our method can identify the frontiers of scientific research more effectively.

Key wordsScientific Research    Front Topic Recognition    Fund Project Paper
收稿日期: 2018-11-20     
中图分类号:  G350  
基金资助:*本文系国家社会科学基金项目“未来新兴科学研究前沿识别研究”的研究成果之一(16BTQ083)
通讯作者: 白如江     E-mail: brj@sdut.edu.cn
引用本文:   
刘博文,白如江,周彦廷,王效岳. 基金项目数据和论文数据融合视角下科学研究前沿主题识别 *——以碳纳米管领域为例[J]. 数据分析与知识发现, 2019, 3(8): 114-122.
Bowen Liu,Rujiang Bai,Yanting Zhou,Xiaoyue Wang. Identifying Frontier Topics from Funding and Paper——Case Study of Carbon Nanotube. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2018.1297.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.1297
图1  基于基金项目数据和论文数据对比的科学研究前沿主题识别研究思路
图2  数据预处理步骤
图3  基于NSF与WOS对比的判别研究前沿主题方法流程
图4  实验数据关系图
图5  NSF基金项目数据主题困惑度计算结果
主题 主题识别结果
topic_0 Surfac | Catalyst | Synthesi | Activ | Potenti | Involv |
Challeng | Growth | Chemistri | Investig | Templat |
Function | Separ | Chiral | Scalabl
topic_1 Membran | Water | Separ | Cost | Select | Purif | Industri |
Desalin | Transport | Product | Perform | Fuel | Improv |
Impact | Energi
topic_2 Materi | Structur | Properti | Energi | Polym | Composit |
Mechan | Manufactur | Thermal | Contact | Engin | Electr |
Fiber | Nanocomposit | Impact
topic_3 Structur | Electron | Materi | Properti | Synthesi | Growth |
Atom | Support | Control | Simul | Chemic | Comput |
Chemistri | Optic | Tool
topic_4 Contamin | Organ | Environment | Nanomateri | Adsorpt |
Environ | Behavior | Water | Dynam | Effect | Chemic |
Studi | Structur | Interact | Impact
topic_5 Devic | Electron | Sensor | Perform | Commerci |
Transistor | Sens | Cost | Fabric | Array | Phase | System |
Power | Busi | Assembl
topic_6 Electron | Devic | Materi | Fundament | Studi | Physic |
Interact | Properti | Measur | Experi | Approach | Activ |
Electr | Educ | Investig
topic_7 Cell | Field | Coat | Therapi | Tissu | Electr | Actuat |
Function | Cancer | Tumor | Impact | Propos | Provid |
Effect | Ceram
topic_8 Interconnect | Industri | Design | Educ | Adhes | Architectur |
Combin | Input | Microprocessor | Optim | Align | Experi |
Brthe | Materi | Address
表1  NSF基金项目数据LDA主题识别结果
主题 新颖度 主题强度
NSF-0 2012.733 15
NSF-1 2011.889 18
NSF-3 2011.813 16
NSF-8 2011.429 7
NSF-4 2011.333 15
NSF-5 2011.333 33
NSF-6 2011.233 43
NSF-7 2010.900 10
NSF-2 2010.895 38
表2  NSF基金项目数据多维度分析结果
NSF WOS全球 相似度 NSF WOS全球 相似度
NSF-2 GT10-8 0.268104 NSF-0 GT10-3 0.036815
NSF-1 GT10-2 0.115298 NSF-0 GT10-1 0.033467
NSF-2 GT10-3 0.097329 NSF-7 GT10-1 0.032106
NSF-6 GT10-8 0.095307 NSF-0 GT10-8 0.031421
NSF-0 GT10-2 0.086475 NSF-6 GT10-5 0.028784
NSF-4 GT10-5 0.075558 NSF-1 GT10-3 0.028616
NSF-0 GT10-5 0.074696 NSF-2 GT10-1 0.028526
NSF-7 GT10-8 0.069252 NSF-1 GT10-5 0.026836
NSF-4 GT10-2 0.064733 NSF-1 GT10-7 0.026205
NSF-5 GT10-3 0.061897 NSF-3 GT10-8 0.025477
NSF-3 GT10-3 0.060128 NSF-2 GT10-2 0.024772
NSF-3 GT10-2 0.059025 NSF-6 GT10-3 0.024683
NSF-2 GT10-7 0.051928 NSF-5 GT10-7 0.024672
NSF-7 GT10-7 0.045046 NSF-6 GT10-2 0.024230
NSF-4 GT10-8 0.041237 NSF-8 GT10-3 0.021150
NSF-5 GT10-8 0.038707
表3  NSF基金项目数据与WOS论文全球数据主题相似度计算结果
NSF WOS美国 相似度 NSF WOS美国 相似度
NSF-4 AT4-1 0.116978 NSF-6 AT4-3 0.033638
NSF-5 AT4-0 0.114348 NSF-0 AT4-2 0.033120
NSF-0 AT4-3 0.108514 NSF-1 AT4-2 0.032683
NSF-2 AT4-1 0.102456 NSF-3 AT4-3 0.031432
NSF-0 AT4-1 0.098846 NSF-5 AT4-2 0.031385
NSF-1 AT4-1 0.082433 NSF-6 AT4-0 0.026445
NSF-7 AT4-2 0.076167 NSF-3 AT4-0 0.024711
NSF-2 AT4-2 0.054431 NSF-6 AT4-2 0.020733
NSF-2 AT4-0 0.034317 NSF-3 AT4-2 0.019373
NSF-3 AT4-1 0.034078 NSF-8 AT4-2 0.017742
表4  NSF基金项目数据与WOS论文美国数据主题相似度计算结果
新颖度 共同存在主题 非共同存在主题
主题强度强 主题强度弱
新颖度高 NSF-5
NSF-6
NSF-0
NSF-1
NSF-3
NSF-4
NSF-8
GT10-0
GT10-4
新颖度低 NSF-2
NSF-7
GT10-6
GT10-9
表5  NSF基金项目数据和WOS论文全球数据主题对比分类
新颖度 共同存在主题 非共同存在主题
主题强度强 主题强度弱
新颖度高 NSF-5
NSF-6
NSF-0
NSF-1
NSF-3
NSF-4
NSF-8
新颖度低 NSF-2
NSF-7
表6  NSF基金项目数据和WOS论文美国数据主题对比分类
主题 主题新颖度 主题强度
NSF-5 2011.333 33
NSF-6 2011.233 43
表7  NSF-5、NSF-6主题指标计算结果
主题 主题新颖度 主题强度
NSF-0 2012.733 15
NSF-1 2011.889 18
NSF-3 2011.813 16
NSF-4 2011.333 15
NSF-8 2011.429 7
表8  NSF-0、NSF-1、NSF-3、NSF-4、NSF-8主题指标计算结果
主题 主题新颖度 主题强度
NSF-2 2010.895 38
NSF-7 2010.900 10
GT10-6 2010.897 68
GT10-9 2012.103 39
表9  NSF-2、NSF-7、GT10-6、GT10-9主题指标计算结果
主题 主题新颖度 主题强度
GT10-0 2012.462 65
GT10-4 2012.732 164
表10  GT10-0、GT10-4主题指标计算结果
[1] Price D J D S. Networks of Scientific Papers[J]. Science, 1965,149(3683):510-515.
[2] Small H . Co-Citation in the Scientific Literature: A New Measure of the Relationship Between Two Documents[J]. Journal of the American Society for Information Science, 1973,24(4):265-269.
[3] Persson O . The Intellectual Base and Research Fronts of JASIS 1986-1990[J]. Journal of the Association for Information Science & Technology, 1994,45(1):31-38.
[4] Garfield E . Research Fronts[J]. Current Contents, 1994,41(10):3-7.
[5] Morris S A, Yen G, Wu Z , et al. Time Line Visualization of Research Fronts[J]. Journal of the American Society for Information Science and Technology, 2003,54(5):413-422.
[6] Chen C . CiteSpaceII: Detecting and Visualizing Emerging Trends and Transient Patterns in Scientific Literature[J]. Journal of the American Society for Information Science and Technology, 2006,57(3):359-377.
[7] 许晓阳, 郑彦宁, 刘志辉 . 论文和专利相结合的研究前沿识别方法研究[J]. 图书情报工作, 2016,60(24):97-106.
( Xu Xiaoyang, Zheng Yanning, Liu Zhihui . Study on the Method of Identifying Research Fronts Based on Scientific Papers and Patents[J]. Library and Information Service, 2016,60(24):97-106.)
[8] 王贤文, 毛文莉, 王治 . 基于论文下载数据的科研新趋势实时探测与追踪[J]. 科学学与科学技术管理, 2014,35(4):3-9.
( Wang Xianwen, Mao Wenli, Wang Zhi . Detecting and Tracing Emerging Research Trends Real-Timely Using Web Data[J]. Science of Science and Management of S.&T., 2014,35(4):3-9.)
[9] 白如江, 冷伏海, 廖君华 . 一种基于多数据源主题对比的科学研究前沿识别方法[J]. 情报理论与实践, 2017,40(8):43-48, 36.
( Bai Rujiang, Leng Fuhai, Liao Junhua . A Method of Detecting Research Front Based on Subjects Comparison of Multiple Data Sources[J]. Information Studies: Theory & Application, 2017,40(8):43-48, 36.)
[10] Blei D M, Ng A Y, Jordan M I . Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003,3:993-1022.
[11] AlSumait L, Barbará D, Gentle J, et al. Topic Significance Ranking of LDA Generative Models [C]//Proceedings of Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin: Springer, 2009: 67-82.
[12] Keramati A, Ghaneei H, Mirmohammadi S M . Developing a Prediction Model for Customer Churn from Electronic Banking Services Using Data Mining[J]. Financial Innovation, 2016,2(1):14-16.
[13] He X, Wu Y, Yu D , et al. Exploring the Ordered Weighted Averaging Operator Knowledge Domain: A Bibliometric Analysis[J]. International Journal of Intelligent Systems, 2017,32(11):1151-1166.
[14] 叶春蕾, 冷伏海 . 基于共词分析的学科主题演化方法改进研究[J]. 情报理论与实践, 2012,35(3):79-82.
( Ye Chunlei, Leng Fuhai . Research on Improvement of Disciplinary Subject Evolution Method Based on Co-word Analysis[J]. Information Studies: Theory & Application, 2012,35(3):79-82. )
[15] 张英杰, 冷伏海 . 基于案例的科学前沿探测方法比较研究[J]. 图书情报工作, 2012,56(20):42-46.
( Zhang Yingjie, Leng Fuhai . Case-based Comparative Study on Scientific Frontier Detection Methods[J]. Library and Information Service, 2012,56(20):42-46.)
[16] 陈军营, 白如江, 王效岳 , 等. 中外图情领域大数据近十年(2007-2016)研究现状与发展趋势分析[J]. 情报科学, 2018,36(7):104-110.
( Chen Junying, Bai Rujiang, Wang Xiaoyue , et al. Research Status and Development Trend Analysis of Big Data in the Field of Chinese and Foreign Library and Information Science in Recent 10 Years (2007-2016)[J]. Information Science, 2018,36(7):104-110.)
[17] Thorndike R L . Who Belongs in the Family?[J]. Psychometrika, 1953,18(4):267-276.
[1] 李真,丁晟春,王楠. 网络舆情观点主题识别研究*[J]. 数据分析与知识发现, 2017, 1(8): 18-30.
[2] 叶春蕾, 冷伏海. 科技文献全文主题识别方法实证研究[J]. 现代图书情报技术, 2012, 28(1): 53-57.
[3] 邵晓良,刘红. Web主题信息采集中信息主题的识别[J]. 现代图书情报技术, 2004, 20(10): 51-54.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn