Advanced Search

数据分析与知识发现, 2019, 3(8): 114-122 doi: 10.11925/infotech.2096-3467.2018.1297

研究论文

基金项目数据和论文数据融合视角下科学研究前沿主题识别 *——以碳纳米管领域为例

刘博文, 白如江,,, 周彦廷, 王效岳

山东理工大学科技信息研究所 淄博 255049

Identifying Frontier Topics from Funding and Paper——Case Study of Carbon Nanotube

Liu Bowen, Bai Rujiang,,, Zhou Yanting, Wang Xiaoyue

Institute of Scientific and Technical Information, Shandong University of Technology, Zibo 255049, China

通讯作者: 白如江, ORCID: 0000-0003-3822-8484, E-mail:brj@sdut.edu.cn

收稿日期: 2018-11-20   修回日期: 2019-05-7   网络出版日期: 2019-08-25

基金资助: *本文系国家社会科学基金项目“未来新兴科学研究前沿识别研究”的研究成果之一.  16BTQ083

Received: 2018-11-20   Revised: 2019-05-7   Online: 2019-08-25

摘要

【目的】对比分析基金项目数据和论文数据的细粒度特征, 识别科学研究前沿主题。【方法】以碳纳米管领域的美国国家科学基金会(NSF)基金项目和WOS论文为数据源, 进行LDA主题识别, 提出并利用主题强度、主题新颖度和主题相似度三个研究指标进行对比分析。【结果】共识别出该领域2个热点研究前沿主题、5个新兴研究前沿主题、4个消亡研究前沿主题以及2个潜在研究前沿主题。【局限】本文以英文文本为例进行研究, 对中文文本的研究需在主题识别和相似度计算上做出调整。【结论】本文方法与单数据源、单维度识别方法相比, 能更有效识别科学研究前沿主题。

关键词: 科学研究前沿 ; 主题识别 ; 基金项目论文

Abstract

[Objective] This paper analyzes the fine-grained characteristics of funding and paper data in English, aiming to identify the frontiers of scientific research. [Methods] We retrieved NSF funded projects and WOS papers in the field of carbon nanotubes, and identified their LDA themes. Then, we compared their topic novelty, intensity and similarity. [Results] We found two trending topics, five emerging topics, four dying topics and two topics with potentialities. [Limitations] We did not evaluate our method with data in Chinese. [Conclusions] Compared with methods relying on single data source or dimension, our method can identify the frontiers of scientific research more effectively.

Keywords: Scientific Research ; Front Topic Recognition ; Fund Project Paper

PDF (635KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

刘博文, 白如江, 周彦廷, 王效岳. 基金项目数据和论文数据融合视角下科学研究前沿主题识别 *——以碳纳米管领域为例 . 数据分析与知识发现[J], 2019, 3(8): 114-122 doi:10.11925/infotech.2096-3467.2018.1297

Liu Bowen. Identifying Frontier Topics from Funding and Paper——Case Study of Carbon Nanotube. Data Analysis and Knowledge Discovery[J], 2019, 3(8): 114-122 doi:10.11925/infotech.2096-3467.2018.1297

1 引 言

当今世界, 科学技术发展迅速, 新的研究领域、方向层出不穷, 这在一定程度上影响着一个国家的科技战略布局。基金项目是从国家战略角度对科学发展前瞻布局的体现, 而论文数据是科技工作者研究进展和研究成果的体现。因此, 利用情报学的理论与方法挖掘基金项目数据和论文数据中潜在的信息, 对于国家科技战略布局、科学发展有极为重要的科学支撑和参考价值。本文以碳纳米管研究领域为例, 提出一种基于基金项目数据和论文数据对比的多维度研究方法, 通过主题强度、主题新颖度和主题相似度等细粒度特征的对比, 实现对科学研究前沿主题的识别和分类。

2 相关研究

1965年, “科学计量学之父” Price在Science发表文章提出“研究前沿(Research Front)是科学引文网络中经常被引用且近期发表的文献集所代表的研究领域”[1], 这被认为是“研究前沿”一词最早的起源。1973年, Small在Price对“研究前沿”的定义基础上, 提出用共被引聚类方法分析论文, 并以此探究某一领域的研究前沿[2]。20世纪90年代以来, 科学研究前沿的研究不断深入, 其概念、研究方法、数据源等得到进一步发展。

(1) 在概念方面, 1994年, 瑞典计量学家Persson认为研究前沿由施引文献构成, 被引文献是研究前沿的重要知识基础, 并将研究前沿的定义解释为“与高同被引文献簇关联的施引文献群”[3]; 同年, SCI 创始人、情报学家Garfield将同被引聚类的核心论文和这些文献的施引论文一起定义成研究前沿, 这进一步扩大了研究前沿范围[4]; 2003年, 俄克拉何马州立大学Morris等将研究前沿定义为引用一组固定且时间不变的基础文献集, 利用经文献耦合、数据聚类得到的文献集以时间线等可视化手段探索科学研究前沿[5]; 2006年, 德雷塞尔大学陈超美将研究前沿定义为一组突现的动态概念和潜在的研究问题[6]

(2) 在数据源方面, 许晓阳等采用余弦相似度算法将论文和专利相结合, 对LED领域的研究前沿进行探索识别[7]; 王贤文等以论文数据为基础, 通过获取研究者正在下载和关注的科学文献信息, 实时追踪某一领域的研究趋势、挖掘研究热点、探测研究前沿[8]; 白如江等提出一种基于多数据源主题对比的科学研究前沿识别方法, 以科技规划文本和基金项目数据文本为数据源做对比分析, 突破科学研究前沿探测中数据源单一的局限[9]

(3) 在研究方法方面, Blei等对概率隐语义分析(Probabilistic Latent Semantic Indexing, PLSI)模型做了贝叶斯改进, 提出LDA(Latent Dirichlet Allocation)主题模型, 并被广泛认可和使用[10]; AlSumait等提出在线LDA(OLDA)模型, 通过演化矩阵对新主题进行监测, 并即时在线更新至模型, 从演化的视角展示主题内容和强度[11]; Keramati等利用数据挖掘技术获取组织数据库中的复杂数据, 并利用决策树模型建立了科学研究前沿预测体系[12]; He等利用突发词检测算法, 通过分析OWA领域文献的关键词和参考文献, 研究其前沿趋势[13]; 叶春蕾等提出基于概率模型的主题识别方法, 将 LDA 主题模型与共词分析相结合改进主题识别方法, 体现了主题词、主题和文档间的层次语义关系[14]; 张英杰等采用基于高频词的因子分析法、基于高频词的战略坐标图法和基于CiteSpace突发词的图谱法, 探测科学研究前沿[15]

总体来看, 当前有关科学研究前沿识别的研究仍然存在一些不足。

(1) 在数据源上, 鲜有学者深入研究基于多数据源的研究前沿探测, 基金项目数据作为具有重要价值的科技数据也常常被忽视;

(2) 在识别方法上, 当前的研究多采用主题模型、数据聚类、语义关联等方法, 忽视了与主题强度、主题新颖度等外部指标结合的方法;

(3) 在科学研究前沿的分类上, 识别结果笼统粗糙, 尚未有明确的分类方法。

本文以KNIME数据分析平台、Excel等为主要工具, 对基金项目数据和论文数据的主题强度、主题新颖度、主题相似度等指标进行综合分析, 提出热点研究前沿主题、新兴研究前沿主题、消亡研究前沿主题、潜在研究前沿主题的识别和判定方法。

3 研究思路

本文以基金项目数据和论文数据为对比数据源, 其中, 基金项目数据来源于美国国家科学基金会(National Science Foundation, NSF), 论文数据来源于WOS数据库(Web of Science)。从覆盖范围上看, NSF基金项目数据的研究课题均在美国范围内, 而WOS论文数据则覆盖全球各国、各地区。基于这样的研究前提, 基金项目数据和论文数据主题的对比主要从两个维度展开: NSF基金项目数据和WOS全球论文数据对比; NSF基金项目数据和WOS美国国内论文数据对比。研究思路如图1所示。

图1

图1   基于基金项目数据和论文数据对比的科学研究前沿主题识别研究思路


3.1 数据获取与预处理

从基金项目数据库和论文数据库分别下载数据, 所需题录数据包括项目(论文)标题、资助(发表)时间、资助金额、摘要等内容。

在KNIME数据分析平台上对两个数据源的数据集进行预处理, 主要工作包括: 将获取的基金项目和论文的摘要文本进行格式转换、去除标点符号、数字剔除、过滤停用词、词干提取、构建词袋等处理。标点符号、数字、连接词等经常出现在科技文献中, 但在本文中没有研究意义, 且占用大量文本空间。因此, 数据预处理能够有效提高主题别的效率和准确度。KNIME平台上数据预处理基本流程[16]图2所示。

图2

图2   数据预处理步骤


3.2 LDA主题识别和多维度主题分析

为提高主题识别准确性, 首先对数据预处理完毕后的文本数据利用Elbow Method[17]进行困惑度计算。Elbow Method将不同聚类数目的成本函数值在二维坐标上表示, 当函数曲线中斜率由大变小时数据点与聚类质心的平均距离最小, 该点横坐标值就是聚类效果最佳的主题数量。

经过Elbow Method主题困惑度计算后, 得到最优主题数量, 采用LDA模型识别出各数据源的研究主题。对识别出的主题进行多维度分析, 主要包括主题强度维度、主题新颖度维度等。

(1) 主题强度维度

利用Excel数据透视表统计各个主题包含的基金项目数量, 可以反映每个主题的主题强度。如果主题强度高, 则说明该研究主题布局项目数量多, 具有较高的研究热度。

(2) 主题新颖度维度

通过统计分析LDA主题内包含基金项目(论文)的批准立项(发表)年份信息, 可以反映出每个主题的新颖性。某个主题内批准立项年份越新, 则说明该研究主题具有更高的新颖性。本文主题新颖度的计算公式[9]如公式(1)所示。

${{N}_{s}}=\mathop{\sum }_{i=1}^{n}{{y}_{i}}/n$

其中, Ns表示主题s的新颖度, n表示主题s内基金项目(论文)数量, yi表示第i个基金项目(论文)的批准立项(发表)年。

3.3 分组对比与分析

在得到LDA识别主题之后, 选取余弦距离为标准, 进行相似度计算。根据相似度计算结果, 结合主题新颖度和主题强度等外部指标, 对主题类型进行判别。本文将主题划分为热点研究前沿主题、新兴研究前沿主题、消亡研究前沿主题、潜在研究前沿主题这4种类型。

由于基金项目是科研管理机构对科学研究的前瞻布局, 而论文是科学研究阶段性成果的体现, 所以基金项目比论文更具有前瞻性。在本文中, “共同存在主题”的新颖度以基金项目数据为计算依据, “非共同存在主题”的新颖度分别计算。新颖度的高低和主题强度的强弱以总体的平均值为参考, 大于平均值的判断为高或强, 小于平均值的判断为低或弱。具体判别方法流程如图3所示。

图3

图3   基于NSF与WOS对比的判别研究前沿主题方法流程


通过对比NSF基金项目数据和WOS论文数据, 可能出现以下情况:

(1) 某主题在NSF基金项目数据和WOS论文数据中均有出现, 结合新颖度和主题强度, 可以分为以下三种情况:

①主题新颖度高, 并且主题强度强——表征主题布局年份新, 当前研究热度高。该类主题的参与度高, 研究正处于快速发展阶段, 将此类型主题判定为热点研究前沿主题。

②主题新颖度高, 但主题强度弱——表征主题布局年份新, 但未引起广泛关注。该类主题的布局具有战略意义, 其研究在一定时期将吸引更多关注, 并得到进一步发展, 将此类型主题判定为新兴研究前沿主题。

③主题新颖度低——表征主题布局年份陈旧。该类主题一般发展成熟或者研究价值较小, 其研究方向在短时期内将逐步弱化或发生转移, 将此类型主题判定为消亡研究前沿主题。

(2) 某主题仅在NSF基金项目数据中或仅在WOS论文数据中出现, 结合主题新颖度, 可以分为以下两种情况:

①主题新颖度高——表征主题布局年份新。部分主题在科学研究中尚未有阶段性成果, 但基金项目的布局体现了其战略意义和研究价值; 另一部分主题在基金项目中尚未布局, 但有研究者前瞻开展相关研究并取得阶段性成果, 这些主题将有较大可能性得到良好发展, 将此类型主题判定为潜在研究前沿主题。

②主题新颖度低——表征主题布局年份陈旧。该类主题一般发展成熟或者研究价值较小, 其研究方向在短时期内将逐步弱化或发生转移, 将此类型主题判定为消亡研究前沿主题。

4 实 验

4.1 实验环境

(1) 实验平台: Windows 7 (64位), Intel(R)Xeon (R) CPU, 4GB RAM, 500GB HardDrive。

(2) 软件平台: 数据挖掘软件KNIME、Excel等。

4.2 数据源

(1) 基金项目: NSF基金项目数据库。数据检索式: Keyword=“carbon nanotube*”; 检索范围: 基金项目名称; 时间跨度: 2008-2017; 检索日期: 2018年7月20日; 检索结果: 195项。

(2) 论文数据: SCI-EXPANDED, SSCI数据库。数据检索式: TI: (carbon nanotube* or carbon-nanotube* or CNT or SWNT*or MWNT * or DWNT* or SWCNT* or MWCNT* or DWCNT *)。时间跨度: 2008-2017; 检索日期:2018年7月25日; 检索结果: 856篇。

此外, 论文数据根据来源又分为“WOS论文全球数据”和“WOS论文美国数据”两个数据集。实验数据关系如图4所示。

图4

图4   实验数据关系图


4.3 实验过程与参数设置

(1) 数据获取与预处理

登录NSF基金项目数据库和Web of Science数据库, 检索下载研究所需题录数据。在KNIME数据分析平台上对下载的195个NSF基金项目文本、856篇WOS论文摘要文本进行预处理。

(2) LDA主题识别

利用Elbow Method对NSF基金项目数据主题困惑度进行计算, 计算结果如图5所示。

图5

图5   NSF基金项目数据主题困惑度计算结果


由主题困惑度计算结果可以看出, 当主题数量为9时, 主题的聚类效果最好。利用KNIME的LDA主题识别模块进行识别, 参考LDA主题识别主要参数设置方法[10]完成参数设置。具体设置为:

No. of topic: 9;

No. of words per topic: 15;

Alpha: 0.5;

Beta: 0.1;

No. of iteration: 2000;

No. of thread: 8。

NSF基金项目数据LDA主题识别结果如表 1所示。WOS论文全球数据和WOS论文美国 数据的LDA主题识别方法、过程与之相同, 不再赘述。

表1   NSF基金项目数据LDA主题识别结果

主题主题识别结果
topic_0Surfac | Catalyst | Synthesi | Activ | Potenti | Involv |
Challeng | Growth | Chemistri | Investig | Templat |
Function | Separ | Chiral | Scalabl
topic_1Membran | Water | Separ | Cost | Select | Purif | Industri |
Desalin | Transport | Product | Perform | Fuel | Improv |
Impact | Energi
topic_2Materi | Structur | Properti | Energi | Polym | Composit |
Mechan | Manufactur | Thermal | Contact | Engin | Electr |
Fiber | Nanocomposit | Impact
topic_3Structur | Electron | Materi | Properti | Synthesi | Growth |
Atom | Support | Control | Simul | Chemic | Comput |
Chemistri | Optic | Tool
topic_4Contamin | Organ | Environment | Nanomateri | Adsorpt |
Environ | Behavior | Water | Dynam | Effect | Chemic |
Studi | Structur | Interact | Impact
topic_5Devic | Electron | Sensor | Perform | Commerci |
Transistor | Sens | Cost | Fabric | Array | Phase | System |
Power | Busi | Assembl
topic_6Electron | Devic | Materi | Fundament | Studi | Physic |
Interact | Properti | Measur | Experi | Approach | Activ |
Electr | Educ | Investig
topic_7Cell | Field | Coat | Therapi | Tissu | Electr | Actuat |
Function | Cancer | Tumor | Impact | Propos | Provid |
Effect | Ceram
topic_8Interconnect | Industri | Design | Educ | Adhes | Architectur |
Combin | Input | Microprocessor | Optim | Align | Experi |
Brthe | Materi | Address

新窗口打开| 下载CSV


为方便数据统计和分析, 本文对主题进行统一命名。其中, 将全球论文主题识别后得到的10个主题分别命名为GT10-编号, 10个主题的标号从GT10-0开始至GT10-9结束; 将美国论文主题识别后得到的4个主题分别命名为AT4-编号, 4个主题的标号从AT4-0开始至AT4-3结束; 将NSF基金项目数据识别后得到的9个主题分别命名为NSF-编号, 9个主题的标号从NSF-0开始至NSF-8结束。

(3) 多维度主题分析

根据本文提出的主题强度和主题新颖度计算方法, 分别对NSF基金项目数据和WOS论文全球、美国数据进行分析。其中, NSF基金项目数据的分析结果如表2所示。

表2   NSF基金项目数据多维度分析结果

主题新颖度主题强度
NSF-02012.73315
NSF-12011.88918
NSF-32011.81316
NSF-82011.4297
NSF-42011.33315
NSF-52011.33333
NSF-62011.23343
NSF-72010.90010
NSF-22010.89538

新窗口打开| 下载CSV


(4) 相似度计算

分别对NSF基金项目数据和WOS论文全球数据、NSF基金项目数据和WOS论文美国数据进行主题相似度计算, 将NSF基金项目数据与WOS论文全球数据进行主题相似度对比, 结果如表3所示。其中, 未列出相似度为0的主题计算结果。相似度计算结果等于0的主题为非共同存在主题, 结果不等于0的为共同存在主题。对比发现, NSF基金项目数据的主题均为共同存在主题, GT10-0、GT10-4、GT10-6、GT10-9为非共同存在主题。

表3   NSF基金项目数据与WOS论文全球数据主题相似度计算结果

NSFWOS全球相似度NSFWOS全球相似度
NSF-2GT10-80.268104NSF-0GT10-30.036815
NSF-1GT10-20.115298NSF-0GT10-10.033467
NSF-2GT10-30.097329NSF-7GT10-10.032106
NSF-6GT10-80.095307NSF-0GT10-80.031421
NSF-0GT10-20.086475NSF-6GT10-50.028784
NSF-4GT10-50.075558NSF-1GT10-30.028616
NSF-0GT10-50.074696NSF-2GT10-10.028526
NSF-7GT10-80.069252NSF-1GT10-50.026836
NSF-4GT10-20.064733NSF-1GT10-70.026205
NSF-5GT10-30.061897NSF-3GT10-80.025477
NSF-3GT10-30.060128NSF-2GT10-20.024772
NSF-3GT10-20.059025NSF-6GT10-30.024683
NSF-2GT10-70.051928NSF-5GT10-70.024672
NSF-7GT10-70.045046NSF-6GT10-20.024230
NSF-4GT10-80.041237NSF-8GT10-30.021150
NSF-5GT10-80.038707

新窗口打开| 下载CSV


将NSF基金项目数据与WOS论文美国数据进行主题相似度对比, 结果如表4所示。其中, 未列出相似度为0的主题计算结果。相似度计算结果等于0的主题为非共同存在主题, 结果不等于0的为共同存在主题。对比发现, NSF基金项目数据和WOS论文美国数据的主题均为共同存在主题, 不存在非共同存在主题。

表4   NSF基金项目数据与WOS论文美国数据主题相似度计算结果

NSFWOS美国相似度NSFWOS美国相似度
NSF-4AT4-10.116978NSF-6AT4-30.033638
NSF-5AT4-00.114348NSF-0AT4-20.033120
NSF-0AT4-30.108514NSF-1AT4-20.032683
NSF-2AT4-10.102456NSF-3AT4-30.031432
NSF-0AT4-10.098846NSF-5AT4-20.031385
NSF-1AT4-10.082433NSF-6AT4-00.026445
NSF-7AT4-20.076167NSF-3AT4-00.024711
NSF-2AT4-20.054431NSF-6AT4-20.020733
NSF-2AT4-00.034317NSF-3AT4-20.019373
NSF-3AT4-10.034078NSF-8AT4-20.017742

新窗口打开| 下载CSV


(5) 主题对比分析

按照本文提出的研究前沿主题判别方法, 综合主题强度、主题新颖度以及主题相似度, NSF基金项目数据和WOS论文全球数据的对比结果如表5所示。

表5   NSF基金项目数据和WOS论文全球数据主题对比分类

新颖度共同存在主题非共同存在主题
主题强度强主题强度弱
新颖度高NSF-5
NSF-6
NSF-0
NSF-1
NSF-3
NSF-4
NSF-8
GT10-0
GT10-4
新颖度低NSF-2
NSF-7
GT10-6
GT10-9

新窗口打开| 下载CSV


根据本文提出的主题类型判定思路, 在此对比中: NSF-5、NSF-6为热点研究前沿主题; NSF-0、NSF-1、NSF-3、NSF-4、NSF-8为新兴研究前沿主题; NSF-2、NSF-7、GT10-6、GT10-9为消亡研究前沿主题; GT10-0、GT10-4为潜在研究前沿主题。

NSF基金项目数据和WOS论文美国数据的对比结果如表6所示。

表6   NSF基金项目数据和WOS论文美国数据主题对比分类

新颖度共同存在主题非共同存在主题
主题强度强主题强度弱
新颖度高NSF-5
NSF-6
NSF-0
NSF-1
NSF-3
NSF-4
NSF-8
新颖度低NSF-2
NSF-7

新窗口打开| 下载CSV


根据本文提出的主题类型判定思路, 在此对比中: NSF-5、NSF-6为热点研究前沿主题; NSF-0、NSF-1、NSF-3、NSF-4、NSF-8为新兴研究前沿主题; NSF-2、NSF-7为消亡研究前沿主题; 不存在潜在研究前沿主题。

5 结果分析

5.1 热点研究前沿主题

NSF-5、NSF-6满足新颖度高、且主题强度强的特征, 故判定为热点研究前沿主题, 主题指标计算结果如表7所示。

表7   NSF-5、NSF-6主题指标计算结果

主题主题新颖度主题强度
NSF-52011.33333
NSF-62011.23343

新窗口打开| 下载CSV


其中, NSF-5的LDA主题识别结果为Devic | Electron | Sensor | Perform | Commerci | Transistor | Sens | Cost | Fabric | Array | Phase | System | Power | Busi | Assembl, 其主要研究内容为碳纳米管在电子领域的应用, 如传感器、集成电路、半导体等; NSF-6的LDA主题识别结果为Electron | Devic | Materi | Fundament | Studi | Physic | Interact | Properti | Measur | Experi | Approach | Activ | Electr | Educ | Investig, 其主要研究内容为碳纳米管在电化学和电子领域的应用, 如碳纳米管的化学性质、燃料电池应用以及传感器等。

5.2 新兴研究前沿主题

NSF-0、NSF-1、NSF-3、NSF-4、NSF-8满足新颖度高、但主题强度弱的特征, 故判定为新兴研究前沿主题, NSF-0、NSF-1、NSF-3、NSF-4、NSF-8主题指标计算结果如表8所示。

表8   NSF-0、NSF-1、NSF-3、NSF-4、NSF-8主题指标计算结果

主题主题新颖度主题强度
NSF-02012.73315
NSF-12011.88918
NSF-32011.81316
NSF-42011.33315
NSF-82011.4297

新窗口打开| 下载CSV


其中, NSF-0的LDA主题识别结果为Surfac | Catalyst | Synthesi | Activ | Potenti | Involv | Challeng | Growth | Chemistri | Investig | Templat | Function | Separ | Chiral | Scalabl, 其主要研究内容为碳纳米管的结构特性, 如单壁碳纳米管与多壁碳纳米管的特性、碳纳米管的手性控制、表面吸附原理等; NSF-1的LDA主题识别结果为Membran | Water | Separ | Cost | Select | Purif | Industri | Desalin | Transport | Product | Perform | Fuel | Improv | Impact | Energi, 其主要研究内容为碳纳米管薄膜, 如超薄碳纳米管、超滤膜、海水淡化等; NSF-3的LDA主题识别结果为Structur | Electron | Materi | Properti | Synthesi | Growth | Atom | Support | Control | Simul | Chemic | Comput | Chemistri | Optic | Tool, 其主要研究内容为碳纳米管的结构特性, 如单壁碳纳米管、碳纳米管的结构力学、纳米纤维等; NSF-4的LDA主题识别结果为Contamin | Organ | Environment | Nanomateri | Adsorpt | Environ | Behavior | Water | Dynam | Effect | Chemic | Studi | Structur | Interact | Impact, 其主要研究内容为碳纳米管在生物学领域的应用, 如碳纳米管对细菌细胞的抑制效应、碳纳米管与细胞膜相互作用等; NSF-8的LDA主题识别结果为Interconnect | Industri | Design | Educ | Adhes | Architectur | Combin | Input | Microprocessor | Optim | Align | Experi | Brthe | Materi | Address, 其主要研究内容为碳纳米管微结构, 如碳纳米管表面改性、微细加工等。

5.3 消亡研究前沿主题

NSF-2、NSF-7、GT10-6、GT10-9满足新颖度低的特征, 故判定为消亡研究前沿主题, 主题指标计算结果如表9所示。

表9   NSF-2、NSF-7、GT10-6、GT10-9主题指标计算结果

主题主题新颖度主题强度
NSF-22010.89538
NSF-72010.90010
GT10-62010.89768
GT10-92012.10339

新窗口打开| 下载CSV


其中, NSF-2的LDA主题识别结果为Materi | Structur | Properti | Energi | Polym | Composit | Mechan | Manufactur | Thermal | Contact | Engin | Electr | Fiber | Nanocomposit | Impact, 其主要研究内容为碳纳米管材料性能, 如碳纳米管的结构、表征、材料强度等; NSF-7的LDA主题识别结果为Cell | Field | Coat | Therapi | Tissu | Electr | Actuat | Function | Cancer | Tumor | Impact | Propos | Provid | Effect | Ceram, 其主要研究内容为碳纳米管在医学领域的应用, 如碳纳米管细胞内电化学、基于碳纳米管的医学疗法等; GT10-6的LDA主题识别结果为Graphen | Multiwal | Metal | Chemic | Mechan | Aqueous | Transistor | Select | Structur | Determin | Transpar | Electron | Print | Sensor | Nanomateri, 其主要研究内容为石墨烯金属复合材料; GT10-9的LDA主题识别结果为Hydrogen | Hybrid | Evolut | Efficient | Water | High | Catalyst | Nanotube-Graphen | Reaction | Electrocatalyst | Stabl | Active | Sorption | Fulleren | Molybdenum, 其主要研究内容为用于析氢反应的碳纳米管杂化催化剂。

5.4 潜在研究前沿主题

GT10-0、GT10-4满足单一数据源存在, 且新颖度高的特征, 故判定为潜在研究前沿主题, 主题指标计算结果如表10所示。

表10   GT10-0、GT10-4主题指标计算结果

主题主题新颖度主题强度
GT10-02012.46265
GT10-42012.732164

新窗口打开| 下载CSV


其中, GT10-0的LDA主题识别结果为Oxygen | Reduct | Nitrogen-Dop | Reaction | Electrocatalyst | High | Activiti | Electrocatalyt | Efficient | Applicat | Multiwal | Role | Synthesi | Function | Dispers, 其主要研究内容为氧还原反应, 其中碳纳米管主要作为氧还原反应的催化剂; GT10-4的LDA主题识别结果为Batteri | Composit | Electrod | Supercapacitor | High-Perform | Flexibl | Film | Hybrid | Graphen | Lithium-Sulfur | Materi | Cathod | Fiber | Lithium | Stretchabl, 其主要研究内容为制备高性能柔性可延展的锂硫电池, 如复合电极材料、负极活性材料、导电添加剂以及新型锂硫电池用复合导电载体等。

从识别结果分析可知, 该方法能有效、前瞻地对主题进行判别。其前瞻性主要体现在两个方面: 一是主题强度、新颖度的引入, 为科学研究前沿主题类型的判别提供了有力支撑, 进而实现对主题发展趋势的预见; 二是在基金项目数据与论文数据融合的视角下, 相比于论文或专利等单一数据源的识别方法, 能够有效利用基金项目数据中“前瞻布局”这一特点, 实现对前沿主题的发现与识别。

6 结 语

本文以LDA主题模型、Elbow困惑度计算、相似度计算等为基础, 通过对基金项目数据和论文数据的对比研究, 将科学研究前沿主题分为热点研究前沿主题、新兴研究前沿主题、消亡研究前沿主题、潜在研究前沿主题4种类型。以碳纳米管领域科学研究前沿为例, 验证了以NSF基金项目数据和WOS论文数据对比为基础的科学研究前沿主题识别与判定的可行性和有效性。通过实验结果分析, 证明本文提出的科学研究前沿识别模型能够准确地识别科学研究前沿主题, 并对主题类型进行判别。

此外, 从对比结果的分析中还发现, 在碳纳米管研究领域内, 美国的科学研究前沿与全球科学研究前沿保持基本一致。因此, 也可以认为, 美国在该领域的研究动态可以代表全球的研究趋势。

本文提出的识别模型能够克服基于论文或专利等单一数据源分析方法“过去式”[9]的缺点, 结合代表国家科技前瞻布局的基金项目, 准确、有效地对科学研究前沿主题进行识别。未来将从资助力度、被引量等维度继续开展基于基金项目数据与论文数据的关联研究, 提升科学研究前沿主题识别效果。

作者贡献声明

刘博文: 分析数据, 撰写论文;

白如江: 拟定研究命题和思路设计, 论文修改;

周彦廷: 数据收集和预处理;

王效岳: 论文框架确定, 论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail:bowen9496@163.com。

[1] 刘博文, 周彦廷. NSF&WOS.xlsx. 碳纳米管NSF基金项目、WOS论文LDA主题识别结果.

参考文献

Price D J D S.

Networks of Scientific Papers

[J]. Science, 1965,149(3683):510-515.

[本文引用: 1]

Small H .

Co-Citation in the Scientific Literature: A New Measure of the Relationship Between Two Documents

[J]. Journal of the American Society for Information Science, 1973,24(4):265-269.

[本文引用: 1]

Persson O .

The Intellectual Base and Research Fronts of JASIS 1986-1990

[J]. Journal of the Association for Information Science & Technology, 1994,45(1):31-38.

[本文引用: 1]

Garfield E .

Research Fronts

[J]. Current Contents, 1994,41(10):3-7.

[本文引用: 1]

Morris S A, Yen G, Wu Z , et al.

Time Line Visualization of Research Fronts

[J]. Journal of the American Society for Information Science and Technology, 2003,54(5):413-422.

[本文引用: 1]

Chen C .

CiteSpaceII: Detecting and Visualizing Emerging Trends and Transient Patterns in Scientific Literature

[J]. Journal of the American Society for Information Science and Technology, 2006,57(3):359-377.

[本文引用: 1]

许晓阳, 郑彦宁, 刘志辉 .

论文和专利相结合的研究前沿识别方法研究

[J]. 图书情报工作, 2016,60(24):97-106.

[本文引用: 1]

( Xu Xiaoyang, Zheng Yanning, Liu Zhihui .

Study on the Method of Identifying Research Fronts Based on Scientific Papers and Patents

[J]. Library and Information Service, 2016,60(24):97-106.)

[本文引用: 1]

王贤文, 毛文莉, 王治 .

基于论文下载数据的科研新趋势实时探测与追踪

[J]. 科学学与科学技术管理, 2014,35(4):3-9.

[本文引用: 1]

( Wang Xianwen, Mao Wenli, Wang Zhi .

Detecting and Tracing Emerging Research Trends Real-Timely Using Web Data

[J]. Science of Science and Management of S.&T., 2014,35(4):3-9.)

[本文引用: 1]

白如江, 冷伏海, 廖君华 .

一种基于多数据源主题对比的科学研究前沿识别方法

[J]. 情报理论与实践, 2017,40(8):43-48, 36.

[本文引用: 3]

( Bai Rujiang, Leng Fuhai, Liao Junhua .

A Method of Detecting Research Front Based on Subjects Comparison of Multiple Data Sources

[J]. Information Studies: Theory & Application, 2017,40(8):43-48, 36.)

[本文引用: 3]

Blei D M, Ng A Y, Jordan M I .

Latent Dirichlet Allocation

[J]. Journal of Machine Learning Research, 2003,3:993-1022.

[本文引用: 2]

AlSumait L, Barbará D, Gentle J, et al.

Topic Significance Ranking of LDA Generative Models

[C]//Proceedings of Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin: Springer, 2009: 67-82.

[本文引用: 1]

Keramati A, Ghaneei H, Mirmohammadi S M .

Developing a Prediction Model for Customer Churn from Electronic Banking Services Using Data Mining

[J]. Financial Innovation, 2016,2(1):14-16.

[本文引用: 1]

He X, Wu Y, Yu D , et al.

Exploring the Ordered Weighted Averaging Operator Knowledge Domain: A Bibliometric Analysis

[J]. International Journal of Intelligent Systems, 2017,32(11):1151-1166.

[本文引用: 1]

叶春蕾, 冷伏海 .

基于共词分析的学科主题演化方法改进研究

[J]. 情报理论与实践, 2012,35(3):79-82.

URL     [本文引用: 1]

学科主题演化是情报分析人员采用一定的信息技术方法观察主题在时 间维度上的发展、变化趋势以及不同主题之间的交互作用,它已成为情报研究的一项重要内容。基于词频或共现词频的共词分析方法难以反映主题词对间更层次的语 义关系,针对这一情况,提出一种改进的共词分析方法,该方法体现主题词、主题和文档间的层次语义关系,以更微观、精确的语义层面展现主题演化过程。

( Ye Chunlei, Leng Fuhai .

Research on Improvement of Disciplinary Subject Evolution Method Based on Co-word Analysis

[J]. Information Studies: Theory & Application, 2012,35(3):79-82. )

URL     [本文引用: 1]

学科主题演化是情报分析人员采用一定的信息技术方法观察主题在时 间维度上的发展、变化趋势以及不同主题之间的交互作用,它已成为情报研究的一项重要内容。基于词频或共现词频的共词分析方法难以反映主题词对间更层次的语 义关系,针对这一情况,提出一种改进的共词分析方法,该方法体现主题词、主题和文档间的层次语义关系,以更微观、精确的语义层面展现主题演化过程。

张英杰, 冷伏海 .

基于案例的科学前沿探测方法比较研究

[J]. 图书情报工作, 2012,56(20):42-46.

Magsci     [本文引用: 1]

选取1999-2010年期间Web of Science有关国际空间站的主题数据,分别使用Spss 17、Ucinet和CiteSpace Ⅱ等软件,采用基于高频词的因子分析法、基于高频词的战略坐标图法和基于CiteSpace突发词的图谱法等探测方法,对国际空间站前沿进行探测,并对比实验效果,发现因子分析可客观地探测热点主题,战略坐标图可确定热点中的潜在主题领域,CiteSpace则可直观地展示主题演变情况,而综合利用这三种方法可以更为全面地捕捉到国际空间站研究领域的前沿热点。

( Zhang Yingjie, Leng Fuhai .

Case-based Comparative Study on Scientific Frontier Detection Methods

[J]. Library and Information Service, 2012,56(20):42-46.)

Magsci     [本文引用: 1]

选取1999-2010年期间Web of Science有关国际空间站的主题数据,分别使用Spss 17、Ucinet和CiteSpace Ⅱ等软件,采用基于高频词的因子分析法、基于高频词的战略坐标图法和基于CiteSpace突发词的图谱法等探测方法,对国际空间站前沿进行探测,并对比实验效果,发现因子分析可客观地探测热点主题,战略坐标图可确定热点中的潜在主题领域,CiteSpace则可直观地展示主题演变情况,而综合利用这三种方法可以更为全面地捕捉到国际空间站研究领域的前沿热点。

陈军营, 白如江, 王效岳 , .

中外图情领域大数据近十年(2007-2016)研究现状与发展趋势分析

[J]. 情报科学, 2018,36(7):104-110.

[本文引用: 1]

( Chen Junying, Bai Rujiang, Wang Xiaoyue , et al.

Research Status and Development Trend Analysis of Big Data in the Field of Chinese and Foreign Library and Information Science in Recent 10 Years (2007-2016)

[J]. Information Science, 2018,36(7):104-110.)

[本文引用: 1]

Thorndike R L .

Who Belongs in the Family?

[J]. Psychometrika, 1953,18(4):267-276.

[本文引用: 1]

/

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn