数据分析与知识发现  2023, Vol. 7 Issue (4): 1-15
1中国科学院西北生态环境资源研究院 兰州 730000
2中国科学院大学经济与管理学院信息资源管理系 北京 100190
Review of Methods for Interdisciplinary Topic Identification
Li Jialei1,2,An Peijun1(),Xiao Xiantao1
1Northwest Institute of Eco-Environment and Resources, Chinese Academy of Sciences, Lanzhou 730000, China
2Department of Information Resources Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190, China
【目的】 通过文献调研梳理总结学科交叉主题识别的各种方法,总结不足与改进方向。【文献范围】 以CNKI和Web of Science核心数据库为数据源,针对学科交叉主题识别的相关概念与方法构造检索式,最终确定74篇文献进行综述。【方法】 在厘清“学科交叉”内涵及相近概念的基础上,从基于外部特征的识别、基于内部特征的识别及二者结合的识别三种角度出发,对学科交叉主题识别方法进行梳理评述。【结果】 现有方法还存在一些不足,如数据源和识别语料单一、识别方法语义性不足、识别粒度较粗、缺少主题级学科交叉测度指标、识别结果缺少前瞻性与动态探索性。【局限】 主要选取代表性文献进行综述;未深入阐述交叉主题识别的技术细节;未重点综述学科交叉文献发现的研究;对学科交叉趋势跟踪、学科分类聚类等研究在学科交叉主题识别中的应用覆盖不够。【结论】 未来研究应扩展基于多源数据或全文本识别方法,提高识别方法的语义挖掘能力,进行细粒度交叉主题识别,构建多维学科交叉主题测度指标,加强对潜在交叉主题和学科交叉动态趋势的研究。

关键词 学科交叉主题识别引文分析文本挖掘    

[Objective] This paper summarizes various methods for interdisciplinary topic identification through a literature review and tries to find shortcomings with potential improvements. [Coverage] We retrieved 74 articles on the concepts and methods of interdisciplinary topic identification from the CNKI and Web of Science databases. [Methods] Based on clarifying the concepts of “interdisciplinarity” and related terms, this paper reviewed the method for interdisciplinary topic identification from three perspectives: recognition based on external characteristics, recognition based on internal features, and a combination of both. [Results] There are still some deficiencies in the existing methods, such as limited data source and identification corpus, insufficient semantics of identification method, coarse identification granularity, a lack of interdisciplinary measurement indicators at the subject level, as well as a lack of forward-looking and dynamic exploration in the identification results. [Limitations] We mainly selected representative literature and did not provide an in-depth exploration of the technical details of interdisciplinary topic identification. We did not review the study of interdisciplinary literature discovery. More research is needed to expand the application of trend tracking and subject clustering in interdisciplinary topic identification. [Conclusions] Future research should expand the identification methods based on multi-source data or full text, improve the semantic mining ability, conduct fine-grained identification, build multi-dimensional interdisciplinary topic measurement indices, and strengthen research on potential interdisciplinary topics and dynamic trends.

Key wordsInterdisciplinary Research    Topic Identification    Citation Analysis    Text Mining
收稿日期: 2022-07-05      出版日期: 2022-11-09
ZTFLH:  TP393 G250  
通讯作者: 安培浚,ORCID:0000-0002-7184-007X,E-mail:   
李佳蕾, 安培浚, 肖仙桃. 学科交叉主题识别方法研究综述*[J]. 数据分析与知识发现, 2023, 7(4): 1-15.
Li Jialei, An Peijun, Xiao Xiantao. Review of Methods for Interdisciplinary Topic Identification. Data Analysis and Knowledge Discovery, 2023, 7(4): 1-15.
Fig.1  广义和狭义的“学科交叉”
界定角度 机构或学者 术语定义
科研活动即认识论 美国国家科学研究委员会(NRC)[5] 团队或个人的一种研究模式,其整合了来自两个或多个学科的专业知识或知识机构的信息、数据、技术、工具、观点、概念和/或理论,以促进解决超出单一学科或研究领域范围的问题
刘仲林[6] 突破现有学科壁垒,将不同学科理论、方法或思维有机融为一体的研究活动
徐飞[7] 各种跨学科、跨领域的科学活动的概括;是研究主体根据学科间内在联系,创造开发跨学科知识产品的特殊活动
Aboelela等[8] 由来自两个或两个以上不同学科的学者进行的任何研究或研究小组,即基于一个概念模型,将这些学科的理论框架联系或整合起来,使用不局限于任何一个领域的研究设计和方法,并在研究过程的多个阶段使用所涉及学科的观点和技术
Bruhn[9] 来自两个或两个以上不同学科的研究人员同意研究共同关心的问题,并设计实施该问题的系统调查并达成共识
科学现象本身即本体论 OECD组织[10] 两个或多个不同学科之间的相互作用,这种互动可以从简单的思想交流到组织概念、方法论、程序、认识论、术语、数据及更大范围的研究与教育的整合;提出了不同的跨学科类型:Multidisciplinarity(多学科)、Interdisciplinarity(学科交叉)、Transdisciplinarity(超学科),并点明这三种类型学科相互作用的程度依次升高
路甬祥[11] 是“跨学科”研究活动,是多门学科间的相互作用,其交叉形成的理论体系形成了交叉学科;众多交叉学科的知识体系构成了交叉科学
金薇吟[12] 与学科分化相对,指学科间因横向有机联系而出现的综合化现象
Huutoniemi等[13] 学科交叉的核心挑战在于突破主流研究领域间的概念和方法界限
杨永福等[14] 是一种科学活动,其“交叉”活动的方式、结果与过程发生在学科内或学科间,这种交叉活动产生的结果包括形成新学科、形成新技术与新研究方法
Table 1  “学科交叉”的相关定义
Fig.2  “学科交叉”相似概念辨析
Fig.3  学科交叉主题识别方法分类
Fig.4  基于共被引与耦合分析的学科交叉主题识别方法运作
模型 主要思想 代表研究 研究内容 优势 劣势
LDA模型 LDA模型将文档、主题、词语的选取都定义为概率生成过程以识别大体量离散文档中最频繁共现的词集,并将其视为主题 Figuerola 等[47] 利用LDA模型识别图书情报领域文档的主题与类别,并分析了这些主题代表的分支学科的演变及相互作用 应用最广泛;可识别交叉文献中词语隐含的语义关系 采用词袋模型,忽略了词间顺序,故对词间语义关系不敏感,无法建立主题间的相关性;只能显示出简单的主题结构,并不能一步到位地展示交叉研究主题局部间的关联,故在LDA识别出主题后需结合其他方法作进一步分析
Lee[48] 利用LDA模型识别“智慧城市”领域的学科交叉主题,并对主题网络进行事件分析以探究交叉主题的演变
CTM模型 CTM是文档集合的分层模型,其从一个混合模型中对每个文档的单词进行建模,并允许每个文档以不同的比例展示多个主题[49] 史盛楠[50] 利用CTM模型对图书情报与计算机科学两个学科的交叉文献进行主题识别,并展示学科交叉主题演化过程 能够显示文献集中潜在主题间的相关性 不能表达多个(两个以上)主题间的相关性
作者使用的主题直接用词语的概率分布建模,以挖掘文献集中作者的研究内容,在该模型中每个作者都与单词分布相关联,而非与主题分布相关联[51] 王明蕊[52] 基于ATM模型的思想,将期刊所属学科替代ATM模型中文章所对应的作者,构建了学科-主题模型对基因编辑领域文献进行主题识别并计算主题的学科交叉度 为探索作者、文档、主题和词间关系提供了一个相对简单的概率模型 忽略了来自不同作者的文档的主题相似性,有学者对该模型进行了改进,如作者-学科-主题模型[53-54]
Table 2  基于主题模型的学科交叉主题识别方法研究
识别方法 代表性研究 优势 劣势及现有不足
主题模型 Figuerola等[47]、史盛楠[50]、Jin等[53] 主题模型技术发展成熟 主题分布倾向于高频词,使主题的区分度低、语义特征不明显;最佳主题数目确定困难等;主题标签的确定具有主观性
文本聚类 张琳等[56]、魏建香[39]、Thorleuchte等[57] 无须依赖现有学科分类标准 缺少针对学科交叉特征的算法的改进,使得聚类方法的固有缺陷(如缺少语义、聚类数目难以确定和可读性差等)仍存在
非相关知识发现 刘小慧等[62]、李长玲等[63]、Gubiani等[64]、吴蕾等[65]、Qi等[66] 可识别潜在的学科交叉主题,具有预测性 需要大量基于先验知识的人工解读,其发现的联系通常难以理解
Table 3  基于文本挖掘的学科交叉主题识别方法对比
识别方法 关键技术/方法 优势 劣势
基于引文分析的识别 学科交叉引文网络构建 操作简单、相关研究成果丰富;可分析不同学科知识流动的方向;可进一步将交叉主题区分为知识输入和输出主题 存在引文关系形成时间长、引用动机不一等固有局限;只表明知识流动不代表实质性交叉
基于合著分析的识别 不同学科作者合作网络构建;作者与学科/研究领域从属关系的确定 不同学科作者合著内容具有学科交叉性的可能性极高 作者所属学科数据采集困难,工作量大、操作难度大;存在一位作者拥有多个研究领域的情况;存在作者身份消歧等技术难点
基于共词分析的识别 学科交叉关键词共现网络构建、共现频率、共现矩阵 操作简单且结果易解读;易与网络分析法结合进一步分析交叉网络结构 关键词选择、高低频词设定有主观性;词语共现关系不代表其间语义联系;高低频关键词不能全面表征论文研究主题
基于文本挖掘的识别 主题模型、文本聚类、非相关知识发现 深度挖掘词语间语义关联;识别出的主题更细粒度 主题数目或聚类数目确定困难等
基于引文内容分析的识别 引用句抽取、引文主题识别 基于引文关系进一步进行语义与内容挖掘;基于引文内容进行交叉主题识别可更精准地反映被引交叉的主题;判断被引文献在源文献中的角色及重要性 引用句抽取、引用内容主题识别存在技术难点,实际操作复杂烦琐;隐性引用内容不易提取
Table 4  学科交叉主题识别方法比较
