面向单篇文献引文网络的主题来源与走向追踪

引用本文

秦晓慧, 乐小虬. .面向单篇文献引文网络的主题来源与走向追踪[J]. 现代图书情报技术, 2015,31(9): 52-59
Qin Xiaohui, Le Xiaoqiu. .Topic Sources and Trends Tracking Towards Citation Network of Single Paper. New Technology of Library and Information Service,2015,31(9): 52-59 复制到剪切板

Permissions

《现代图书情报技术》编辑部

面向单篇文献引文网络的主题来源与走向追踪

秦晓慧^1,², 乐小虬¹

¹中国科学院文献情报中心北京 100190

²中国科学院大学北京 100049

秦晓慧, ORCID: 0000-0002-3084-2546, E-mail: qinxh@mail.las.ac.cn。

作者贡献声明：秦晓慧: 文献调研, 细化研究方向及技术方法路线, 设计实验方案, 数据采集、清洗与结构化, 编程及实验结果分析, 论文撰写与最终版本修订; 乐小虬: 提出研究方向和思路, 提出研究方案及技术路线, 修改论文部分章节, 论文审阅及定稿。

基金:*本文系“十二五”国家科技支撑计划子课题“基于文献知识网络的领域学术关系研究与示范”(项目编号:2011BAH10B06-04)的研究成果之一

摘要

目的从单篇文献入手, 在其引文网络中追踪研究主题的来源与走向。方法首先, 利用领域本体识别单篇文献中的主题; 其次, 筛选与主题相关的二级参考文献、参考文献、引证文献、二级引证文献, 构建面向单篇文献的引文网络; 然后, 对引文网络进行增量聚类处理, 形成主题的来源与走向演化图。结果充分揭示文献主题来源或走向中继承、分化、合并的结构变化及各阶段的内容变化。【局限】引文网络构建时文献的筛选条件有待深入研究; 主题识别未考虑领域本体中词汇收录不完备问题。结论本研究对单篇文献主题的来源与走向进行有效的追踪, 能够较好地揭示文献主题的来龙去脉。

关键词: 主题来源; 主题走向; 引文网络; 单篇文献主题追踪

中图分类号:TP393

Topic Sources and Trends Tracking Towards Citation Network of Single Paper

Qin Xiaohui^1,², Le Xiaoqiu¹

¹National Science Library, Chinese Academy of Sciences, Beijing 100190, China

²University of Chinese Academy of Sciences, Beijing 100049, China

Abstract

[Objective] To track topic sources and trends for a high-impact paper from its citation network.[Methods] Firstly, topics are detected for each paper by domain Ontology. Secondly, a citation network towards a single paper’s topic is constructed. The nodes of the network are selected from second level cited papers, cited papers, citing papers and second level citing papers according to their contents. Thirdly, incremental cluster is applied for mining topic sources and trends from the network constructed before, the noisy sources or trends are filtered, and evolution paths of topics are formed.[Results] The structure changes and content changes of topic sources and trends are fully revealed. [Limitations] The screening conditions for the construction of citation network need to be further studied. Besides, completeness of the domain Ontology is not considered.[Conclusions] This study tracks topic sources and trends for single paper effectively, and helps reveal origin and development of the topics.

Keyword: Topic; sources; Topic; trends; Citation; network; Topic; tracking; of; single; paper

Show Figures

1 引言

从一篇关键性文献入手开展文献调研分析是研究者常用的做法。这种关键性文献通常是研究领域中的高影响力文献(如重要期刊中高被引文献、核心专家的文献等), 其中蕴涵许多有价值的研究线索, 如新观点、新概念、新方法等。以这种文献作为“ 种子” , 沿着文中的多级参考文献、引证文献进行深入研读, 能够筛选出许多与研究问题相关的信息, 如主题的继承、分化、合并等发展路径。目前, 一些常用的文献数据库如SCI^[1]、CNKI^[2]和Google学术^[3]等均提供了引文追踪功能, 但大都只是罗列出相关的引文, 缺乏对引文主题的梳理及主题研究侧重点变化的分析。

为解决这一问题, 本文利用领域本体(词表为主), 从单篇文献出发, 通过分析其二级参考文献、参考文献、引证文献、二级引证文献构成的引文网络中关于主题研究方向变化, 绘制文献中核心主题的来源与走向演化图。

2 相关研究

主题追踪(Topic Tracking)在主题检测与跟踪(Topic Detection and Tracking, TDT)中是指对新闻数据流中的已知主题进行持续跟踪, 通常需要事先给定几个关于该主题的新闻报道, 然后判断后来信息流中的文档是否属于该主题^[4]。在文献分析领域, 主题追踪并未直接用于后续文献的持续跟踪, 而是从主题演化的角度跟踪文献中研究主题的发展变化, 即从数据流中找出主题的发展历程, 描述主题的发展轨迹。目前尚未发现以单篇文献引文网络为基础的主题追踪研究, 但在针对领域或学科的主题演化方面已有大量的成果, 概括起来主要有三种基本方法:

(1) 基于共词分析的主题演化以主题词频次^[5]或共现频次^[6]为基础, 根据主题词间的相关程度进行聚类分析, 并绘制不同时期的主题网络图, 以观察主题的演化轨迹。该方法以词或词组为单位, 可直接揭示文献主题间的相关性, 但它简单地以主题词频次或共现频次作为主题演化分析的量化标准, 高频词阈值设定、词对的相关程度评定等都存在较大争议。

(2) 基于主题模型^[7]的主题演化方法借助于主题模型能够揭示语料语义信息的优势, 在近几年得到广泛发展^{[8, 9]}。常见的处理方式是先根据文献的出版时间离散到相应的时间窗口, 利用主题模型获取不同窗口中出现的主题, 然后将相邻窗口间的主题关联, 进而获得主题的演化过程, 然而不同时间窗口间主题关联的方式有待统一。

(3) 基于引文分析的主题演化分析是以文献共被引、耦合或直接引用的关系来分析学科或领域主题演化的方法。其主要研究思路可分为两类: 一类采用聚类的方式, 将引用关系密切的文献聚成类, 用类中的关键词、主题词或核心文献的主题反映该类的主题, 通过对比不同时间段的聚类图分析主题的演化过程。如Morris等^[10]对炭疽病领域的相关文献在文献耦合分析基础上进行聚类分析, 揭示了炭疽病领域中主题发展、消亡的趋势; Takeda等^[11]将拓扑聚类方法应用于光学领域文献的引文网络, 发现了该领域中主要存在的5个核心主题, 并分别从中探索新兴子主题。

另一类将文献引用关系转化成网络的形式, 其中文献看作网络的节点, 文献的引用关系看作节点间的连线, 结合社会网络分析技术中的中心性、周期性等指标分析节点的地位、对其他节点的影响变化等。刘倩楠^[12]在以太网领域的相关文献中建立引文网络, 利用中心性、中介性指标筛选网络中的关键节点, 并识别这些关键节点形成的主要路径, 即技术关键路径, 最后绘制技术演化可视图谱。与引文聚类的方式相比, 社会网络技术的应用更侧重于关键节点的研究, 较多应用于知识扩散、知识流动等方面^{[13, 14]}。

目前基于引文分析的主题演化方法大多针对于领域中大量文献的引用关系或所形成的复杂网络, 能够揭示领域内主题的分布、演化趋势等。然而少有研究针对于单篇文献做更深入的分析, 事实上高被引文献、核心专家的文献等正是调研分析的重点, 揭示这些文献主题的来源与走向, 可以帮助调研者快速了解所关注的方向。因此本文探索从单篇文献入手, 通过分析该文献为中心的引文网络追踪该文献主题的来龙去脉。

3 主要方法

3.1 处理框架

本文的主题(Topic)与文献[15]中主题定义相似, 是指文献中用于反映相关研究内容的词汇或短语。追踪主题来源与走向的基本思路是: 利用领域本体从文献标题、摘要、关键词中抽取候选主题词并计算权重, 根据权重大小筛选出能够表征文献内容的主题词, 即主题; 构建面向单篇文献主题的引文网络, 该网络由该主题相关的二级参考文献、参考文献、引证文献、二级引证文献组成; 对引文网络进行增量聚类处理, 形成文献主题的来源与走向演化图。

根据上述思路, 基本处理流程分为三个阶段: 文献主题获取; 面向单篇文献主题的引文网络构建; 主题来源与走向追踪。整体分析框架如图1所示:

	Figure Option View Download New Window
	图1 主题来源与走向追踪整体分析框架

3.2 文献主题识别

从文献中准确识别主题是主题追踪的基础。领域本体针对特定的领域具有较高的概念完备性^[16], 利用本体中概念的同义词抽取主题词条并映射到概念的标准形式, 可以有效地降低文本特征向量的维数, 提高主题识别的质量。文献主题识别主要包括主题词抽取、主题权重计算和主题筛选三个方面。

(1) 主题词抽取

在领域本体中每个概念有一个标准形式, 但在文献中作者并非以概念的标准形式表达, 而是以其他形式的同义词进行描述。如概念“ 乳腺癌” 的标准形式为“ Breast Carcinoma” , 其同义词有Breast Cancer、Cancer of Breast等, 文献作者可能采用不同形式的词汇表达乳腺癌。为统一对领域中的多篇文献进行主题分析, 本文构建“ 同义词-标准形式” 词典, 利用该词典的同义词部分从文献的标题、关键词、摘要中抽取词条, 然后映射到概念的标准形式(本文称为主题词), 并记录各主题词在每个位置上出现的频次。主题词用 ${T C}_{n}^{D_{d}}$

(2) 主题词权重计算

文献的标题、摘要、关键词中可抽出大量与领域相关的主题词, 但并非所有的主题词都能表征该文献的研究内容^[15], 需给主题词赋予权重。设标题、关键词、摘要中出现的主题词权重分别为W_t、W_k、W_a, 一般认为文献标题、关键词、摘要中的词汇反映文献内容的能力依次降低^[17], 因此W_t> W_k> W_a。笔者定义主题词的权重计算公式为:

(1)

其中, weight( ${T C}_{n}^{D_{i}}$ )表示主题词 ${T C}_{n}^{D_{i}}$ 在该文献中的权重, t_it、t_ik、t_ia分别是 ${T C}_{n}^{D_{i}}$ 在标题、关键词、摘要中出现的次数, n为文献中主题词总数。

(3) 主题筛选

经以上两个步骤的处理, 每篇文献都可抽取出一系列的主题词及其对应的权重, 权重大的主题词出现在文献重要的位置或出现次数较多, 能够更好地表征文献内容。设置阈值ξ , 若weight( ${T C}_{n}^{D_{i}}$ )> ξ , 则认为 ${T C}_{n}^{D_{i}}$ 是该文献的主题。

3.3 面向单篇文献主题的引文网络构建

设 $T^{D_{d}} m$ 是文献D_d的第m个主题, 其来源与走向来自于D_d的引文集合。考虑到中间层次较多的引文与主题文献之间的内容相关度较低, 且数据较不容易获取, 本文的引文集合仅选自主题文献的二级参考文献、参考文献、引证文献和二级引证文献。在分析 $T^{D_{d}} m$ 的来源与走向之前, 需构建面向主题 $T^{D_{d}} m$ 的引文网络。

D_d的引文集合中并非所有文献都与主题 $T^{D_{d}} m$ 密切相关, 若分析过程中引入大量的无关文献, 会对主题来源与走向的追踪造成干扰。从引文集合中筛选含有主题 $T^{D_{d}} m$ 或 $T^{D_{d}} m$ 下位词(下位词从领域本体中获取)的文献作为网络节点, 以此方式可缩小文献集合, 排除无关文献的干扰。

3.4 主题来源与走向追踪

在文献主题 $T^{D_{d}} m$ 及其引文网络的数据基础上, 采用聚类的方式从中获取主题的来源与走向。

在诸多的聚类方法中, 增量聚类算法可以只处理增量部分的数据, 并对已有的聚类结果进行增量式的修改和完善^[18], 满足动态追踪主题来源与走向变化的需求。因此, 本文采用增量聚类方法, 按照文献引用顺序, 逐篇处理网络中的文献, 处理步骤如图2所示, 其中d(0< d< 1)是相似度阈值。文献D_d之前的文献网络称为前向网络, 所生成的类反映主题的来源; 文献D_d之后的文献网络称为后向网络, 所生成的类反映主题的走向; 类的质心表示主题来源或走向的内容。

	Figure Option View Download New Window
	图2 引文网络的增量聚类步骤

利用该方法, 逐步将文献融入到原有聚类结果中, 会改变原有类的质心, 即改变原有主题来源或走向的内容, 根据增加数据后的类质心与原有各类质心距离的比较, 对原有聚类结果可能产生以下三种影响(为便于描述, 此处来源或走向统称为方向):

(1) 创建新类, 即形成新的方向: 如果一篇新增文献的内容与已有方向的内容相似度普遍较小, 则将该文献看作一个新的方向。

(2) 归入某一类, 改变该类的质心, 即改动原有方向的内容: 如果一篇新增文献的内容与已有的某个方向的相似度较高, 则将该文献归入对应的方向, 并重新计算该方向的内容。

(3) 合并相邻的类, 即合并内容相似的方向: 步骤(2)之后需重新计算新方向与其他方向的相似度。若最大相似度大于d, 则将相应的两个方向合并, 并再次计算方向间的相似度。如此循环, 直至方向之间的相似度皆小于d。

该方法可以动态跟踪每篇文献对主题方向的影响, 但考虑到数据存储量, 本研究以年为单位, 仅记录每年的最后一篇文献融入聚类后的方向内容, 这种保存结果可用于分析主题来源或走向逐年的变化状态。

4 实验与结果分析

4.1 数据来源与预处理

以“ 肿瘤(Cancer)” 研究领域为例, 对上述单篇文献主题来源与走向追踪方法的可行性与有效性进行验证。由领域专家确定领域核心期刊列表, 从Web of Knowledge^[1]数据库中下载对应的期刊文献, 期刊列表如表1所示。下载时间为2013年7月3日, 文献类型限定为Article、Proceedings Paper、Editorial Material、Review和Letter, 文献量为176 286篇。下载的数据中含有文献的参考信息, 通过编写Java程序, 在数据集中建立文献之间的引用关系, 并存储到数据库中, 便于构建引文网络时应用。

表1 肿瘤领域核心期刊

下载肿瘤领域本体NCIt^[19] (National Cancer Institute thesaurus, NCIt), 将其作为领域词典应用到本文的主题抽取过程中。NCIt中概念的同义词属性标签为FULL_SYN, 每个概念有一个或多个FULL_SYN标签; 另外每个概念用一个Label标签表示其标准形式。如“ 糖原合酶激酶-3” 的Label为“ Glycogen Synthase Kinase 3” , 有4个FULL_SYN标签, 值分别为“ GSK-3” 、“ GSK3” 、“ Glycogen Synthase Kinase 3” 和“ Glycogen Synthase Kinase- 3” 。因此可为“ 糖原合酶激酶-3” 建立“ 同义词-标准形式” 词典:

GSK-3 — Glycogen Synthase Kinase 3

GSK3 — Glycogen Synthase Kinase 3

Glycogen Synthase Kinase 3 — Glycogen Synthase Kinase 3

Glycogen Synthase Kinase- 3 — Glycogen Synthase Kinase 3

4.2 主题识别

利用3.2节的方法从文献的标题、关键词、摘要中抽取主题词, 可获得文献的系列主题词及其权重。实验发现, 权重大于0.1的主题词能够很好地表征文献的研究内容, 因此本文设置权重阈值为0.1。

肿瘤领域数据中随机选择出一部分文献做主题识别结果的分析并与标准的TF-IDF计算结果作对比, 以验证文献主题识别的有效性。表2展示的是随机选取的5篇文献的主题识别结果。为在同一数量级下对比, 将TF-IDF值进行归一化处理。其中TF-IDF结果中阈值难以确定, 因此仅展示与本文方法所获得主题相同数目的前几位词汇。

从形式上, 根据位置、频次获取的主题权重普遍高于TF-IDF权重, 容易区分于权重低的词汇, 具有较好的主题代表性。而TF-IDF所得的权重值相对比较均匀, 主要原因是其未考虑词汇出现的位置。从内容上, 两种方法获得的主题基本相同, 都可以展示出与文献相关的内容。但两者又存在差异, 筛选后的主题词不尽相同且权重的排序区别较大, 这是由于本文方法中主题词权重的评估依赖于主题词在文献本身中的位置、频次, 未分析主题词在文献集中出现的特点; 而TF-IDF还考虑到词汇在文献集中出现的文档频次, 侧重于与其他文献作区分。

表2 主题识别结果对比(部分)

为了进一步验证结果的准确性, 通过人工判读的方法对抽取的文献进行分析, 结果发现所识别的主题能较好地揭示文献的研究内容。例如, 文章WOS: 000234334700007主要是研究药物SU11248在转移性肾细胞癌患者体内的活性, 这种药物既是血管内皮生长因子受体, 又是血小板源性生长因子受体的多靶点抑制剂。经过本文主题获取方法, 可识别SU11248、转移性肾细胞癌(Metastatic Renal Cell Cancer)、血管内皮生长因子受体(Platelet-derived Growth Factor Receptor)、抑制剂(Inhibitor)等核心主题, 与文献研究内容一致, 为主题来源与走向分析奠定了基础。

4.3 主题来源与走向

在以上数据处理的基础上, 按照3.3节依次为每篇文献的每个主题构建引文网络并根据3.4节中的方法追踪主题的来龙去脉。

本方法需从文献的前后向引文网络中获取主题来源与走向, 但在数据集中并非所有文献都能构建出来双向网络。通过对整体数据集分析发现文献主题追踪的结果可分为4类:

(1) 文献的双向网络都可构建出来, 可完整地获取其主题来源与走向;

(2) 文献出版年份较早, 其参考文献难以获取, 但其引证文献、二级引证文献数量充足, 只可追踪其主题走向;

(3) 文献出版时间晚或影响力低, 但可获取其参考文献、二级参考文献, 可追踪其主题来源;

(4) 文献出版时间早且影响力低, 其主题来源与走向都不可获取。

为了验证实验结果, 分别选择前三类文章各10篇, 通过对引文网络中文献标题、关键词、摘要的判读, 发现主题追踪的结果符合网络中文献的内容。

选择数据集中一篇高被引(本地被引数: 179, 本地二级被引数: 1 091)文献[20](ID: WOS: 00023433470 0007, 下文称Motzer RJ(2006)), 以下就其主题Metastatic Renal Cell Cancer的追踪结果展开讨论。利用3.4节中方法对文章中主题Metastatic Renal Cell Cancer的引文网络增量聚类, 形成其来源与走向的演化图, 如图3所示, 其中红色圆形表示文章Motzer RJ(2006), 颜色相同的方块构成主题的一个来源或走向, 数字表示该方向在该年份的状态, 箭头表示各状态间的变化。红色圆形左侧是该主题的来源, 最终的箭头流向该文献; 右侧是该主题的走向, 每个走向都始于该文献。最右侧是走向2内容详情, 走向2与走向4在各年份对应的文献如表3所示。

(1) 该方法能够在主题的来源之间与走向之间做较好的区分。结合图3可以看出, 从文献Motzer RJ(2006)主题Metastatic Renal Cell Cancer的引文网络中, 可追溯到其2个来源和5个走向。其中走向2和走向4的主题词分别为“ SU11248, Metastatic Renal Cell Cancer, Hypothyroidism” 、“ Immunotherapy, Metastatic Renal Cell Cancer, Biological Therapy” 。从其相关文献来看, 走向2的文献多是讨论“ SU11248对转移性肾细胞癌病人的影响” , 走向4的文献则在探讨“ 是否选择免疫疗法(Immunotherapy)治疗转移性肾细胞癌” 。本文的主题来源与走向获取方法将这些文献鲜明地划分到两个不同走向中, 且提取其中的主题词作为走向的内容, 表明该方法能够较好地区分不同方向。

	Figure Option View Download New Window
	图3 主题Metastatic Renal Cell Cancer的来源与走向演化

表3 图3中主题走向2与走向4对应的文献

图3中其他来源与走向的主要内容分别是: 来源1, α 干扰素对转移性肾细胞癌的治疗作用; 来源2, 转移性肾细胞癌的预后因子; 走向1, 转移性肾细胞癌的靶向治疗; 走向3, 转移性肾细胞癌与mTOR抑制剂的相互作用; 走向5, 用减瘤性肾切除方法治疗转移性肾细胞癌。此处限于篇幅, 不再一一展开讨论。

(2) 该方法同样可以动态揭示文献主题来源或走向的继承、分化、合并的结构变化及各阶段的内容变化。以Metastatic Renal Cell Cancer的走向2为例, 从结构上看在2007年从文献Motzer RJ(2006)中分化出两个走向, 在2008年这两个方向发生合并。从内容上看, 2007年的两个方向中一个侧重于“ SU11248在转移性肾细胞癌的治疗中可能导致甲状腺功能减退” , 另一个方向则在探讨“ SU11248在转移性肾细胞癌中的应用” , 但核心主题词都包含“ SU11248、Metastatic Renal Cell Cancer” , 都未脱离“ SU11248对转移性肾细胞癌病人的影响” 的讨论, 具有高度的相似性。2008年在这两个走向的基础上展开了进一步研究, 可看作主题走向发生合并。

5 结语

本文从单篇文献出发, 以单篇文献的二级参考文献、参考文献、引证文献、二级引证文献形成的引文网络为基础, 利用领域本体, 采用增量式聚类方法对文献中核心主题的来源和走向进行追踪, 并绘制主题演化图。从肿瘤领域的实验结果来看, 该方法能够较好地呈现核心主题的起源、发展、合并、分化的不同变化阶段和路径。

为提高方法的准确性与应用性, 本文还需从以下两个方面加以改善: 首先, 引文网络构建基于如下假设: 若参考文献与施引文献存在相同的主题词, 则两篇文献在该主题上具有内容的相关性。而文献的引用原因或内容更多地由引证文献的引用句和上下文决定, 仅依靠出现的相同主题词可能将相关度较小的文献引入网络。因此在后续研究中需获取文献全文, 识别引文内容, 从而准确构建引文网络。其次, 主题识别仅依靠领域本体, 而文献中常有关键词未被登录, 可能造成主题识别不全面。下一步研究中考虑将关键词融入到主题识别过程中, 以关键词扩充词典, 提高主题识别的全面性。

参考文献

View Option

[1]	Web of Science [DB/OL]. [2015-01-27]. http://www.webofknowledge.com. [本文引用:2]
[2]	中国知网 [EB/OL]. [2015-01-27]. http: //www. cnki. net/. ( China National Knowledge Infrastructure[EB/OL]. [2015- 01-27]. http://www.cnki.net/ [本文引用:1]
[3]	Google Scholar [DB/OL]. [2015-01-27]. http://scholar.google.com.sci-hub.org. [本文引用:1]
[4]	Rajaraman K, Tan A. Topic Detection, Tracking, and Trend Analysis Using Self-Organizing Neural Networks [C]. In: Proceedings of the 5th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD’01). London: Springer-Verlag, 2001: 102-107. [本文引用:1]
[5]	马费成, 张勤. 国内外知识管理研究热点——基于词频的统计分析[J]. 情报学报, 2006, 25(2): 163-171. (Ma Feicheng, Zhang Qin. Comparative Analysis of Knowledge Management Literature Between China and Overseas: A Bibliometric Analysis[J]. Journal of the China Society for Scientific and Technical Information, 2006, 25(2): 163-171. ) [本文引用:1]
[6]	叶春蕾, 冷伏海. 基于共词分析的学科主题演化方法改进研究[J]. 情报理论与实践, 2012, 35(3): 79-82. (Ye Chunlei, Leng Fuhai. Improved Disciplinary Theme Evolution Research Based on Co-word Analysis[J]. Information Studies: Theory & Application, 2012, 35(3): 79-82. ) [本文引用:1]
[7]	Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. The Journal of Machine Learning Research, 2003, 3: 993-1022. [本文引用:1]
[8]	范云满, 马建霞. 利用LDA的领域新兴主题探测技术综述[J]. 现代图书情报技术, 2012(12): 58-65. (Fan Yunman, Ma Jianxia. Review on the LDA-based Techniques Detection for the Field Emerging Topic[J]. New Technology of Library and Information Service, 2012(12): 58-65. ) [本文引用:1]
[9]	贺亮, 李芳. 科技文献话题演化研究[J]. 现代图书情报技术, 2012(4): 61-67. (He Liang, Li Fang. Topic Evolution in Scientific Literature[J]. New Technology of Library and Information Service, 2012(4): 61-67. ) [本文引用:1]
[10]	Morris S A, Yen G, Wu Z, et al. Time Line Visualization of Research Fronts[J]. Journal of American Society for Information Science and Technology, 2003, 54(5): 413-422. [本文引用:1]
[11]	Takeda Y, Kajikawa Y. Optics: A Bibliometric Approach to Detect Emerging Research Domains and Intellectual Bases[J]. Scientometrics, 2009, 78(3): 543-558. [本文引用:1]
[12]	刘倩楠. 基于专利引文网络的技术演进路径识别研究[D]. 大连: 大连理工大学, 2010. (Liu Qiannan. Research on Identification of Technological Evolution Path Based on Patent Citation Network—Taking Ethemet Technology as an Example [D]. Dalian: Dalian University of Technology, 2010. ) [本文引用:1]
[13]	Kegler M C, Rigler J, Ravani M K. Using Network Analysis to Assess the Evolution of Organizations Collaboration in Response to a Major Environmental Health Threat[J]. Health Education Research, 2010, 25(3): 413-424. [本文引用:1]
[14]	Chang S, Chang S, Guh W. Exploring the Technology Diffusion Trajectories and Groups of Basic Patents of Business Methods: Using the Patent Citation Network[C]. In: Proceedings of Portland International Center for Management of Engineering and Technology, Portland . IEEE, 2007: 1784-1789. [本文引用:1]
[15]	祝清松, 冷伏海. 基于引文内容分析的高被引论文主题识别研究[J]. 中国图书馆学报, 2014, 40(1): 39-49. (Zhu Qingsong, Leng Fuhai. Topic Identification of Highly Cited Papers Based on Citation Content Analysis[J]. Journal of Library Science in China, 2014, 40(1): 39-49. ) [本文引用:1]
[16]	车海燕. 面向中文自然语言Web文档的自动知识抽取和知识融合[D]. 长春: 吉林大学, 2008. (Che Haiyan. Automatic Knowledge Extraction from the Chinese Natural Language Web Documents and Knowledge Consolidation [D]. Changchun: Jilin University, 2008. ) [本文引用:1]
[17]	Fukumoto F, Yamaji Y. Topic Tracking Based on Linguistic Features [C]. In: Proceedings of the 2nd International Joint Conference on Natural Language Processing (IJCNLP’05). Heidelberg, Berlin: Springer-Verlag, 2005: 10-21. [本文引用:1]
[18]	Hsu C, Huang Y. Incremental Clustering of Mixed Data Based on Distance Hierarchy[J]. Expert Systems with Applications, 2008, 35(3): 1177-1185. [本文引用:1]
[19]	National Cancer Institute [EB/OL]. [2015-01-14]. http://ncim.nci.nih.gov/ncimbrowser/pages/source_hierarchy.jsf?&sab=NCI. [本文引用:1]
[20]	Motzer R J, Michaelson M D, Redman B G, et al. Activity of SU11248, A Multitargeted Inhibitor of Vascular Endothelial Growth Factor Receptor and Platelet-derived Growth Factor Receptor, in Patients with Metastatic Renal Cell Carcinoma[J]. Journal of Clinical Oncology, 2008, 24(1): 16-24. [本文引用:1]

2015

0.0

... 目前, 一些常用的文献数据库如SCI^[1]、CNKI^[2]和Google学术^[3]等均提供了引文追踪功能, 但大都只是罗列出相关的引文, 缺乏对引文主题的梳理及主题研究侧重点变化的分析 ...

... 由领域专家确定领域核心期刊列表, 从Web of Knowledge^[1]数据库中下载对应的期刊文献, 期刊列表如表1所示 ...

2015

0.0

2015

0.0

2001

0.0

... 2 相关研究主题追踪(Topic Tracking)在主题检测与跟踪(Topic Detection and Tracking, TDT)中是指对新闻数据流中的已知主题进行持续跟踪, 通常需要事先给定几个关于该主题的新闻报道, 然后判断后来信息流中的文档是否属于该主题^[4] ...

2006

0.0

... (1) 基于共词分析的主题演化以主题词频次^[5]或共现频次^[6]为基础, 根据主题词间的相关程度进行聚类分析, 并绘制不同时期的主题网络图, 以观察主题的演化轨迹 ...

2012

0.0

. 2012, 35(3):79-82 DOI:doi:http://ir.las.ac.cn/handle/12502/5549

Improved Disciplinary Theme Evolution Research Based on Co-word Analysis

基于共词分析的学科主题演化方法改进研究

Ye Chunlei , Leng Fuhai.

叶春蕾, 冷伏海

学科主题演化是情报分析人员采用一定的信息技术方法观察主题在时间维度上的发展、变化趋势以及不同主题之间的交互作用,它已成为情报研究的一项重要内容。基于词频或共现词频的共词分析方法难以反映主题词对间更层次的语义关系,针对这一情况,提出一种改进的共词分析方法,该方法体现主题词、主题和文档间的层次语义关系,以更微观、精确的语义层面展现主题演化过程。

2003

0.0

... (2) 基于主题模型^[7]的主题演化方法借助于主题模型能够揭示语料语义信息的优势, 在近几年得到广泛发展^[8,9] ...

0.0

. , 2012(12):58-65

Review on the LDA-based Techniques Detection for the Field Emerging Topic

利用LDA的领域新兴主题探测技术综述

Fan Yunman , Ma Jianxia.

范云满, 马建霞

Based on LDA,this paper reviews the development of the LDA model and several models which improve the LDA for the filed emerging topic detection.It describes two parameter inference algorithms of variational derivation and Gibbs sampling, and reviews the improvement of LDA in recent years,including the one modeling the evolution of the topics,the one modeling jointly with the content of document and meta data,the one with online learning, the topic evolution method combining LDA and citation analysis and so on;then compares and analyses different kinds of improvement models in details. The paper also reviews several main visualization techniques such as NIH-VB,TIARA and VxInsight. Finally,it discusses the key research problems of detecting the emerging topic by using LDA.

以LDA为基础,系统梳理新兴主题探测以及主题趋势探测技术中的LDA以及其他LDA改进主题模型的发展现状。介绍LDA的变分推导和Gibbs抽样两种参数推导算法;总结近年来LDA模型的改进,包括对主题演化建模的主题模型、对文档内容和元数据联合建模的模型、采用在线式学习的主题模型及将LDA和引文分析相结合的主题演化方法等,并对不同的改进模型进行深入对比和分析;梳理NIH-VB、TIARA、VxInsight等几种主要的主题模型可视化技术。最后通过对LDA模型的总结分析,探讨利用LDA模型探测领域新兴主题时的关键研究问题。

... (2) 基于主题模型^[7]的主题演化方法借助于主题模型能够揭示语料语义信息的优势, 在近几年得到广泛发展^[8,9] ...

0.0

. , 2012(4):61-67

Topic Evolution in Scientific Literature

科技文献话题演化研究

He Liang , Li Fang.

贺亮, 李芳

This paper uses LDA model to generate topics from the scientific literature,then calculates the strength and feature key to find the evolution trends of topics. The experiments on NIPS anthology and ACL anthology show the trends of machine learning and computational linguistics, and also prove the feasibility of the proposed calculating method.

提出一种研究话题演化的方法,利用LDA话题模型抽取科技文献的话题,通过计算话题的强度和特征词,研究话题的演化趋势。对NIPS 论文集与ACL论文集进行实验,结果显示了机器学习领域以及计算语言学领域的一些发展状况,从而验证该方法的可行性。

... (2) 基于主题模型^[7]的主题演化方法借助于主题模型能够揭示语料语义信息的优势, 在近几年得到广泛发展^[8,9] ...

2003

0.0

... 如Morris等^[10]对炭疽病领域的相关文献在文献耦合分析基础上进行聚类分析, 揭示了炭疽病领域中主题发展、消亡的趋势 ...

2009

0.0

... Takeda等^[11]将拓扑聚类方法应用于光学领域文献的引文网络, 发现了该领域中主要存在的5个核心主题, 并分别从中探索新兴子主题 ...

2010

0.0

. 2010, :-

Research on Identification of Technological Evolution Path Based on Patent Citation Network#cod#x02014;Taking Ethemet Technology as an Example [D].

基于专利引文网络的技术演进路径识别研究[D]

Liu Qiannan.

刘倩楠

专利作为包含着丰富信息的技术知识单元,比科学论文更具有技术层面的特征。结合时间序列来看,由专利间的引用所形成的前后相继的关系,代表着技术发展的历史进程。本研究将专利引文网络作为技术演进过程的对象载体,利用专利计量与社会网络的方法进行技术演进路径识别的算法研究,借助社会网络分析的工具软件绘制技术演进路径图谱,实现技术演进路径识别的可视化。在完成理论探索的基础上,结合具体技术领域进行实证分析。通过获取以太网技术领域的专利属性数据和引用关系数据,应用前期研究所形成的识别算法与可视化方法体系,绘制专利引文网络可视化图谱并从中识别技术演进路径,综合数据资料对技术演进路径图谱进行解读,展示技术发展的历史脉络,识别新技术演进路径产生的可能性与发展方向。本研究能够借助由浩如烟海的专利数据形成纷繁复杂的网络,利用算法与可视化工具绘制出简洁直观的技术演进路径图谱并加以识别解读,能够为企业技术创新方向选择与我国自主创新战略的实施提供可靠的借鉴与参考,具有重要的理论和现实意义。

... 刘倩楠^[12]在以太网领域的相关文献中建立引文网络, 利用中心性、中介性指标筛选网络中的关键节点, 并识别这些关键节点形成的主要路径, 即技术关键路径, 最后绘制技术演化可视图谱 ...

2010

0.0

... 与引文聚类的方式相比, 社会网络技术的应用更侧重于关键节点的研究, 较多应用于知识扩散、知识流动等方面^[13,14] ...

2007

0.0

... 与引文聚类的方式相比, 社会网络技术的应用更侧重于关键节点的研究, 较多应用于知识扩散、知识流动等方面^[13,14] ...

2014

0.0

. 2014, 40(1):39-49 DOI:doi:10.3969/j.issn.1001-8867.2014.01.004

Topic Identification of Highly Cited Papers Based on Citation Content Analysis

基于引文内容分析的高被引论文主题识别研究

Zhu Qingsong , Leng Fuhai.

祝清松, 冷伏海

Citation analysis based on citation frequency fails to directly reveal research contents of papers,neither can it objectively reflect the reason for citation with keywords or topic words extracted from titles, abstracts and full-texts.Taking highly-cited papers of carbon nanotube fiber field as examples, this paper extracts citation contents and identifies the topics.Through human interpretation, it verifies that the core topics of identifying highly-cited papers based on citation content analysis can better reveal the reason for citation (i.e., motivation for citation) of highly-cited papers and accord with research contents of papers.Compared with the topic identification based on titles, abstracts and full-texts, the topics identified on the basis of citation content analysis have better representativeness and can effectively reveal research contents of cited papers, and are important supplement to related information in original texts.The experiment results of this paper prove the feasibility and validity of the topic identification through citation content analysis on highly cited papers.4figs.4tabs.31refs.

基于被引次数的引文分析无法直接揭示论文的研究内容，利用关键词或从标题、摘要和全文中抽取的主题词很难客观反映论文的被引原因。本文以碳纳米管纤维研究领域的高被引论文为研究对象进行引文内容抽取和主题识别，经人工判读验证：基于引文内容分析的高被引论文识别的核心主题能够较好地揭示高被引论文的被引原因（引用动机），而且与论文的研究内容相符合；与基于全文、基于标题和摘要的主题识别相比，在引文内容分析基础上识别的主题具有更好的主题代表性，能够有效揭示被引文献的研究内容，是对原文相关信息的重要补充。本文的实验表明基于引文内容分析的高被引论文主题识别是可行而且有效的。图4。表4。参考文献31。

... 文献的标题、摘要、关键词中可抽出大量与领域相关的主题词, 但并非所有的主题词都能表征该文献的研究内容^[15], 需给主题词赋予权重 ...

2008

0.0

. 2008, :-

Automatic Knowledge Extraction from the Chinese Natural Language Web Documents and Knowledge Consolidation [D].

面向中文自然语言Web文档的自动知识抽取和知识融合[D]

Che Haiyan.

车海燕

从Web文档中自动抽取出与领域本体匹配的事实知识不仅可以构建基于知识的服务,而且可以为语义Web的实现提供必要的语义数据。中文语言的特点使得从中文自然语言Web文档中自动抽取知识非常困难。本文研究了面向中文自然语言Web文档的自动知识抽取和知识融合方法。主要研究内容包括:(1)分析和总结了自动知识抽取和知识融合的研究现状及存在的问题;(2)提出了系统化的领域本体定义方法,用聚集体知识概念刻画N元关系并且强调了要为本体概念指定必要的属性约束;(3)研究了面向中文自然语言Web文档的自动知识抽取方法。针对自动知识抽取的三个步骤:知识三元组元素的识别、知识三元组的构造和知识三元组的清洗,分别提出了基于本体主题的属性识别方法、基于本体属性约束的三元组元素识别方法、基于启发式规则的三元组构造方法、基于句法分析的三元组构造方法和基于本体属性约束的知识清洗方法。与已有方法相比,该知识抽取方法能够在不借助大规模的语言知识库或同义词表的情况下对中文自然语言Web文档进行自动知识抽取,能够处理文档中的N元复杂关系,适合于一般内容的中文自然语言Web文档,具有较好的可移植性;(4)提出了基于本体属性约束的知识融合方法,能够在实例化领域本体过程中识别等价实例、冗余知识和矛盾知识,保证了知识库知识的一致性;(5)分析了传统搜索引擎存在的问题,设计并实现了一个基于语义的智能搜索引擎系统CRAB,该系统能够为用户提供基于语义的知识检索并且生成直接包含查询结果的图文并茂的检索结果报告。本文在面向中文自然语言 Web文档的自动知识抽取、知识融合和基于语义的智能搜索引擎等方面的研究具有一定的理论意义和应用价值,丰富了对中文自然语言Web文档的自动知识抽取问题的研究。

... 领域本体针对特定的领域具有较高的概念完备性^[16], 利用本体中概念的同义词抽取主题词条并映射到概念的标准形式, 可以有效地降低文本特征向量的维数, 提高主题识别的质量 ...

2005

0.0

... 设标题、关键词、摘要中出现的主题词权重分别为W_t、W_k、W_a, 一般认为文献标题、关键词、摘要中的词汇反映文献内容的能力依次降低^[17], 因此W_t>W_k>W_a ...

2008

0.0

... 在诸多的聚类方法中, 增量聚类算法可以只处理增量部分的数据, 并对已有的聚类结果进行增量式的修改和完善^[18], 满足动态追踪主题来源与走向变化的需求 ...

2015

0.0

... 下载肿瘤领域本体NCIt^[19] (National Cancer Institute thesaurus, NCIt), 将其作为领域词典应用到本文的主题抽取过程中 ...

2008

0.0