融合关键词增补与领域本体的共词分析方法研究*

引用本文

唐晓波, 肖璐. 融合关键词增补与领域本体的共词分析方法研究^*. 现代图书情报技术, 2013, 29(11): 60-67
Tang Xiaobo, Xiao Lu. Research of Co-word Analysis Method of Combining Keywords Extension and Domain Ontology. New Technology of Library and Information Service, 2013, 29(11): 60-67 复制到剪切板

Permissions

融合关键词增补与领域本体的共词分析方法研究

唐晓波, 肖璐

武汉大学信息资源研究中心武汉 430072

修回日期:2013-09-01

基金:本文系国家自然科学基金项目“社会化媒体集成检索与语义分析方法研究”(项目编号:71273194)的研究成果之一。

摘要

针对传统共词分析中的不足,提出一个新的共词分析过程模型,该模型从两个方面对传统共词分析方法进行改进。首先,自标引关键词不能全面描述论文主题内容,需对其进行增补。选择高频自标引关键词构成增补词典,利用基于增补词典的分词技术从标题中提取论文候选关键词,按一定规则进行增补。其次,针对共现频次较难准确描述词对相似度,引入领域本体来计算高频关键词对的语义相似度,综合考虑共现频次和语义相似度值得到词对的相关度值。用相关度来描述词对相似度,并作为构建共词矩阵的依据。最后通过实验证明改进方法的有效性。

关键词: 共词分析; 增补词典; 领域本体

Research of Co-word Analysis Method of Combining Keywords Extension and Domain Ontology

Tang Xiaobo, Xiao Lu

Center for Studies of Information Resources, Wuhan University, Wuhan 430072, China

Abstract

This paper puts forward a new co-word analysis process model according to the deficiency in tradition co-word analysis. This model improves the traditional methods of co-word analysis from two aspects. At first, this paper supplements the indexing keywords because they cannot fully describe the topic content of the thesis. High frequency words from indexing key words are chosen to constitute a supplementary dictionary. Paper candidate keywords are extracted from the title by the word segmentation technology based on the supplement dictionary, and then the candidate keywords are supplemented according to certain rules. Secondly,domain Ontology is introduced to calculate the high frequency keywords for semantic similarity because the co-occurrence frequencies are difficult to accurately describe the similarity between two words,considering the co-occurrence frequency and semantic similarity. Then the correlation is used to describe the word similarity, and is the basis of building co-word matrix. Finally, experiments prove the effectiveness of this improved method.

Keyword: Co-word analysis; Extension dictionary; Domain Ontology

Show Figures

1 引言

20世纪70年代中后期法国的文献计量学家Callon首次提出了共词分析方法,经过几十年的发展已基本成熟^{[ 1]},并被广泛应用于学科热点分析、科学计量学、信息科学和信息系统及信息检索等领域^{[ 2]}。共词分析主要通过统计分析能表征文献主题内容的关键词之间共现的次数,得到文献所属学科的研究热点与结构^{[ 3]}。其核心是用表征论文主题内容的高频关键词的共现频次来描述词与词之间的相似度,并以此构建出词语相似矩阵(即共词矩阵),从而进行聚类分析。如此,带来两个问题:

(1)如何获取表征论文主题内容的关键词;

(2)获取高频关键词后,高频关键词对的共现频次是否可以准确描述词与词之间的相似度。

本文将从这两个方面分析传统共词分析方法的不足并给出改进方法,得到一个新的共词分析过程模型:

(1)作者自标引关键词是传统共词分析的重要数据源^{[ 4]}。一篇论文大概包含3-5个自标引关键词,由作者根据文献内容人工确定。该类关键词能较准确反映论文研究内容,但其确定过程主观性强,且由于有数量的限制,在反映论文内容全面性上效果有限,从而影响了共词分析的效果。针对该问题,本文采用基于分词技术的关键词增补方法来对自标引关键词进行增补,获取能较全面描述论文内容的关键词。

(2)针对很多学者指出直接用词对共现频次来描述词对相似度不科学的问题,本文引入领域本体来计算词对语义相似度,综合考虑共现频次和语义相似度得到词对的相关度值,用相关度值来描述词语之间的相似度。

(3)以CNKI中2003年-2012年间关于数字图书馆的论文为数据源进行了对比实验,证明了改进方法的有效性。

2 相关研究

2.1 关键词增补相关研究

文献^{[ 5]}论述了从论文的题名和摘要中提取关键词来增补自标引关键词的优势与可行性,但仅通过人工分析题名和摘要来提取关键词,没有实现自动抽取。文献^{[ 6]}指出可运用分词技术从标题、摘要或正文中自动抽取词语作为论文的关键词。分词技术对于词典的要求较高,没有一个专门性分词词典,容易将词进行细粒度的切分。表征论文内容的关键词大多为专业术语,当对包含这些专业术语的标题和摘要进行细粒度分词时,很可能破坏原本词语的含义。比如,当一篇论文的标题中包含专业术语“信息资源建设”,在进行分词时该词可能被切分为“信息”、“资源”、“建设”,从而失去原本的语义信息。文献^{[ 7]}则在采用分词技术从标题和摘要中提取关键词时,给出了一个构建分词词典的方法。首先将作者自标引关键词和机标关键词提取出来构建词典,以该词典为基础对论文的标题和摘要进行分词处理,抽取出存在于标题和摘要中的关键词,将自标引关键词、机标关键词和抽取的关键词一起作为表征论文内容的关键词。通过自己构建的词典克服一般分词技术容易造成细粒度切词的问题,尽量保持语词原本的语义信息,提高论文关键词抽取的准确性。该方法直接用自标引关键词和机标关键词来构建分词词典,没有进行关键词选择。自标引关键词和机标关键词中有一些低频词(例如:模型研究)对描述论文主题贡献不大,但经常出现在标题或摘要中,如果将其选为分词词典中的词容易影响分析效果。

自动标引是实现关键词增补的重要方法,包括关键词自动提取与自动赋词标引两种^{[ 8]}。文献^{[ 9]}在抽取关键词时引入条件随机场序列标注机器学习算法,构建出一个基于字角色标注的中文书目关键词标引模型。文献^{[ 10]}提出一个基于词汇同现模型的关键词抽取方法,通过扩充传统词典得到优化词典,利用该词典进行分词,按一定指标选取出关键词。文献^{[ 11]}引入本体实现对PDF文档的自标引,首先利用软件工具对PDF文档进行组块划分,再对组块进行标引。文献^{[ 12]}采用逐点相对熵的方法构建了一个统计语言模型来进行关键词抽取。文献[13]选用有监督的机器学习算法从摘要中自动提取关键词,在进行文本表征时加入语法信息,提高文本表征准确性。

2.2 词对相似度计算相关研究

共词分析中词对相似度计算方法的改进主要集中在两方面:

(1)通过对自标引关键词进行加权处理,来提高关键词对的共现频次描述词对相似度的能力。文献^{[ 14]}指出在对文献进行主题标引时存在主题词的主次之分,在统计共现频次时不能忽视这种区别。为了能更准确地描述主题词对之间的相似度,需对主要主题词进行加权。文献^{[ 4]}提出以论文的标题和摘要为依据,对自标引关键词进行加权,将出现在标题和摘要中的自标引关键词赋予更高的权重。文献^{[ 15]}则利用论文属性即论文的重要程度来对关键词进行加权,指出相较于影响因数低的论文,词对在影响因数高的论文中共现时,该词对关系更紧密。文献^{[ 16]}通过改进的信息熵计算方法来对主题词进行加权选择。

(2)另一种改进研究则主要针对词对本身的语义相似度来进行。共现频次相同的两个关键词之间语义相似度很可能不一样,比如“微博文本”与“社会化媒体”的语义相似度较“微博文本”与“共词分析”更强,在进行词对相似度描述时需将这种差异考虑进去。文献^{[ 17]}考虑用主题图描述词语之间的语义关系,通过计算共现词对在主题图中的最短路径确定其语义关系强度。综合词对语义关系强度和共现强度得到共词相关度,用该值来描述词对相似度,完成语义共词分析。文章利用词对在主题图中的路径长度计算其语义关系强度,忽略了路径中的关系类型。不同关系类型代表的关系强弱是不同的,在计算词对语义关系强度时忽略这种差异容易导致语义关系强度计算不准确。

3 相关理论与关键技术介绍

3.1 分词技术

中文分词技术是将没有分割标志的汉字串即没有词的边界的汉字串转换成符合语言实际的词串即在书面汉语中建立词的边界^{[ 18]}。该技术是中文信息处理中的关键技术,被广泛应用于文本分类、信息检索、信息过滤、文献自动标引、摘要自动生成等领域^{[ 19]}。现有的分词算法可大致分为以下几类:基于词典的分词方法、基于理解的分词方法、基于语义的分词方法和基于统计的分词方法^{[ 18]}、基于字序列标注的分词方法^{[ 20]}。

根据本文关键词增补方法的需要,选用基于词典的分词方法对论文标题进行分词处理。基于词典的分词方法是指将待分析的字符串与给定词典中的词逐一进行匹配,匹配成功则切分出一个词。该分词方法需确定分词词典、文本匹配方向及匹配原则。常用的匹配方向有正向、逆向和双向匹配;常用匹配原则有最大、最小、最佳匹配。本文利用自标引关键词构建增补词典,在匹配方法和匹配原则上选用正向最大匹配法。

3.2 领域本体

本体是一个哲学上的概念,是指对世界上客观事物所进行的系统描述^{[ 21]}。目前最被认可的关于本体的定义是1993年由Gruber^{[ 22]}给出的,即本体是概念模型的明确的规范说明。一般而言,领域本体是用来描述某个领域被大家共同认可的、明确的、唯一的概念及其概念间关系^{[ 23]}。其中概念是领域内具有公认语义本质的词语,概念间关系是用于实现对领域内各语义的表达^{[ 24]},主要有5类:

(1)同义关系(Synonymy-of):能表示出概念间的“一义多词”现象,可能帮助语义消歧。比如:“武汉大学图书馆”与“武大图书馆”之间存在同义关系。

(2)上下位关系(Kind-of):表示概念之间的类属关系,构成概念间的层次结构。比如:“图书馆”与“数字图书馆”之间存在上下位关系。

(3)实例关系(Instance-of):表示概念之间有实例与类的关系^{[ 24]}。比如:“图书馆”与“武汉大学图书馆”之间存在实例关系。

(4)部分与整体关系(Part-of):表示概念之间的组成关系,即一个概念是另一个概念的构成要素。比如:“图书”与“图书馆”之间存在部分与整体关系。

(5)属性关系(Attribute-of):表示一个概念是另一个概念的属性^{[ 24]}。比如:“图书馆”与“馆藏”之间存在属性关系。

概念的各种关系描述了概念间不同程度的语义关联,但这个语义关联是显性的由人工判断所得。将它与词对共现频次进行加权相加可得到概念的相关度,通过共词分析挖掘出更多潜在的关联。

4 基于领域本体的共词分析过程模型

针对传统共词分析中用自标引关键词共现频次来描述词对相似度的不足,本文将从自标引关键词的增补和高频关键词对相似度计算两个方面对其进行改进,从而构建出新的共词分析过程模型。

(1)通过改进文献^{[ 17]}的方法实现论文关键词增补,即将所有待分析论文的自标引关键词提取出来,从中选取高频自标引关键词组成增补词典。以论文的标题为增补源,利用增补词典和分词技术,提取出候补关键词,按照一定规则进行论文关键词增补。

(2)在共现词对相似度准确计算上则通过引入领域本体来实现。领域本体通过领域专家人工构建,可标识出相关领域内概念之间的显性语义关系,但无法表示概念间的潜在语义关系,潜在语义关系可通过共词分析方法得到。利用领域本体计算高频共现关键词对语义相似度,综合考虑共现频次及语义相似度得到词对的相关度值,该值能比共现频次更准确描述词与词之间的相似程度。以词对相关度为基础构建共词矩阵,提高共词分析的准确性。

本文提出的共词分析过程模型分为4大块,即数据获取模块、关键词增补模块、共词矩阵构建模块和数据分析模块,具体如图1所示:

	Figure Option View Download New Window
	图1 基于领域本体的共词分析过程模型

其中数据获取、分析等均采用传统方法,不再详述。本文重点介绍如何进行关键词增补及高频关键词对相关度计算。

4.1 论文关键词增补

关键词增补的数据源有论文标题、摘要、正文及参考文献等,考虑到时间复杂度选择标题作为增补数据源,具体增补过程如下:

(1)增补词典构建。将待分析论文的自标引关键词提取出来,统计每个自标引关键词的词频,设定阈值A,选择词频大于A的自标引关键词构成增补词典。

(2)分词处理。将增补词典加入相应的分词程序中,分别对每篇论文的标题进行分词处理,获取标题中潜在关键词。

(3)关键词增补。将潜在关键词按一定规则增补为论文关键词。其增补规则为增补后每篇论文的关键词不能重复,即对自标引关键词不再进行增补,潜在关键词中词频≥2的词只增补一次。

4.2 高频关键词对相关度计算

本文高频关键词对相关度由两个因素决定,即词对的共现频次和语义相似度。共现频次由词对出现在同一论文关键词中的次数确定,语义相似度值则借助领域本体来计算。具体过程如下:

(1)人工构建领域本体。领域本体用来描述词与词之间的语义关系,需要领域专家人工构建。

(2)高频关键词对共现频次计算。统计增补后论文关键词的词频,设定阈值B,选取词频大于B的关键词为高频关键词。依次组合高频关键词得到高频关键词对,统计每组词对在论文中的共现频次,并将关键词i与j的共现频次计为X_ij。

(3)高频关键词对语义相似度计算。词对之间语义相似度由两个词在本体中的位置和它们之间关系类型决定。本体概念之间存在5种关系类型,即同义关系(Synonymy-of)、上下位关系(Kind-of)、实例关系(Instance-of)、部分与整体关系(Part-of)及属性关系(Attribute-of)。每种关系类型代表不同的相似度,首先为其设定一个相似度值,计为 Z_n(n=1,…,5),相似度越高,该值越小。词对语义相似度计算过程如下:

①计算词对在领域本体中的最短路径,计为m;

②设定一个阈值C,并规定最短路径大于C的词对之间没有语义关联,即Y_ij=0,其中Y_ij表示关键词i与关键词j之间的语义相似度值;

③通过改进文献^{[ 17]}的公式来计算有语义关联的词对的相似度值,词对相似度值等于该词对最短路径中所有关系类型相似度值和的倒数,具体公式为:

(4)高频关键词对的相关度计算。词对的相关度由两个因素确定,即词对的共现频次和语义相似度。将步骤(2)和步骤(3)计算的词对共现频次和语义相似度值进行归一化处理,再加权相加得到词对的相关度,具体公式如下:

其中,R_ij表示关键词i与关键词j之间的相关度值,α和β分别为词对共现频次和语义相似度值在描述词对相关度时的权重。

至此,完成了高频关键词对的相关度计算,用该值来代替共现频次描述词与词之间的相似度,从而构建共词矩阵,实现更准确的共词分析。

5 实证分析

选择“数字图书馆”为分析对象验证本文提出方法的可行性与有效性,在CNKI中检索2003年-2012年间CSSCI索引期刊上标题或自标引关键词中包含“数字图书馆”这一关键词的论文共1 929篇。提取1 929篇论文的自标引关键词,去重并删除“数字图书馆”、“模型研究”等无效关键词,最终得到1 947个自标引关键词。本文从两个方面对共词分析进行改进,也将分别对两个改进方法进行验证。

5.1 关键词增补方法验证

首先将1 947个自标引关键词提取出来,选择词频≥2的词组成增补词典,按照3.1节的步骤对其进行处理。经统计原论文关键词总词频为4 947,标题增补后论文关键词总词频为6 513。原论文和增补后论文前20个高频关键词及词频如表1所示:

表1 高频关键词列表

从表1可以看出增补后高频词的词频数有所提高,但还需进一步验证该方法对共词分析的影响。

选择原论文中前29个高频词作为分析对象,根据这29个词在原论文和增补后论文中的共现频次进行共词聚类分析,得到如图2和图3所示的聚类效果图。总体上对比两个聚类效果图可以看到,相较原论文,增补后论文的聚类速度快且类团较紧密、大小较均匀。

	Figure Option View Download New Window
	图2 原论文聚类效果

	Figure Option View Download New Window
	图3 增补后论文聚类效果

仔细分析两个聚类效果图,根据图2可将29个高频关键词分为“存储”、“技术1”、“版权”、“资源”、“技术2”和“服务”6大类;根据图3可将29个高频关键词分为“存储”、“版权”、“技术1”、“服务”、“技术2”、“资源”6大类。两个聚类图中的“存储”、“版权”、“服务”三个类团完全一致,这里不再比较。有较大区别的是“技术1”、“技术2”与“资源”三个类团。首先,图2中“信息技术”被聚到了“资源”一类,图3中该关键词被聚到了“技术2”一类。其次,图2中“信息资源共享”没有与“元数据”、“知识组织”等词聚在一起,图3中“元数据”和“知识组织”则与“信息资源共享”聚在一起。分析可知,元数据是信息资源共享中的一个重要技术,知识组织是信息资源共享的前提,把它们聚在一起更为合理。根据以上分析可知,论文关键词增补后的聚类效果优于增补前。

5.2 高频关键词对相关度计算验证

本节将验证词对相关度是否比共现频次能更准确描述词与词之间的相似度,以此进行的聚类分析效果是否更好。将标题增补后论文的前30个高频关键词提取出来进行聚类分析,得到聚类效果如图4所示:

	Figure Option View Download New Window
	图4 增补后论文高频词聚类效果

请专家构建“数字图书馆”领域的本体,具体构建过程如下:从增补后的关键词数据中提取词频≥7的关键词共124个,构成领域本体的候选概念;对候选概念进行人工选择;由专家确定概念间的关系并构建出“数字图书馆”领域本体。经统计最后得到实例关系8个,属性关系1个,部分与整体关系6个,上下位关系105个,部分领域本体如图5所示:

	Figure Option View Download New Window
	图5 部分领域本体

以该领域本体为基础,按3.2节的方法计算30个词之间的相关度,据此构建共词矩阵并进行聚类分析,得到聚类效果如图6所示:

	Figure Option View Download New Window
	图6 加入领域本体后聚类效果

根据图4可将“数字图书馆”领域研究热点大致分为“资源”、“存储”、“服务”与“技术”4类;根据图6可将“数字图书馆”领域研究热点大致分为“资源”、“版权”、“服务”和“技术”4类。两个图的不同在于图4中“信息存储”与“SAN”被单独聚为“存储”类,“合理使用”与“版权”与其他资源相关词一起聚在“资源”类;图6中“合理使用”与“版权”被单独聚为“版权”类,“信息存储”与“SAN”则与其他资源相关词一起聚在“资源”类。分析可知,“信息存储”与“SAN”相较“合理使用”与“版权”与信息资源更相关,将其划入“资源”一类更为合适;“数字图书馆”领域对版权的研究较多,划出一个单独的子类更为合适。由此可知,图6的聚类效果优于图4,证明了本文提出的词对相关度计算方法的有效性。

6 结语

近年来,共词分析被广泛应用于学科热点探测、人工智能、信息检索等领域且取得了不错的效果,但以自标引关键词共现频次为分析依据的方法存在一定缺陷。针对传统方法的不足,本文进行了两个方面的改进研究。首先,由于自标引关键词不能全面描述论文主题内容需对其进行增补。利用自标引关键词构建增补词典,以论文标题为数据源提取关键词实现增补。其次,用高频关键词对的相关度代替共现频次描述词对相似度。利用人工构建的领域本体计算高频关键词对的语义相似度,综合考虑词对语义相似度和共现频次得到词对相关度。本文在一定程度上解决了共词分析过程中存在的问题,但还有不足之处,如领域本体需人工构建耗时耗力且主观性较强,有待以后改进。

参考文献

View Option

[1]	廖胜姣, 肖仙桃. 基于文献计量的共词分析研究进展[J]. 情报科学, 2008, 26（6）: 855-859. （Liao Shengjiao, Xiao Xiantao. Research Advances on the Bibiometrics-based Co-word Analysis[J]. Information Science, 2008, 26（6）: 855-859. ） [本文引用:1] [CJCR: 1.112]
[2]	钟伟金, 李佳. 共词分析法研究（一）——共词分析的过程与方式[J]. 情报杂志, 2008, 27（5）: 70-72. （Zhong Weijin, Li Jia. The Research of Co-word Analysis（1） —— The Process and Methods of Co-word Analysis[J]. Journal of Information, 2008, 27（5）: 70-72. ） [本文引用:1]
[3]	李颖, 贾二鹏, 马力. 国内外共词分析研究综述[J]. 新世纪图书馆, 2012（1）: 23-27. （Li Ying, Jia Erpeng, Ma Li. Co-word Analysis Research Review at Home and Abroad[J]. New Century Library, 2012（1）: 23-27. ） [本文引用:1] [CJCR: 0.6797]
[4]	李纲, 李轶. 一种基于关键词加权的共词分析方法[J]. 情报科学, 2011, 29（3）: 321-324. （Li Gang, Li Yi. A New Method for Weighted Co-word Analysis Based on Keywords[J]. Information Science, 2011, 29（3）: 321-324. ） [本文引用:1] [CJCR: 1.112]
[5]	邵作运, 李秀霞. 共词分析中作者关键词规范化研究——以图书馆个性化信息服务研究为例[J]. 情报科学, 2012, 30（5）: 731-735. （Shao Zuoyun, Li Xiuxia. Study on the Stand ardization of Author Keywords in Co-word Analysis——Taking Library Personalized Information Services Study as Example[J]. Information Science, 2012, 30（5）: 731-735. ） [本文引用:1] [CJCR: 1.112]
[6]	沈君, 王续琨, 陈悦, 等. 战略坐标视角下的专利技术主题分析——以第三代移动通信技术为例[J]. 情报杂志, 2012, 31（11）: 88-94. （Shen Jun, Wang Xukun, Chen Yue, et al. Analysis on Technology Focus from the Perspective of Strategic Diagram: A Case in the Field of 3G Mobile Communication[J]. Journal of Information, 2012, 31（11）: 88-94. ） [本文引用:1]
[7]	韩红旗, 安小米. 科技论文关键词的战略图分析[J]. 情报理论与实践, 2012, 35（9）: 86-90. （Han Hongqi, An Xiaomi. A Strategic Diagram Method for the Analysis of the Keywords in Scientific Papers[J]. Information Studies: Theory & Application, 2012, 35（9）: 86-90. ） [本文引用:1] [CJCR: 1.5]
[8]	章成志. 自动标引研究的回顾与展望[J]. 现代图书情报技术, 2007（11）: 33-39. （Zhang Chengzhi. Review and Prospect of Automatic Indexing Research[J]. New Technology of Library and Information Service, 2007（11）: 33-39. ） [本文引用:1] [CJCR: 1.073]
[9]	邓三鸿, 王昊, 秦嘉杭, 等. 基于字角色标注的中文书目关键词标引研究[J]. 中国图书馆学报, 2012, 38（2）: 38-49. （Deng Sanhong, Wang Hao, Qin Jiahang, et al. Research on Keywords Indexing for Chinese Bibliography Based on Word Roles Annotation[J]. Journal of Library Science in China, 2012, 38（2）: 38-49. ） [本文引用:1] [CJCR: 2.697]
[10]	肖红, 许少华. 基于词汇同现模型的关键词自动提取方法研究[J]. 沈阳理工大学学报, 2009, 28（5）: 38-41. （Xiao Hong, Xu Shaohua. A Method of Automatic Keyword Extraction Based on Co-occurrence Model[J]. Transactions of Shenyang Ligong University, 2009, 28（5）: 38-41. ） [本文引用:1] [CJCR: 0.2044]
[11]	Anjewierden A, Kabel S. Automatic Indexing of PDF Documents with Ontologies[C]. In: Proceedings of the 13th Belgian/Dutch Conference on Artificial Intelligence(BNAIC’01),* Amsterdam, Neteherland s*. 2001: 23-30. [本文引用:1]
[12]	Tomokiyo T, Hurst M. A Language Model Approach to Keyphrase Extraction[C]. In: Proceedings of the ACL 2003 Workshop on Multiword Expressions: Analysis, Acquisition＆Treatment (MWE’03), Sapporo, Japan. Stroudsburg: Association for Computational Linguistics, 2003: 33-40. [本文引用:1]
[13]	Hulth A. Improved Automatic Keyword Extraction Given More Linguistic Knowledge[C]. In: Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing, Sapporo, Japan. Stroudsburg: Association for Computational Linguistics, 2003: 216-223. [本文引用:1]
[14]	钟伟金. 基于主要主题词加权的共词聚类分析法效果研究[J]. 情报学报, 2009, 28（2）: 214-219. （Zhong Weijin. Research into the Effects of Weighted Co-word Cluster Analysis Based on Major Descriptor[J]. Journal of the China Society for Scientific and Technical Information, 2009, 28（2）: 214-219. ） [本文引用:1] [CJCR: 1.1348]
[15]	吴清强, 赵亚娟. 基于论文属性的加权共词模型探讨[J]. 情报学报, 2008, 27（1）: 89-92. （Wu Qingqiang, Zhao Yajuan. Research in the Weighted Co-word Analysis Based on the Attributes of Articles[J]. Journal of the China Society for Scientific and Technical Information, 2008, 27（1）: 89-92. ） [本文引用:1] [CJCR: 1.1348]
[16]	An X Y, Wu Q Q. Co-word Analysis of the Trends in Stem Cells Field Based on Subject Heading Weighting[J]. Scientometrics, 2011, 88（1）: 133-144. [本文引用:1] [JCR: 2.133]
[17]	李纲, 王忠义. 基于语义的共词分析方法研究[J]. 情报杂志, 2011, 30（12）: 145-149. （Li Gang, Wang Zhongyi. Research on the Semantic-based Co-word Analysis[J]. Journal of Information, 2011, 30（12）: 145-149. ） [本文引用:1]
[18]	张启宇, 朱玲, 张雅萍. 中文分词算法研究综述[J]. 情报探索, 2008（11）: 53-56. （Zhang Qiyu, Zhu Ling, Zhang Yaping. Review of Chinese Word Segmentation Algorithm[J]. Information Research, 2008（11）: 53-56. ） [本文引用:2]
[19]	奉国和, 郑伟. 国内中文自动分词技术研究综述[J]. 图书情报工作, 2011, 55（2）: 41-45. （Feng Guohe, Zhen Wei. Review of Chinese Automatic Word Segmentation[J]. Library and Information Service, 2011, 55（2）: 41-45. ） [本文引用:1] [CJCR: 1.193]
[20]	王昊, 邓三鸿, 苏新宁. 基于字序列标注的中文关键词抽取研究[J]. 现代图书情报技术, 2011（12）: 39-45. （Wang Hao, Deng Sanhong, Su Xinning. Research on Chinese Keywords Extraction Based on Characters Sequence Annotation[J]. New Technology of Library and Information Service, 2011（12）: 39-45. ） [本文引用:1] [CJCR: 1.073]
[21]	于江德, 李学钰, 樊孝忠. 信息抽取中领域本体的设计和实现[J]. 电子科技大学学报, 2008, 37（5）: 746-749. （Yu Jiangde, Li Xueyu, Fan Xiaozhong. Design and Implementation of Domain Ontology for Information Extraction[J]. Journal of University of Electronic Science and Technology of China, 2008, 37（5）: 746-749. ） [本文引用:1]
[22]	Gruber T R. A Translation Approach to Portable Ontology Specifications[J]. Knowledge Acquisition, 1993, 5（2）: 199-220. [本文引用:1]
[23]	杜小勇, 李曼, 王珊. 本体学习研究综述[J]. 软件学报, 2006, 17（9）: 1837-1847. （Du Xiaoyong, Li Man, Wang Shan. A Survey on Ontology Learning Research[J]. Journal of Software, 2006, 17（9）: 1837-1847. ） [本文引用:1] [CJCR: 2.181]
[24]	朱恒民, 马静, 黄卫东, 等. 基于领域本体实现全网信息的智能搜索方法研究[J]. 情报学报, 2010, 29（1）: 9-15. （Zhu Hengmin, Ma Jing, Huang Weidong, et al. Study on Method of the Global Web Intelligent Search Based on Domain Ontology[J]. Journal of the China Society for Scientific and Technical Information, 2010, 29（1）: 9-15. ） [本文引用:3] [CJCR: 1.1348]

2008

0.0

1.112

Inf Sci. 2008, (6):855 - 859

Research Advances on the Bibiometrics - based Co - word Analysis

基于文献计量的共词分析研究进展

LIAOSheng-jiao[1];XIAOXian-tao[2]

廖胜姣[1];肖仙桃[2]

采用文献计量方法分析了国内外共词分析论文的研究特点.首先,基于Web of Science分析了国外共词分析研究论文的分布特点,得出了国外共词分析研究方向的高生产力的作者、国家、机构、期刊等,并分析了被引频次最高的几篇论文的特点;其次,基于重庆维普有限公司研制的<中文科技期刊数据库>(1989-2007)分析了国内共词分析文献的作者合作情况、期刊分布等.这将有利于我们掌握国内外共词研究法的核心作者、重心研究区域等.

... 1 引言20世纪70年代中后期法国的文献计量学家Callon首次提出了共词分析方法,经过几十年的发展已基本成熟[<xref ref-type="bibr" rid="R1">1</xref>],并被广泛应用于学科热点分析、科学计量学、信息科学和信息系统及信息检索等领域[<xref ref-type="bibr" rid="R2">2</xref>] ...

2008

0.0

2012

0.0

0.6797

... 共词分析主要通过统计分析能表征文献主题内容的关键词之间共现的次数,得到文献所属学科的研究热点与结构[<xref ref-type="bibr" rid="R3">3</xref>] ...

2011

0.0

1.112

... (1)作者自标引关键词是传统共词分析的重要数据源[<xref ref-type="bibr" rid="R4">4</xref>] ...

2012

0.0

1.112

2012

0.0

2012

0.0

1.5

2007

0.0

1.073

New Technol Lib Inf Ser. 2007, 2(9):28 - 33

Comparative Study of Foreign Search Engines Based on Grid Technology

基于网格的国外搜索引擎系统的比较研究*

Zhang Junli Gao Jinsong Zhang Fan

张俊丽高劲松张帆

(Department of Information Management, Huazhong Normal University, Wuhan 430079, China)

This paper introduces the research content and methodology of foreign search engines based on grid technology and carries on the system comparison. In the end, the paper analyzes and summarizes the research results and presents some proposals for the development tendency of search engines in our country.

在详细介绍国外基于网格的搜索引擎系统的研究内容和研究方法的基础上，对这些项目的研究内容和方法进行系统的比较研究，并借鉴国外基于网格的搜索引擎系统的研究成果，对我国今后的研究方向提出建议。

... 自动标引是实现关键词增补的重要方法,包括关键词自动提取与自动赋词标引两种[<xref ref-type="bibr" rid="R8">8</xref>] ...

2012

0.0

2.697

2009

0.0

0.2044

T Shenyang Ligong Univ. 2009, (5):38 - 41

A Method of Automatic Keyword Extraction based on Co-occurrence Model

基于词汇同现模型的关键词自动提取方法研究

XIAOHong;XUShao-hua

肖红;许少华

关键词提取是中文信息处理的一个关键环节,提出一种关键词自动提取的有效方法,首先对普通词典进行了扩充,在普通词典的基础上结合大量的训练样本对词典进行训练得到一个带有TF×IDF值和互信息的优化词典.然后在此词典上按段落进行切词,对切词结果集根据词频、权重、同现关系和互信息排序后筛选出候选关键词.最后根据候选词的上位词和下位词进行词汇合并,设定一个阀值,取出其中的n个词作为文章的关键词.通过小数据测试样本集的抽取实验结果表明,文中方法在一定程度上能够提高关键词提取的正确率,得到了较为满意的效果.

2001

0.0

2003

0.0

2003

0.0

2009

0.0

1.1348

J Chin Soc Sci Tech Inf. 2009, (2):214 - 219

Research into the Effects of Weighted Co-word Cluster Analysis Based on Major Descriptor

基于主要主题词加权的共词聚类分析法效果研究

ZhongWeijin

钟伟金

共词聚类分析法在词对共现频率的基础上,采用聚类的算法把词(通常是主题词)聚集成类,从而揭露隐含在文献群中知识.词对共现频率结果的准确性、科学性是共词聚类分析成功的关键.本文对共词聚类分法中的词对共现频率进行深入的分析,认为在文献的标引中存在主要主题词与次要主题词的差别,在词对共现频率计算时应对主要主题词进行加权计算,从而突出主要主题词在聚类过程中的主导地位.通过实例的对比分析,说明这种加权对共词聚类分析法的改进是有效的,也是有必要的.

2008

0.0

1.1348

J Chin Soc Sci Tech Inf. 2008, (1):89 - 92

Research in the Weighted Co-word Analysis Based on the Attributes of Articles

基于论文属性的加权共词模型探讨

WuQingqiang[1];ZhaoYajuan[2]

吴清强[1];赵亚娟[2]

本文在分析共词研究现状的基础上,对论文属性在分析中的影响、作用进行了探讨,发现目前共词分析方法中没有考虑论文属性对共词分析所产生的影响问题,进而构建基于论文属性的加权共词分析模型.模型构建之后,利用加权后的Jaccard系数来计算关键词之间的距离.在案例分析部分,作者将被引次数作为论文属性的综合衡量指标代表来具体实现文中所讨论的加权共词模型,并从网络上下载了数据,对数据进行共词分析和加权共词分析,并对二者的分析结果进行了对比分析,验证了加权共词模型的可行性.文章的最后,提出了加权共词模型需要进一步研究的问题.

2011

2.133

0.0

Scientometrics. 2011, 88(1):133 - 144 DOI:10.1007/s11192-011-0374-1

Co-word analysis of the trends in stem cells field based on subject heading weighting

Xin Ying An <a class="envelope" href="mailto:an.xinying@imicams.ac.cn" title="an.xinying@imicams.ac.cn"><img border=0 src="http://118.145.16.217/magsci/images/envelope.png" alt="an.xinying@imicams.ac.cn"/></a>(1),Qing Qiang Wu <a class="envelope" href="mailto:wuqq@xmu.edu.cn" title="wuqq@xmu.edu.cn"><img border=0 src="http://118.145.16.217/magsci/images/envelope.png" alt="wuqq@xmu.edu.cn"/></a>(2)

<li>1.Institute of Medical Information, Chinese Academy of Medical Sciences, No. 3 Yabao Road, Chaoyang District, Beijing, 100020, People’s Republic of China</li><li>2.School of Software, Xiamen University, Xiamen, Fujian, 361005, People’s Republic of China</li>

Abstract In this paper, co-word analysis is used to analyze the evolvement in stem cell field. Articles in the stem cell journals are downloaded from PubMed for analysis. Terms selection is one of the most important steps in co-word analysis, so the useless and the general subject headings are removed firstly, and then the major subject headings and minor subject headings are weighted respectively. Then, improved information entropy is exploited to select the subject headings with the experts consulting. Hierarchical cluster analysis is used to cluster the subject headings and the strategic diagram is formed to analyze the evolutionary trends in the stem cell field.

2011

0.0

2008

0.0

... 1 分词技术中文分词技术是将没有分割标志的汉字串即没有词的边界的汉字串转换成符合语言实际的词串即在书面汉语中建立词的边界[<xref ref-type="bibr" rid="R18">18</xref>] ...

... 现有的分词算法可大致分为以下几类:基于词典的分词方法、基于理解的分词方法、基于语义的分词方法和基于统计的分词方法[<xref ref-type="bibr" rid="R18">18</xref>]、基于字序列标注的分词方法[<xref ref-type="bibr" rid="R20">20</xref>] ...

2011

0.0

1.193

Lib Inf Serv. 2011, (2):41 - 45

Review of Chinese Automatic Word Segmentation

国内中文自动分词技术研究综述

FengGuohe[1];ZhenWei[2]

奉国和[1];郑伟[2]

认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点.全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点.

... 该技术是中文信息处理中的关键技术,被广泛应用于文本分类、信息检索、信息过滤、文献自动标引、摘要自动生成等领域[<xref ref-type="bibr" rid="R19">19</xref>] ...

2011

0.0

1.073

New Technol Lib Inf Ser. 2011, 27(12):39 - 45

Research on Chinese Keywords Extraction Based on Characters Sequence Annotation

基于字序列标注的中文关键词抽取研究

Wang Hao, Deng Sanhong, Su Xinning

王昊, 邓三鸿, 苏新宁

Department of Information Management, Nanjing University, Nanjing 210093, China

Based on the whole Chinese booklist of a certain university library as well as the analysis of its book indexing information, the paper summarizes the features and extracting laws of Chinese keywords, and establishes a Chinese keywords extraction model based on characters sequence annotation, which proposes the basic idea and implementation scheme for extracting keywords. It verifies the feasibility, rationality and practicality of the model by large-scale experiments, and basically solves the problems of Chinese keywords extraction without executing words segmentation, which shows that characters sequence annotation is better than words sequence annotation.

以某大学图书馆的所有馆藏书目为研究对象,在对图书关键词标引信息进行分析的基础上,总结中文关键词的基本特点及其抽取规律,构建一个基于字序列标注的中文关键词抽取模型,提出中文关键词抽取的基础思路和实现方案,并通过实验论证模型的合理性、正确性和实用性,认为字序列标注方法优于词序列标注,基本上可以解决不分词情况下的中文关键词抽取问题。

2008

0.0

... 2 领域本体本体是一个哲学上的概念,是指对世界上客观事物所进行的系统描述[<xref ref-type="bibr" rid="R21">21</xref>] ...

1993

0.0

... 目前最被认可的关于本体的定义是1993年由Gruber[<xref ref-type="bibr" rid="R22">22</xref>]给出的,即本体是概念模型的明确的规范说明 ...

2006

0.0

2.181

J Softw. 2006, (9):1837 - 1847

A Survey on Ontology Learning Research

本体学习研究综述

DUXiao-Yong[1];LIMan[2];WANGShan[1]

杜小勇[1];李曼[2];王珊[1]

近年来,本体学习技术逐渐成为计算机科学领域的一个研究热点.根据数据源的结构化程度(结构化、半结构化、非结构化)以及本体学习对象的层次(概念、关系、公理),将本体学习问题划分为9类子问题.分别阐述了这9类问题的基本特征、常用的方法和最新的研究进展,并在此分析框架下进一步介绍和比较了现有的本体学习工具.最后,讨论了存在的问题,指出了未来的研究方向.

... 一般而言,领域本体是用来描述某个领域被大家共同认可的、明确的、唯一的概念及其概念间关系[<xref ref-type="bibr" rid="R23">23</xref>] ...

2010

0.0

1.1348

J Chin Soc Sci Tech Inf. 2010, (1):9 - 15

Study on Method of the Global Web Intelligent Search Based on Domain Ontology

基于领域本体实现全网信息的智能搜索方法研究

<name MTML-type="CN">(朱恒民)</e>,<name MTML-type="CN">(马静)</e>,<name MTML-type="CN">(黄卫东)</e>,等.<article-title MTML-type="CN">(基于领域本体实现全网信息的智能搜索方法研究)</e>[J]. <source MTML-type="CN">(情报学报)</e>,<year>2010</year>,<volumn>29</volumn>（<issue>1</issue>）:<fpage>9</fpage>-<lpage>15</lpage>.（<name>Zhu Hengmin</name>, <name>Ma Jing</name>, <name>Huang Weidong</name>, et al. <article-title>Study on Method of the Global Web Intelligent Search Based on Domain Ontology</article-title>[J]. <source>Journal of the China Society for Scientific and Technical Information</source>, <year>2010</year>,<volumn>29</volumn>（<issue>1</issue>）:<fpage>9</fpage>-<lpage>15</lpage>.）

朱恒民[1];马静[2];黄卫东[1];樊黄稀[1]

为了克服基于关键词匹配的传统搜索引擎不能有效处理复杂语义的问题,提出了一种基于领域本体实现面向整个网络空间的信息智能搜索方法.首先研究了支持网络信息搜索的领域本体结构和表示方法;重点研究了基于领域本体对用户的检索关键词进行语义处理技术,并且设计了一个算法提高语义推理效率;探究了自动调用搜索引擎,按照语义处理后的检索表达式完成全网信息搜索的方法.实验证明,本方法在略有提高查准率的同时,显著提高了网络信息搜索的查全率.

... 其中概念是领域内具有公认语义本质的词语,概念间关系是用于实现对领域内各语义的表达[<xref ref-type="bibr" rid="R24">24</xref>],主要有5类: ...

... (3)实例关系(Instance-of):表示概念之间有实例与类的关系[<xref ref-type="bibr" rid="R24">24</xref>] ...

... (5)属性关系(Attribute-of):表示一个概念是另一个概念的属性[<xref ref-type="bibr" rid="R24">24</xref>] ...