一种基于维基百科的多策略词义消歧方法

引用本文

任海英, 于立婷. .一种基于维基百科的多策略词义消歧方法[J]. 现代图书情报技术, 2015,31(11): 18-25
Ren Haiying, Yu Liting. .A Multi-strategy Method for Word Sense Disambiguation Based on Wikipedia. New Technology of Library and Information Service,2015,31(11): 18-25 复制到剪切板

Permissions

《现代图书情报技术》编辑部

一种基于维基百科的多策略词义消歧方法

任海英, 于立婷

北京工业大学经济与管理学院北京 100124

于立婷, ORCID: 0000-0003-1555-9846, E-mail: yuliting@emails.bjut.edu.cn。

基金:*本文系北京市自然科学基金预探索项目“发明过程和机理的概念地图表示研究”(项目编号:9153020)和2015年度北京市教委社会科学计划面上项目“一种基于概念地图的发明过程机理的描述方法”(项目编号:SM201510005001)的研究成果之一

摘要

目的提出一种基于维基百科的多策略词义消歧方法, 充分利用维基百科中的潜在知识进行消歧。方法设计类别一致性、内容相关性以及词义重要程度三个指标, 并通过动态熵权线性融合各指标值以及二次消歧的方法来确定歧义词在特定语境的最佳词义。结果通过实验, 该方法取得了74.82%的准确率, 可以验证其有效性。【局限】候选词义粒度较细, 且主要针对英文进行消歧, 对其他语言缺少一定的普适性。结论维基百科为消歧提供更多的语义知识和背景信息, 能够提高消歧准确率。

关键词: 词义消歧; 维基百科; 相关度; 熵权; 二次消歧

中图分类号:TP391 G35

A Multi-strategy Method for Word Sense Disambiguation Based on Wikipedia

Ren Haiying, Yu Liting

School of Economics and Management, Beijing University of Technology, Beijing 100124, China

Abstract

[Objective] This paper proposes a multi-strategy method for Word Sense Disambiguation (WSD) based on Wikipedia which makes full use of the latent knowledge in Wikipedia. [Methods] Design three indicators including category commonness, content relatedness and the importance of the word sense, make an entropy-based dynamic linear fusion of these three indicators, combined with re-disambiguation to choose the best sense of an ambiguous term in its context. [Results] Experimental result shows an average precision of 74.82%, therefore validating the feasibility and effectiveness of this method. [Limitations] The proposed method mainly aims at WSD in English with a setting of fine grained candidate senses, lacking certain generality to other languages. [Conclusions] This method provides more semantic knowledge and background information based on Wikipedia which enhance the precision of disambiguation tasks.

Keyword: Word; sense; disambiguation; Wikipedia; Relatedness; Entropy; coefficient; Re-disambiguation

Show Figures

1 引言

词义消歧就是在给定上下文基础上为歧义词选择最佳词义^[1]。自动或半自动的词义消歧是计算机自然语言处理领域研究的重要组成部分, 在信息检索、机器翻译、信息抽取等诸多方面都有着非常重要的应用。目前, 比较有代表性的消歧方法有数据驱动的方法^[2]和基于知识的方法^{[3, 4]}两大类。数据驱动的方法将消歧化为一个有监督的学习任务, 其准确性在很大程度上依赖于可获得的词义标注数据集。而基于知识的方法主要依靠从广泛的词汇语义资源中抽取的信息来进行消歧, 这种方法通常受限于有限的词汇和语义信息量, 但与数据驱动的方法相比能利用更为广泛的网络知识资源, 更具发展前景。

基于知识的方法的消歧效果取决于所获取的相关知识的丰富程度。维基百科作为一个可靠的知识源, 其类别体系和各种链接方式在文档内容之间建立了丰富的语义关系。与知网、WordNet等传统资源相比, 其覆盖范围更广、知识更全面、内容更新更快, 为消歧工作提供了更丰富的背景知识^[5], 这使得维基百科成为词义消歧的有力的研究工具。Mihalcea^[6]通过抽取维基百科文档页面中的锚文本信息建立起词义标注集, 之后通过有监督的方法进行消歧, 并且在Senseval-2和Senseval-3测试集中进行测试, 获得 84.65%的准确率; 然而这种有监督的消歧方法在一定程度上会受到标注集质量的限制。Fogarolli^[7]通过维基百科链接结构进行无监督词义消歧并对其进行评估。史天艺等^[8]计算了歧义词所在文档与各候选词义解释文档之间的相似度、歧义词与候选词义在上下文语境以及类别之间的重叠程度, 通过线性加权(也称为指标融合)来选取最佳词义。Dandala等^[4]将维基百科作为词义注释来源, 并在4种语言上验证了基于维基百科的词义注释的有效性。Li等^[9]提出一个通用的基于维基百科的词义消歧框架, 并指出一个特定的相关度消歧方法对不同语言歧义词的消歧具有一定的局限性。

上述研究将维基百科用于词义消歧, 验证了维基百科在词义消歧研究中的可行性和有用性, 但目前的研究或者限于有监督的方法, 或者仅利用维基百科链接信息或词的重叠程度进行消歧, 没有充分利用维基百科丰富的语义信息获取更多的消歧知识, 从而影响了消歧质量。此外, 在进行消歧指标融合时通常采用传统模糊综合评判法或样本学习法, 评价过程要么较为主观, 要么依赖于学习样本的质量, 其客观性、科学性与合理性不能全面满足。

在前人研究的基础上, 本文提出了一种基于维基百科的多策略词义消歧方法, 该方法包含类别一致性、内容相关性和词义重要程度三个消歧指标, 通过熵权对指标进行动态模糊综合评价, 并采用二次消歧的方法, 充分利用维基百科中的语义知识和背景信息, 满足了指标评价的客观性、科学性与合理性, 提高了消歧的准确率。

2 消歧方法

本文提出的消歧方法建立在维基百科知识库基础上, 该知识库是一个由页面所组成的超文本文档集合, 主要包含解释页面、重定向页面、超链接、消歧页面及类别等部分^[5]。“ 概念” 是维基百科中最基本的组成单元, 指有具体解释页面的维基文章标题, 本文也将其称为“ 维基概念” , 每个维基概念都对应维基百科中的一个解释页面, 即文章^[10]。本文将消歧任务定义为一个4元组Q=< T, D, S, W> , T为给定的文档, D(T)={d₁, d₂, …, d_n}为T中的歧义词集合, S(d)={s₁, s₂, …, s_m}是歧义词d的候选词义的集合, 该集合从维基百科的消歧页面提取, 每一个候选词义都是一个维基概念。W(T)={W₁, W₂, …, W_k}是文档T中所有无歧义词和歧义词各候选词义所对应的维基概念的集合, 因而有。

该方法重点设计了三个指标: 类别一致性(Category Commonness)、内容相关性(Content Relatedness)以及词义重要程度(Importance of the Word Sense), 通过二次消歧选取S(d)中歧义词d在文档T中的最佳词义s。笔者将此方法称为CCI², 其流程如图1所示, 可以看出, CCI²消歧方法包括4大部分: 文档预处理、上下文确定、消除歧义以及二次消歧。

	Figure Option View Download New Window
	图1 基于维基百科的词义消歧方法流程图

2.1 文档预处理

对需要消岐的文档进行分词和剪枝。在分词阶段, 根据长度优先原则, 抽取文档中的所有关键词, 比如, 对于短语“ Word Sense Disambiguation” , 抽取关键词“ Word Sense Disambiguation” , 而不是两个关键词“ Word Sense” 和“ Disambiguation” 。同时, 去除其中的停用词、无意义频繁词等噪音信息; 将这些抽取的关键词映射到维基概念; 根据映射的结果识别文档中的歧义词。如果一个关键词恰与一篇维基百科文章相关联, 称其为无歧义词。对于那些映射到多篇维基百科文章的关键词, 则定义为歧义词^[9]。

2.2 上下文确定

歧义词所在上下文的确定, 对消歧效果的好坏有重要影响。上下文的确定是在歧义词前后一定窗口(范围)内进行, 窗口过大会引入更多的噪声, 降低消歧的准确性。本文将窗口大小限定在歧义词所在的句子以及它的前一句和后一句, 将这三个句子中的无歧义词确定为歧义词所在上下文C(C∈ T)。

然而, 无歧义词所带来消歧信息可能有局限, 例如, 选定的上下文中只包含少量的无歧义词或无歧义词无法为消歧提供更多有价值的信息。CCI²的二次消歧将第一轮中消歧效果好的歧义词加入到上下文中, 为消歧效果差的歧义词增加更多的消歧信息。

2.3 消除歧义

每个词语都与其所在的上下文有深层次的语义关系, 正如语言学家Firth^[11]所言: “ 观其伴而知其义” (You shall know a word by the company it keeps)。因此, 歧义词的最佳词义与其所在上下文一定存在较高的相关度。同时, 当多个候选词义具有类似的相关度时, 其中最重要(即最常用)的词义往往最为合适。CCI²综合了这两方面的指标。

相关度是指两个词语之间的相互关联程度, 一般是一个[0, 1]区间的实数^[12], 代表了概念对另一个概念的解释能力^[13]。歧义词某一候选词义与上下文的相关度等于该候选词义与上下文各词语相关度的平均值^[14]。本文在计算歧义词与其所在上下文的相关度时, 分别从类别一致性和内容相关性两方面考虑。借助于维基百科背景知识, 计算各候选词义的重要程度, 为最佳词义的选择提供进一步的消歧指标, 以获得更好的消歧效果。采用熵权法将上述三个指标进行动态线性融合, 选择具有最大融合值的候选词义作为歧义词在第一轮消歧过程中的最佳词义。

(1) 类别一致性

在维基百科中, 所有文章都有多个所属类别, 而一个类别也可能拥有多个父类别或子类别, 这使得维基百科的类别体系是一个比树状结构更加复杂、包含语义关系更加丰富的图型结构^[10]。

歧义词各候选词义与其所在上下文在类别上的差异能够为消歧提供一定的语义线索, 可将这一线索作为消歧的指标之一。然而, 在维基百科的类别体系中, 通常会有多条路径将一个节点和另一个节点连通, 因此, 本文对文献[12]的基于树型类别体系的相关度算法进行扩展, 使之适用于维基百科的图型类别体系, 并以此计算词语之间的类别一致性。

文献[12]的相关度算法根据两个概念之间的最小公共父节点来计算, 公式如下:

其中, W₁, W₂表示需要进行相关度计算的两个概念; L指两概念在层次体系中的路径长度; a是一个可调节参数(本文取a=0.35)。后文将公式(1)简称为Sim_L。

由于维基百科类别体系的特点, 传统的Sim_L算法将忽略许多非最小公共父节点所提供的语义知识, 本文对每个具有公共父节点的路径都采用Sim_L算法进行相关度计算, 通过加权融合得到两个词语的类别一致性指标值。

将需要进行类别一致性计算的词语映射到维基概念。在维基百科的类别体系中找到连接这两个概念的所有独立路径, 这里的独立路径是指该路径的最小公共父节点与其他连接这两个概念的路径的最小公共父节点之间不存在父子关系。根据最小公共父节点在维基百科类别体系中的深度对所有独立路径相关度计算结果进行加权, 从而得到歧义词某一候选词义与上下文中单个词语的类别一致性指标值。

笔者在公式(1)基础上进行改进, 用以计算类别一致性:

Rel_Cat(s, W)指根据维基百科多路径方法计算得到的候选词义s与上下文中单个词语W的类别一致性; p_k表示根据深度计算得到的第k条路径的权值; Sim_LK(s, W)指在第k条路径根据公式(1)计算出的s与W在类别上的相关度。

由公式(2)得到的只是歧义词某一候选词义与上下文中单个词语的类别一致性值, 要得到该候选词义与上下文的类别一致性, 还需计算该候选词义与上下文各词语类别一致性的平均值, 公式如下^[14]:

Rel_Cat(s, C)=avg(Rel_Cat(s, W_i)) (3)

Rel_Cat(s, C)指歧义词某一候选词义s与该歧义词所在上下文C的类别一致性; W_i为上下文C中的词语。

(2) 内容相关性

仅仅有类别上的差异通常不足以判断一个歧义词的准确含义, 内容的相关性能够提供更多的消歧信息, 从而有助于提高消歧的准确性。

由于每一个维基概念指向一篇维基百科文章, 因此词语或短语之间的相关度计算可转换为与该词语或短语相关联维基百科文章之间的相关度计算问题^[15]。

在维基百科中, 页面与页面之间的联系通过文章中所包含的超链接来实现, 超链接体现了概念之间一定的语义关系。本文的内容相关性是基于歧义词各候选词义所对应的维基百科解释页面和歧义词所在上下文词语所对应的解释页面中的链接信息, 通过相关度计算得到的。为减少计算成本并获得较高的计算准确性, 借鉴WLM(Wikipedia Link-based Measure)算法来计算歧义词各候选词义与其所在上下文的内容相关性。

WLM算法充分利用维基概念所对应文章中的链入链接和链出链接计算词语的相关度, 考虑到计算的效率以及对最终相关度结果的影响程度, 主要参考针对链入链接的相关度计算, 其公式如下^[16]:

其中, a, b分别表示进行相关度计算的两概念所对应的维基百科文章, A和B分别是链入页面a和b的所有维基百科文章的集合, W₀是全部维基百科文章的集合。公式(4)源于标准化的谷歌距离^[17], 其值越小则相关度越高。

然而, WLM算法没有考虑双向链接这种特殊情况, 也就是一个概念解释页面a中有直接链接到另一个概念的链接, 而在另一个概念的解释页面b中, 也有直接链向a页面的链接, 这种链接称为双向链接^[13]。如: “ Operating System” 和“ Microsoft Windows” , 在这两个概念的解释页面中, 分别有链向对方的链接, 在这样链接下的两个概念往往有非常密切的语义关系。

考虑到双向链接的重要性及其对相关度的影响, 笔者在公式(4)的基础上进行如下改进:

其中, Rel(W_a, W_b)表示根据维基百科文章中的链接计算得到的两个概念W_a和W_b的内容相关性; a, b分别表示两个概念映射到的维基百科解释页面; [1-relatedness(a, b)]是采用WLM算法计算出的相关度, 其值越大, 两概念的相关度越高; 指根据页面a, b中的双向链接计算得到的相关度; n_a表示页面b中直接指向页面a的链接数; n_b表示页面a中直接指向页面b的链接数; M_a, M_b分别表示页面a和b中含有的总链接数; λ 是赋予相关度的经验权重, 这里取值为0.3。若不存在双向链接, 则令λ =1。

由于候选词义与歧义词所在上下文词语都可以映射到维基概念, 因此将公式(5)中的W_a和W_b分别用歧义词某一候选词义与上下文中单个词语所对应的维基概念s和W来替换便可得到候选词义与上下文单个词语的内容相关性, 即Rel_Con(s, W)。然而, 要得到候选词义与上下文的内容相关性还需进行如下计算^[14]:

Rel_Con(s, C)=avg(Rel_Con(s, W_i)) (6)

Rel_Con(s, C)指歧义词某一候选词义s与该歧义词所在上下文C的内容相关性; W_i为上下文C中的词语。

(3) 词义重要程度

为充分利用维基百科中的背景信息, 本文通过歧义词各候选词义的使用频度来衡量该词义在维基百科知识库中的重要性, 使用频度越高, 则表明该词义越重要, 反之则表明该词义的重要性越差。如果一个歧义词在类别和内容上都难以区分某些候选词义, 这时, 词义的重要程度将在一定程度上为消歧提供指导。借鉴逆文档频率(IDF)^[18]的思想, 笔者提出以下公式, 用于衡量一个词义的重要程度:

其中, Fres(s)表示候选词义s的使用频度(Frequency of Use); m_s表示链接到候选词义s解释页面的维基概念数; n_c表示维基百科中的维基概念总数。

(4) 消歧指标的动态线性融合

由于上述三个消歧指标对于不同歧义词在不同语境中的重要程度可能有差异, 采用固定权重进行线性融合的方法有时不能充分反映某些指标的重要程度, 在一定程度上会降低消歧的准确性。因此, 本文通过熵权对三个消歧指标进行动态模糊综合评价, 用不同候选词义在消歧指标下的差异程度来计算熵权, 不同歧义词、不同语境在消歧指标权重的赋值上是不完全相同的, 这样的赋权方法更具有客观性、科学性与合理性。熵权计算步骤^[19]如下:

1数据的收集与整理。将候选词义与消歧指标写成决策矩阵V=(v_ij)_nm, v_ij表示在有m个候选词义、n个消歧指标(本文中n=3)的决策矩阵中, 在第i个候选词义下的第j个指标的值。

2数据标准化处理。对矩阵V中的元素进行标准化处理, 以消除因量纲不同对评选结果造成的影响, 从而得到标准化后的矩阵R=(r_ij)_nm。

3计算指标信息熵值e。其中第j项指标的信息熵值计算公式如下:

④计算消歧指标的权重。利用熵值法计算各指标权重其实质是该指标的信息价值系数, 价值系数越高, 对消歧的重要性就越大。计算公式如下。

通过计算得到的权重对消歧指标进行线性融合, 计算公式如下:

Rel_Com(s)=w₁× Rel_Con(s, C)+w₂× Rel_Cat(s, C)+w₃× Fre(s) (10)

其中, Rel_Con(s, C)表示根据扩充的基于维基百科链接结构的WLM算法计算得到的候选词义s在上下文C中的内容相关性(公式(6)), Rel_Cat(s, C)表示根据维基百科类别体系计算得到的候选词义s在上下文C中的类别一致性(公式(3)), Fre(s)是该候选词义的使用频度(公式(7)); Rel_Com(s)是对以上计算结果的动态线性融合值, w₁, w₂, w₃(w₁+w₂+w₃=1)通过熵权法计算得到。

2.4 二次消歧

第一轮消歧通过考虑类别信息、内容和背景信息并动态融合各消歧指标, 选取具有最高融合值的候选词义作为该轮的最佳词义。对于无歧义词所带来的消歧信息的局限性, 本文通过二次消歧(也就是第二轮消歧)来解决这一问题, 二次消歧实质是第一轮消歧的一次迭代过程。

通过以下信度公式^[9]来衡量第一轮对每个歧义词消歧的质量, 也就是消歧结果的可信性:

其中, s₀和s₁分别指某一歧义词具有最高和次高融合值的两候选词义, Rel_Com0(s₀)与Rel_Com1(s₁)分别指这两个候选词义所对应的融合值。消歧信度Cfd(s₀, C)是s₀和s₁这两个候选词义的相对偏差, 而且取值在[0, 1]范围内。

非常低的信度表明该词义是在两个相关度非常相近的候选词义中随机选择的, 其消歧的准确性较差, 说明第一轮消歧所使用的上下文对该歧义词没有提供充足的、有识别力的信息^[9]。因此, 有必要将第一轮的被消歧词通过一个预定的阈值ζ (通过实验, 本文设定ζ =0.03)分为高信度被消歧词和低信度被消歧词。超过ζ 的被消歧词具有高信度, 反之则具有低信度, 前者可以为后者提供更多的有用信息。

因此, 二次消歧阶段将高信度被消歧词添加到低信度被消歧词的上下文(更新的上下文记为C’ )。根据更新的上下文按照第一轮的计算过程重新计算低信度被消歧词三个指标值, 并通过线性融合重新得到融合值Rel_Com(s), 选择融合值最大的候选词义作为该歧义词的最佳词义, 从而完成消歧。

3 数据实验

3.1 维基数据

为了验证上述算法的有效性, 本文使用2014年9月3日发布的维基百科数据构建维基百科知识库^[20]。下载的数据如表1所示:

表1 下载的维基百科数据信息

通过解析和噪音处理后得到的维基百科知识库中数据如表2所示:

表2 维基百科知识库

3.2 测试数据及结果

随机选取维基百科一篇文章中的一部分内容, 如图2所示, 对歧义词tree(“ “ 标记)采用CCI²进行消歧。首先, 通过预处理识别歧义词, 并选取上下文中有意义的无歧义词作为消歧单词tree的上下文语境(“ ” 标记), 其中包括Depth-first search (DFS), algorithm, data structures, backtracking。

	Figure Option View Download New Window
	图2 待消歧的Wikipedia文章片段

对歧义词tree进行消歧指标计算, 表3详细给出了歧义词tree去除相关性较小(三个指标值分别小于各指标均值的候选词义)的候选词义后, 其余各候选词义与上下文的类别一致性、内容相关性和词义使用频度。

表3 歧义词tree各指标值

通过熵权法对三个指标值进行线性融合, 得到各候选词义融合值如表4所示:

表4 歧义词tree各候选词义融合值

由表4可以看出, 候选词义Tree (data structure)具有较高的融合值, 且消歧信度超过预定义的阈值, 可选定为最佳词义。

为进一步验证CCI²消歧方法的有效性, 再次随机选取维基百科中的5篇文章以及《纽约时报》中的5篇文章, 其中包含138个名词歧义词(同一歧义词出现多次记为一次), 共1 510个候选词义, 选取的文章中涉及到其中的147个候选词义, 每个候选词义平均出现约3次。使用本文方法对这些名词歧义词进行消歧, 以准确率P(Precision)作为衡量指标, 并与随机词义选择法(Random Sense)、最常用词义(Most Frequent Sense, MFS)方法以及本文中第一轮消歧方法(用CCI表示)进行对比, 结果如表5所示:

表5 各消歧方法的准确率

其中, N_R表示测试数据中正确消歧的名词歧义词数量; N表示测试数据中进行消歧的名词歧义词总数。

可以看出, 使用CCI²进行消歧的准确率达到74.82%, 高出MFS方法14.56%, 并且比单轮消歧的效果更好, 这表明本文所提出的消歧方法的有效性, 且在一定程度上提高了消歧的准确率。

4 结语

本文提出了一种基于维基百科的多策略的词义消歧方法, 充分利用维基百科中的类别、链接和背景信息, 计算歧义词与其所在上下文的类别一致性、内容相关性以及词义重要程度三个消歧指标; 为提高指标评价的客观性、科学性与合理性, 采用熵权对其进行动态线性融合, 选择融合值最大的候选词义作为第一轮最佳词义, 之后通过消歧信度评估, 将高信度被消歧词添加到上下文中对低信度被消歧词进行二次消歧, 从而达到较好的整体消歧效果。

本文方法仍有一些不足之处需要改进。对于消歧而言, 候选词义粒度并不是越细越好, 如果粒度过细, 一个歧义词会有很多候选词义且区分度较小, 这不仅导致计算量过大, 同时影响最佳词义的选择。因此, 合适的候选词义粒度对消歧准确率的提升有着重要的影响。此外, 该方法主要是针对英文进行消歧, 对于其他语言缺乏通用性。

参考文献

View Option

[1]	Bhala R V V, Abirami S. Trends in Word Sense Disambiguation[J]. Artificial Intelligence Review, 2014, 42(2): 159-171. [本文引用:1]
[2]	Pedersen T. A Decision Tree of Bigrams is an Accurate Predictor of Word Sense [C]. In: Proceedings of the 2nd Meeting of the North American Chapter of the Association for Computational Linguistics, Carnegie Mellon University, Pittsburgh, PA, USA. Somerset: Association Computational Linguistics, 2001: 79-86. [本文引用:1]
[3]	Navigli R, Velardi P. Structural Semantic Interconnections: A Knowledge-based Approach to Word Sense Disambiguation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(7): 1075-1086. [本文引用:1]
[4]	Dand ala B, Mihalcea R, Bunescu R. Word Sense Disambiguation Using Wikipedia [A]// The People’s Web Meets NLP: Collaboratively Constructed Language Resources[M]. Springer Berlin Heidelberg, 2013: 241-262. [本文引用:2]
[5]	王兰成, 刘晓亮. 维基百科知网的构建研究与应用进展[J]. 情报资料工作, 2012(5): 56-60. (Wang Lancheng, Liu Xiaoliang. Construction Research and Application Progress of Wikipedia Knowledge Network[J]. Information and Documentation Services, 2012(5): 56-60. ) [本文引用:2]
[6]	Mihalcea R. Using Wikipedia for Automatic Word Sense Disambiguation [C]. In: Proceedings of the Human Language Technologies: The Conference of the North American Chapter of the Association for Computational Linguistics. 2007: 196-203. [本文引用:1]
[7]	Fogarolli A. Word Sense Disambiguation Based on Wikipedia Link Structure [C]. In: Proceedings of the 2009 IEEE International Conference on Semantic Computing (ICSC '09), Berkeley, CA, USA. New York: IEEE, 2009: 77-82. [本文引用:1]
[8]	史天艺, 李明禄. 基于维基百科的自动词义消歧方法[J]. 计算机工程, 2009, 35(18): 62-64, 66. (Shi Tianyi, Li Minglu. Automatic Word Sense Disambiguation Method Based on Wikipedia[J]. Computer Engineering, 2009, 35(18): 62-64, 66. ) [本文引用:1]
[9]	Li C, Sun A, Datta A. TSDW: Two-Stage Word Sense Disambiguation Using Wikipedia[J]. Journal of the American Society for Information Science and Technology, 2013, 64(6): 1203-1223. [本文引用:4]
[10]	汪祥. 基于中文维基百科的语义相关度计算的研究与实现[D]. 长沙: 国防科学技术大学, 2011. (Wang Xiang. Research and Implementation on Computing Semantic Relatedness Using Chinese Wikipedia [D]. Changsha: National University of Defense Technology, 2011. ) [本文引用:2]
[11]	Firth J. A Synopsis of Linguistic Theory 1930 —1955[J]. Special, 1957(5611): 562. [本文引用:1]
[12]	刘群, 李素建. 基于《知网》的词汇语义相似度计算[J]. 中文计算语言学, 2002, 7(2): 59-76. (Liu Qun, Li Sujian. Word Similarity Computing Based on How-net[J]. Computational Linguistics and Chinese Language Processing, 2002, 7(2): 59-76. ) [本文引用:3]
[13]	范云杰, 刘怀亮. 基于维基百科的中文短文本分类研究[J]. 现代图书情报技术, 2012(3): 47-52. (article-title Yunjie, Liu Huailiang. Research on Chinese Short Text Classification Based on Wikipedia[J]. New Technology of Library and Information Service, 2012(3): 47-52. ) [本文引用:2]
[14]	龚永恩, 袁春风, 武港山. 基于语义的词义消歧算法初探[J]. 计算机应用研究, 2006, 23(3): 41-43, 52. (Gong Yongen, Yuan Chunfeng, Wu Gangshan. Word Sense Disambiguation Algorithm Based on Semantic Information[J]. Application Research of Computers, 2006, 23(3): 41-43, 52. ) [本文引用:3]
[15]	涂新辉, 张红春, 周琨峰, 等. 中文维基百科的结构化信息抽取及词语相关度计算方法[J]. 中文信息学报, 2012, 26(3): 109-115. (Tu Xinhui, Zhang Hongchun, Zhou Kunfeng, et al. Extracting Structured Information from Chinese Wiki- pedia and Measuring Relatedness Between Words[J]. Journal of Chinese Information Processing, 2012, 26(3): 109-115. ) [本文引用:1]
[16]	Witten I H, Milne D N. An Effective, Low-cost Measure of Semantic Relatedness Obtained from Wikipedia Links [C]. In: Proceeding of the AAAI Workshop on Wikipedia and Artificial Intelligence: An Evolving Synergy. Chicago: AAAI Press, 2008: 25-30. [本文引用:1]
[17]	Cilibrasi R L, Vitanyi P M B. The Google Similarity Distance[J]. IEEE Transactions on Knowledge and Data Engineering, 2007, 19(3): 370-383. [本文引用:1]
[18]	Zhang W, Yoshida T, Tang X. *A Comparative Study of TFIDF, LSI and Multi-words for Text Classification*[J]. Expert Systems with Applications*, 2011, 38(3): 2758-2765. [本文引用:1]
[19]	于洋, 李一军. 基于多策略评价的绩效指标权重确定方法研究[J]. 系统工程理论与实践, 2003, 23(8): 8-15, 52. (Yu Yang, Li Yijun. Research on Giving Weight for Performance Indicator Based on the Multi-strategy Method[J]. Systems Engineering-Theory & Practice, 2003, 23(8): 8-15, 52. ) [本文引用:1]
[20]	Enwiki Dump Progress [DB/OL]. [2014-09-03]. http://dumps.wikimedia.org/enwiki/. [本文引用:1]

2014

0.0

... 1 引言词义消歧就是在给定上下文基础上为歧义词选择最佳词义^[1] ...

2001

0.0

... 目前, 比较有代表性的消歧方法有数据驱动的方法^[2]和基于知识的方法^[3,4]两大类 ...

2005

0.0

... 目前, 比较有代表性的消歧方法有数据驱动的方法^[2]和基于知识的方法^[3,4]两大类 ...

2013

0.0

... 目前, 比较有代表性的消歧方法有数据驱动的方法^[2]和基于知识的方法^[3,4]两大类 ...

... Dandala等^[4]将维基百科作为词义注释来源, 并在4种语言上验证了基于维基百科的词义注释的有效性 ...

0.0

. , 2012(5):56-60 DOI:doi:10.3969/j.issn.1002-0314.2012.05.010

Construction Research and Application Progress of Wikipedia Knowledge Network

维基百科知网的构建研究与应用进展

Wang Lancheng , Liu Xiaoliang.

王兰成, 刘晓亮

The documents, directories, hyperlinks, redirection and disambiguation and other basic elements of the Wikipedia structural relationship characteristics are researched. The information retrieval, text classification, text clustering, disambiguation, query expansion, information extraction and ontology construction and other information processing tasks are supposed. The semantic knowledge mining on Wikipedia is researched. It is to provide reference for the current knowledge service system building.

文章分析维基百科中的文档、目录、超链接、重定向以及消歧义等基本元素与结构关系特点，围绕维基百科在信息检索、文本分类、文本聚类、歧义消解、查询扩展与信息抽取以及本体构建等信息处理任务中的典型解决方法与相关项目，综述和评析基于维基百科的语义知识挖掘的研究与应用方法，从整体上把握基于维基百科的知识挖掘研究现状与进展，为当前知识服务系统建设提供借鉴。

... 与知网、WordNet等传统资源相比, 其覆盖范围更广、知识更全面、内容更新更快, 为消歧工作提供了更丰富的背景知识^[5], 这使得维基百科成为词义消歧的有力的研究工具 ...

... 2 消歧方法本文提出的消歧方法建立在维基百科知识库基础上, 该知识库是一个由页面所组成的超文本文档集合, 主要包含解释页面、重定向页面、超链接、消歧页面及类别等部分^[5] ...

2007

0.0

... Mihalcea^[6]通过抽取维基百科文档页面中的锚文本信息建立起词义标注集,之后通过有监督的方法进行消歧,并且在Senseval-2和Senseval-3测试集中进行测试, 获得 84 ...

2009

0.0

... Fogarolli^[7]通过维基百科链接结构进行无监督词义消歧并对其进行评估 ...

2009

0.0

. 2009, 35(18):62-64, 66 DOI:doi:10.3969/j.issn.1000-3428.2009.18.022

Automatic Word Sense Disambiguation Method Based on Wikipedia

基于维基百科的自动词义消歧方法

Shi Tianyi , Li Minglu.

史天艺, 李明禄

Most traditional Word Sense Disambiguation(WSD) method is just based on contextual information, often results in inaccurate output. A multi-level unsupervised automatic WSD method which works efficiently is promoted. This method utilizes the rich semantic information extracted from online Wikipedia, makes a linear fusion of contextual information, background knowledge and semantic information, uses logistic regression algorithm to learn the weight of each feature, and selects the one with the maximum combined value as correct meaning. Experimental result on SENSEVAL dataset shows an average precision of 85.50%, therefore validates the feasibility and effectiveness of this method.

针对传统词义消歧仅基于上下文语境而导致准确率低的问题，提出一种多策略的无监督自动词义消歧方法。利用从维基百科在线中提炼出的丰富语义知识，线性融合上下文语境、背景知识和语义信息3大特征，根据逻辑回归算法学习各特征的权重，选取最大融合值所对应的候选项作为最优词义。在SENSEVAL数据集上取得了85.50%的平均准确率，验证了该方法的有效性。

... 史天艺等^[8]计算了歧义词所在文档与各候选词义解释文档之间的相似度、歧义词与候选词义在上下文语境以及类别之间的重叠程度, 通过线性加权(也称为指标融合)来选取最佳词义 ...

2013

0.0

... Li等^[9]提出一个通用的基于维基百科的词义消歧框架, 并指出一个特定的相关度消歧方法对不同语言歧义词的消歧具有一定的局限性 ...

... 对于那些映射到多篇维基百科文章的关键词, 则定义为歧义词^[9] ...

... 通过以下信度公式^[9]来衡量第一轮对每个歧义词消歧的质量, 也就是消歧结果的可信性: ...

... 非常低的信度表明该词义是在两个相关度非常相近的候选词义中随机选择的, 其消歧的准确性较差, 说明第一轮消歧所使用的上下文对该歧义词没有提供充足的、有识别力的信息^[9] ...

2011

0.0

. 2011, :- DOI:doi:10.7666/d.d202001

Research and Implementation on Computing Semantic Relatedness Using Chinese Wikipedia

基于中文维基百科的语义相关度计算的研究与实现

Wang Xiang.

汪祥

语义相关度计算是自然语言处理领域的重要研究方向,是信息检索、文本分类、词义消歧、基于实例的机器翻译等多种自然语言处理技术的重要基础。由于中文本身的特点和其他原因,中文语义相关度计算的研究要落后于英文。为了促进中文自然语言处理技术的发展,研究中文语义相关度计算技术具有重要的理论意义和现实意义。本文主要研究了基于维基百科分类体系和链接结构进行语义相关度计算的算法。首先,本文介绍了语义相关度计算的研究背景与相关研究方法,以对本领域有详尽的了解。其次,本文将基于WordNet等树状分类体系的语义相关度计算算法运用到了中文维基百科上,随后依据维基百科的分类体系是有向无环图而不是树的特点提出了基于分类体系的多路径语义相关度算法。再次,本文将WLM(Wikipedia Link-based Measure)算法应用到中文维基百科上,提出了结合维基百科分类体系和链接结构的WLT(Wikipedia Links and Taxonomy based measure)算法,随后本文将基于分类体系的算法与WLM算法和WLT算法结合起来,实验结果显示基于维基百科分类体系和链接结构进行语义相关度计算比单独基于其中一种的算法更好。最后,将本文提出的基于维基百科的语义相关度算法运用到了YHPODS系统中:一是话题关键词的定制,二是基于语义的分类。此外,本文为了测试语义相关度算法的准确度,构造了人工评测的测试集Words-240,并将其公开发布。由于维基百科数据量大,为了提高算法运行效率, 本文采用了优化数据库库表、建立数据库连接池和设置内存、文件缓存等措施对算法进行优化,使得算法的运行效率提高了数十倍。

... , 每个维基概念都对应维基百科中的一个解释页面, 即文章^[10] ...

... 在维基百科中, 所有文章都有多个所属类别, 而一个类别也可能拥有多个父类别或子类别, 这使得维基百科的类别体系是一个比树状结构更加复杂、包含语义关系更加丰富的图型结构^[10] ...

1957

0.0

... 3 消除歧义每个词语都与其所在的上下文有深层次的语义关系, 正如语言学家Firth^[11]所言: #cod#x0201c ...

2002

0.0

. 2002, 7(2):59-76

基于《知网》的词汇语义相似度计算

Liu Qun , Li Sujian.

刘群, 李素建

... 相关度是指两个词语之间的相互关联程度, 一般是一个[0, 1]区间的实数^[12], 代表了概念对另一个概念的解释能力^[13] ...

... 然而, 在维基百科的类别体系中, 通常会有多条路径将一个节点和另一个节点连通, 因此, 本文对文献[12]的基于树型类别体系的相关度算法进行扩展, 使之适用于维基百科的图型类别体系, 并以此计算词语之间的类别一致性 ...

... 文献[12]的相关度算法根据两个概念之间的最小公共父节点来计算, 公式如下: ...

0.0

. , 2012(3):47-52 DOI:doi:10.7666/d.D364567

Research on Chinese Short Text Classification Based on Wikipedia

基于维基百科的中文短文本分类研究

article-title Yunjie , Liu Huailiang.

范云杰, 刘怀亮

随着互联网的高速发展，快速准确地对文本进行分类作为信息处理的一个重要环节，受到了人们的高度重视。文本分类处理大多是针对长文本进行的，但短文本在现实世界中也是大量存在的，并呈现出爆炸式的增长趋势。短文本一般指160 字以内的文本，其稀疏性、实时性、海量性、不规范性的特点，使传统的分类模型对短文分类缺乏一定的适用性。目前，引入外部知识来扩展短文本特征是较为热点的研究方向，如何有效地获得丰富的语义知识资源，并构建与之相适的短文本分类模型，成为当前的短文本研究的一个重要课题。针对上述问题并参考现有研究成果，本文引入特... 展开随着互联网的高速发展，快速准确地对文本进行分类作为信息处理的一个重要环节，受到了人们的高度重视。文本分类处理大多是针对长文本进行的，但短文本在现实世界中也是大量存在的，并呈现出爆炸式的增长趋势。短文本一般指160 字以内的文本，其稀疏性、实时性、海量性、不规范性的特点，使传统的分类模型对短文分类缺乏一定的适用性。目前，引入外部知识来扩展短文本特征是较为热点的研究方向，如何有效地获得丰富的语义知识资源，并构建与之相适的短文本分类模型，成为当前的短文本研究的一个重要课题。针对上述问题并参考现有研究成果，本文引入特征扩展思想，将维基百科作为外部知识库，构建特征扩展词表对短文本特征进行扩充，在传统分类模型的基础上，提出了基于维基百科的中文短文本分类模型。本文首先在研究中文短文本特点和传统文本分类模型的基础上，指出了传统分类模型在进行短文本分类时面临的缺陷，探讨了外部知识库维基百科运用于短文本分类的优势；其次，对维基百科知识库进行语义信息挖掘，在分析维基百科语义结构的基础上构建了基于维基百科的特征扩展词表，详细研究了相关概念获取方法、概念间相关度计算方法及相关概念集合的建立过程，并运用JWPL工具对维基百科数据进行了结构化处理；再次，对传统分类模型从短文本预处理、文本表示等步骤进行改进，将短文本表示为概念向量，依照维基百科特征扩展词表对向量空间的概念进行了扩充，并运用支持向量机算法构建分类器。最后采用ICTCLAS 和 LIBSVM 搭建文本分类平台，将本文提出的基于维基百科的短文本分类方法和传统的分类方法进行对比，实验结果表明本文所提出的方法较传统方法更适合短文本分类，取得了更好的分类效果。收起

... 相关度是指两个词语之间的相互关联程度, 一般是一个[0, 1]区间的实数^[12], 代表了概念对另一个概念的解释能力^[13] ...

... 然而, WLM算法没有考虑双向链接这种特殊情况, 也就是一个概念解释页面a中有直接链接到另一个概念的链接, 而在另一个概念的解释页面b中, 也有直接链向a页面的链接, 这种链接称为双向链接^[13] ...

2006

0.0

. 2006, 23(3):41-43,52 DOI:doi:10.3969/j.issn.1001-3695.2006.03.014

Word Sense Disambiguation Algorithm Based on Semantic Information

基于语义的词义消歧算法初探

Gong Yongen , Yuan Chunfeng , Wu Gangshan.

龚永恩, 袁春风, 武港山

词义消歧是自然语言处理中的难题之一.结合 ,从语义的角度出发,结合词性信息、搭配实例和语义相关度等信息,提出了一种多策略的词义消歧方法.

... 歧义词某一候选词义与上下文的相关度等于该候选词义与上下文各词语相关度的平均值^[14] ...

... 由公式(2)得到的只是歧义词某一候选词义与上下文中单个词语的类别一致性值, 要得到该候选词义与上下文的类别一致性, 还需计算该候选词义与上下文各词语类别一致性的平均值, 公式如下^[14]: ...

... 然而, 要得到候选词义与上下文的内容相关性还需进行如下计算^[14]: ...

2012

0.0

. 2012, 26(3):109-115 DOI:doi:10.3969/j.issn.1003-0077.2012.03.019

Extracting Structured Information from Chinese Wiki- pedia and Measuring Relatedness Between Words

中文维基百科的结构化信息抽取及词语相关度计算方法

Tu Xinhui , Zhang Hongchun , Zhou Kunfeng

涂新辉, 张红春, 周琨峰

The Wikipedia is the biggest web-based encyclopedia, which is written collaboratively by volunteers around the world. It has many advantages, such as wide knowledge coverage, highly structuredand rapid information update. However, the Wikipedia official website just provides some original data files, and much structured semantic knowledge cant be used directly. Therefore, in this paper, we firstly extract the structured information from these data files; then, we design the object model for the information in Wikipedia, and provide an open API for Wikipedia information; finally, we propose a novel method to compute relatedness between words. Key wordssemantic relatedness; Chinese Wikipedia; structured information

维基百科作为一个以开放和用户协作编辑为特点的Web 2.0知识库系统,具有知识面覆盖度广,结构化程度高,信息更新速度快等优点。然而,维基百科的官方仅提供一些半结构化的数据文件,很多有用的结构化信息和数据,并不能直接地获取和利用。因此,该文首先从这些数据文件中抽取整理出多种结构化信息;然后,对维基百科中的各种信息建立了对象模型,并提供了一套开放的应用程序接口,大大降低了利用维基百科信息的难度;最后,利用维基百科中获取的信息,该文提出了一种基于链接所对应主题页面所属类别的词语语义相关度计算方法。

... 由于每一个维基概念指向一篇维基百科文章, 因此词语或短语之间的相关度计算可转换为与该词语或短语相关联维基百科文章之间的相关度计算问题^[15] ...

2008

0.0

... WLM算法充分利用维基概念所对应文章中的链入链接和链出链接计算词语的相关度, 考虑到计算的效率以及对最终相关度结果的影响程度, 主要参考针对链入链接的相关度计算, 其公式如下^[16]: ...

2007

0.0

... 公式(4)源于标准化的谷歌距离^[17], 其值越小则相关度越高 ...

2011

0.0

... 借鉴逆文档频率(IDF)^[18]的思想, 笔者提出以下公式, 用于衡量一个词义的重要程度: ...

2003

0.0

. 2003, 23(8):8-15, 52 DOI:doi:10.3321/j.issn:1000-6788.2003.08.002

Research on Giving Weight for Performance Indicator Based on the Multi-strategy Method

基于多策略评价的绩效指标权重确定方法研究

Yu Yang , Li Yijun.

于洋, 李一军

This paper describes the significance of enterprise performance evaluation, the formalization description of enterprise performance evaluation and the treatment method of indicator data are also given. In order to give weight correctly, a new met

论述了企业绩效评价的意义，对企业绩效评价问题进行了形式化描述，对评价过程中的指标数据处理方法进行了探讨。针对评价过程中的权重确定问题，提出一种基于多策略评价的赋权思想，并将多种赋权方法有机地集成在一起，提出用权差异系数来调整主观的赋权并用得到的评价结果作为学习样本，对神经网络进行训练并最终用神经网络进行赋权。最后，给出了一企业经济效益评价问题中的赋权实例。

... 熵权计算步骤^[19]如下: ...

2014

0.0

... 1 维基数据为了验证上述算法的有效性, 本文使用2014年9月3日发布的维基百科数据构建维基百科知识库^[20] ...