基于医学本体的术语相似度算法研究<sup>*</sup>

[an error occurred while processing this directive]

引用本文

范雪雪, 王志荣, 徐晤, 梁银, 马小虎. .基于医学本体的术语相似度算法研究^* [J]. 现代图书情报技术, 2015,31(12): 57-64
Fan Xuexue, Wang Zhirong, Xu Wu, Liang Yin, Ma Xiaohu. .Research on Semantic Similarity Estimation Algorithm of Medical Terminology Based on Medical Ontology. New Technology of Library and Information Service,2015,31(12): 57-64 复制到剪切板

Permissions

《现代图书情报技术》编辑部

基于医学本体的术语相似度算法研究^*

范雪雪¹, 王志荣¹, 徐晤¹, 梁银², 马小虎³

¹(徐州医学院临床学院徐州 221004)

²(江苏师范大学计算机科学与技术学院徐州 221116)

³(苏州大学计算机科学与技术学院苏州 215006)

范雪雪, ORCID: 0000-0002-0450-480X, E-mail: xuexuefx@126.com。

作者贡献声明：范雪雪: 提出研究思路, 设计并实现算法, 撰写论文; 王志荣, 徐晤: 提供实验数据, 进行数据分析; 梁银: 数据分析, 论文修订; 马小虎: 论文修订。

基金:*本文系江苏省现代教育技术研究课题“智能无纸化医学考试系统的开发”(项目编号:19696)和徐州医学院科研课题“基于SNOMED CT的医学术语相似度计算研究”(项目编号:2014KJ31)的研究成果之一

摘要

目的借助大型的医学本体, 提升医学术语相似度计算精度。方法依据SNOMED CT和MeSH两个医学本体的层级结构和语义关系, 提取概念术语的深度、距离等语义参数, 并用概念密度对其加权得到深度系数和距离系数, 构造相似度函数进行术语相似度计算。结果该算法能在两个医学本体中进行术语相似度计算, 较传统算法更加接近人工评分标准。【局限】该方法较为依赖本体结构。结论该方法能够提高以医学本体为基础的术语相似度计算精确度。

关键词: 语义相似度; 医学术语; 医学本体; SNOMED CT; MeSH

中图分类号:TP391 G35

Research on Semantic Similarity Estimation Algorithm of Medical Terminology Based on Medical Ontology

Fan Xuexue¹, Wang Zhirong¹, Xu Wu¹, Liang Yin², Ma Xiaohu³

¹(Clinical Medical School, Xuzhou Medical College, Xuzhou 221004, China)

²(School of Computer Science and Technology, Jiangsu Normal University, Xuzhou 221116, China)

³(School of Computer Science and Technology, Soochow University, Suzhou 215006, China)

Abstract

[Objective] Based on the comprehensive medical Ontologies, this paper proposes a new algorithm to enhance the precision of semantic similarity estimation of medical terminology. [Methods] On the basis of the hierarchy and semantic relationships of concepts of SNOMED CT and MeSH, the semantic parameters such as depth and distance are extracted. Then the depth factor and the distance factor are obtained weighted by the concept density, and the function of semantic similarity is thus established. [Results] The algorithm is applicable to both distinctive medical Ontologies, and the experimental results demonstrate that this algorithm has higher correlation coefficient with manual scoring versus conventional algorithms. [Limitations] This algorithm is subject to hierarchy of Ontologies. [Conclusions] The new algorithm benefits the enhanced precision of semantic similarity estimation of medical terminology.

Keyword: Semantic similarity; Medical terminology; Medical Ontology; SNOMED CT; MeSH

Show Figures

1 引言

词语语义相似度计算是自然语言处理的一项基础性工作, 在信息检索^[1]、词义消歧^{[2, 3]}、机器翻译^[4]、自动问答、信息提取^[5]、文本分类和聚类^{[6, 7]}、语义标注等领域有广泛的应用。在医疗领域, 随着全民电子健康记录和电子病历等信息技术在医疗领域的大规模应用, 提高海量医疗文本资源的检索效率和利用率成为一项重要的研究课题。医疗术语相似度计算对于提高医疗文本资源的检索、聚类和挖掘的效率具有重要意义^{[8, 9]}。在传统的数字图书馆领域, 语义检索还是要借助交互式的术语提示来实现概念之间的检索, 而不考虑概念之间的其他属性关系, 检索结果往往不能满足用户需求^[10]。基于本体的语义相似度计算可以解决这个问题。医学系统命名法-临床术语(Systematized Nomenclature of Medicine-Clinical Terms, SNOMED CT)和医学主题词表(Medical Subject Headings, MeSH)是目前世界上应用最为广泛的医疗领域术语表和主题词表, 它们都拥有庞大的概念术语集和复杂的结构。我国医学界也对这两个本体进行了大量的研究, 但以它们为基础的术语语义相似度计算研究还不够充分, 计算方法往往直接移植自基于通用本体的方法, 缺少针对性, 计算精度不高, 且在不同本体中计算结果差异较大, 无法满足需求。

本文依据本体的结构特征和概念间的语义关系, 将概念的语义距离、语义深度和密度等语义特征进行融合, 提出深度系数和密度系数的概念并采用加权的方法进行计算, 最后构造了新的相似度计算函数。在实验阶段, 以Pedersen和Hiaoutakis两种评估标准进行测试, 结果表明本文提出的算法与传统算法相比和人工评分有更高的相关系数, 且在两本体中的计算结果接近, 能够在一定程度上弥补本体未收录术语问题。

2 相关研究

词语语义相似度(Semantic Similarity)是指词语在分类上的相似程度, 在本体中一般表现为具有上下义关系。比如心脏病和心肌梗死。此外, 词语之间还存在着其他更为广泛的关系, 叫做词语语义相关度(Semantic Relatedness)。如硝酸甘油有助于治疗心绞痛, 它们具有相关度而不存在上下义关系。相似度是相关度的一种特殊情况^[11], 本文主要对相似度进行研究。

词语语义相似度算法可根据背景知识的来源不同分为两种类型: 一种是基于语料库的方法, 这类方法以非结构化或者半结构化的文本语料(如病人的电子病历等)、Web网页等为基础, 用统计学的方法计算出词语的分布特征并构造相似度函数^{[12, 13, 14, 15]}; 另一种是基于本体(Ontology)的方法, 通过本体中概念之间的关系、属性或者层级结构对词语进行相似度计算^{[11, 12]}。前者对语料库要求很高, 数据稀疏和词语歧义问题严重影响计算精度。后者基于本体, 概念之间语义逻辑关系清晰, 但也存在较为依赖本体的问题。随着SNOMED CT、MeSH等医学本体越来越完备, 为基于本体的医学术语相似度计算的研究奠定了坚实的基础。

基于本体的语义相似度算法按照计算理论的不同可以分为4种类型: 基于信息量(Information Content, IC)的方法、基于语义距离的方法、基于属性的方法、混合方法。Lord等^[16]和Resnik^[17]提出以概念最近公共祖先节点(Least Common Subsume, LCS)的信息量度量词语语义相似度, 但该算法对所有拥有相同祖先的概念计算出的相似度都相同。Lin^[18]和Jiang等^[19]在Resnik的基础之上提出改进, 但算法精度受语料库影响较大。近年来, 有学者提出基于纯本体信息量的算法^{[20, 21, 22]}, 但由于不能充分体现概念之间的语义关系, 精度受到影响^[11]。基于语义距离的算法首先由Rada等^[23]提出, 将本体看做一个由概念组成的语义网, 提出用概念节点之间的最短距离来计算相似度。Leacock等^[24]和Wu等^[25]对Rada等的方法进行改进, 尽管该种算法理论简单, 但是精度不高^[11]。基于属性方法则是直接通过概念属性的重合程度进行计算, 代表方法如文献[26-29]。该类方法是一种将相似度和相关度混合计算的方法, 但由于没有充分利用本体结构信息, 计算结果精确度受到限制^[11]。混合算法是以上三种方法的综合考虑, 具有代表性的是Li等^[30]提出的方法。由于充分利用了概念的语义信息, 该类方法近年来涌现出大量的研究成果^[11]。以上算法大部分都是基于通用本体, 由于通用本体只包含了非常有限的医学词汇, 因此直接应用到医学本体中会受到限制。

3 基于医学本体的相似度算法

3.1 SNOMED CT和MeSH

目前, 在医学领域使用最为广泛的本体包括SNOMED CT和MeSH。SNOMED CT 2014版涵盖311 000多条活跃概念, 它包含1个根概念和19个顶层概念, 每个顶层概念又分为若干子层, 概念从一般到具体逐级分类, 形成层级结构。SNOMED CT的核心是概念, 每个概念具有唯一的标识符、名称和概念描述。其中, 概念描述包括一条首选术语和一条或多条同义词。概念和术语之间形成一对多的关系。概念之间通过“ 关系” 逻辑被形式化地组织在层级结构中。在SNOMED CT中存在很多种关系, 其中最重要的就是上下义关系, 其他还有概念模型属性关系等。MeSH则将主题词按照范畴和学科属性将它们划分为16个大类, 每个大类再层层划分, 逐级展开。在MeSH中, 每个主题词都拥有唯一的标识符和一个主题词详解, 拥有一个或多个入口词(可以理解为同义词)。每个主题词都按照分类和逻辑关系安排在树形结构的某一节点上, 上下义关系也是MeSH中最主要的关系。

3.2 基于本体的相似度计算

在本体中, 概念之间的相似程度可以利用它们在层级结构中的距离、深度和所处部分的密度等参数衡量。一般来说, 概念间的距离和它们的相似度成反比, 距离越小则概念之间的相似度越高; 对于语义距离相同的两个概念来说, 其所处位置越深, 表示概念越具体, 相似度越高; 所处区域的密度越大, 表示概念细化程度越大, 相似度越高^{[11, 12, 23, 24, 25, 30, 31]}。本文算法也采用了上述语义参数, 并进一步提出深度系数、距离系数的概念和计算方法, 同时提出以密度作为参数对语义距离和语义深度进行加权, 最后构造了新的术语相似度计算函数。

定义1 深度系数。若概念c₁, c₂的最近公共祖先节点(LCS)在本体中的深度为dept(lcs), 经过LCS和两概念节点的路径的长度分别为dept(t)₁和dept(t)₂, 令dept(t) = max[dept(t)₁, dept(t)₂], dept(lcs)与dept(t)的比值定义为深度系数, 记为depf(LCS(c₁, c₂)), 可表示为:

(1)

定义2 距离系数。令从概念c₁到c₂且经过它们最近公共祖先节点的最短路径的长度为path(c₁, c₂), 若path(c₁, c₂)≠ 0, 则定义距离系数为path(c₁, c₂)的倒数, 用q表示, 即q=1/path(c₁, c₂)。当path(c₁, c₂)=0时, 表示c₁, c₂完全相同。

概念节点所在区域的密度也会影响相似度, 表现如图1所示:

	Figure Option View Download New Window
	图1 本体层级结构

若不考虑密度因素, 概念c₁, c₂和c₅, c₆的深度和距离相等, 相似度应该相等。但因c₁, c₂所处区域概念密度大, 其相似程度应该大于c₅, c₆。这种现象映射到边上就是密度大的区域其概念对应边的长度应该小于密度小的。同样, 深度对相似度的影响映射到边上就是层次较深的概念对应的边的长度应该小于深度浅的。为此, 本文构造权值函数来满足以上要求。若L_ci表示概念c_i对应的边, 其权为W(L_ci), 计算公式为:

(2)

其中, dept(c_i)=1表示c_i为根节点, dept(c_i)> 1表示c_i为非根节点, s表示c_i的孩子节点的数量, 且s≥ 1(若s=0则说明该节点为叶子节点, 叶子节点不计算权值)。γ 为权值系数, 取值为0.9, 为保证下层节点对应边的加权长度不大于上层节点, 规定当W(L_ci)> 1时, 令W(L_ci)=1。概念节点c_i对应边的加权长度就可以表示为:

(3)

其中, L(parent(c_i))表示c_i的父节点对应边的加权长度。公式(2)和公式(3)保证了下层节点对应边的加权长度不大于上层节点; 密度大区域节点对应边的加权长度不大于密度小的区域的节点。

若设概念节点在不加权的情况下对应的边长度为1, 概念c₁, c₂的dept(lcs)由m₁个节点对应的边组成, dept(t)由m₂个节点对应的边组成, path(c₁, c₂)由m₃个节点对应的边组成, 则加权后的深度系数depf (LCS (c₁, c₂))和距离系数q可以分别表示为:

(4)

(5)

其中, 公式(4)中的分母对应公式(1)中的dept(t), 为其不加权的长度m₂。

在本体中概念是不存在歧义的, 但是由于概念存在多种不同的分类, 往往存在多继承的情况。如图1所示, 概念c₁, c₂继承自c₃和c₅两个最近公共祖先节点(LCS), 但两个LCS在本体结构中所处的深度不同, 最短路径也不相同。由于缺乏具体语境, 本文认为这些情况出现的概率是相同的, 因此对各种情况的相似度进行平均。

若概念c₁, c₂存在n个最近公共祖先节点, 则它们就存在n个深度系数。根据深度系数的概念, 选取几种情况下长度最长的dept(t)用dept(t)_max表示(如图1中的dept(t)_max即为路径(c₀ c₄ c₅c₉c₁)的不加权长度)。则概念 c₁, c₂的第i个最近公共祖先节点的加权深度系数的计算公式为:

(6)

若c₁, c₂最近公共祖先节点的最大的深度为1, 即max[dept(lcs)]=1, 则二者不相似。

同样地, 若概念c₁, c₂存在n个最近公共祖先节点, 则它们就存在n条最短路径, 其中第i条最短路径的加权长度用path(c₁, c₂)_i表示, 距离系数用q_i表示。

综合以上语义特征参数, 概念之间的相似度计算公式为:

(7)

其中, sim(c₁, c₂)表示概念c₁, c₂的语义相似度, n是c₁, c₂的最近公共祖先节点的数量。α 和β 是随着本体的不同而变化的参数, depf(LCS(c₁, c₂))_i和 q_i分别表示加权的深度系数和距离系数。若max[path(c₁, c₂)]=0, 即最大的最短路径的长度为0, 则表示两个术语完全相同, 相似度为const。const为常数, 表示概念完全相同时的相似度。

3.3 相似度算法描述

输入: 概念c₁, c₂

输出: 概念c₁, c₂的相似度

①搜索概念c₁, c₂在本体中是否存在, 若存在则进入步骤②, 否则停止并提示。

②寻找概念c₁, c₂的n个最近公共祖先节点LCS, 得到最大的最短距离max[path(c₁, c₂)]和LCS的最大深度max[dept(lcs)]。

③若max[path(c₁, c₂)]=0, 则sim = 4, 即完全相同, 算法结束。否则进入步骤④。

④检查c₁, c₂的max[dept(lcs)], 若为1, 则进入步骤⑤, 否则进入步骤⑥。

⑤检查概念c₁, c₂是否为相关词, 即仅具有相关度不具有相似度的词。若是则令sim=3, 否则认为两概念之间不相似也不相关, 令sim=1, 算法结束。

⑥分别计算概念的深度系数和距离系数, 并根据公式(7)计算两概念之间相似度。

⑦算法结束。

本文讨论的是概念的相似度, 但为了与更多的算法比较, 对于仅具有相关度而不具有相似度的概念, 借鉴文献[27-29]的方法: 分别搜索c₁和 c₂的概念描述或者相关概念中是否出现另外一个概念, 若出现, 则判断二者是相关词, 且令其相似度为一定值。根据两本体结构特点和人工评分结果, 取该定值为3。

由于本文算法的主要运算是查找运算和简单的线性运算, 且多为一次性运算, 仅仅在计算权值时使用简单的迭代。整个算法仅依赖本体局部结构信息, 且不需要反复遍历整个本体, 算法时间复杂度较低。

4 实验结果和分析

4.1 实验方案

对算法精度评价的方法一般是将算法结果与人工评分相比较。在医学领域有Pedersen等^[32]和Hiaoutakis等^[33]创建的两种评估标准。前者是由Pedersen和梅奥诊所(Mayo Clinic)的医师们合作, 组织9名医学编码员和3名医学专家分成两个小组, 对30对术语进行评分, 1表示不相似, 4表示完全相同。该评估标准和SNOMED CT能准确地比较出评估结果, 近年来已经成为医学界应用最为广泛的评估标准^{[20, 21, 32, 34, 35]}。Hiaoutakis等^[33]的评估标准是从MeSH中选出36对术语, 由8位医学专家进行人工评分, 0表示不相似, 1表示完全相同。本文首先实现了上述算法, 以SNOMED CT 2014和MeSH 2014作为本体, 对这两种评估标准中的术语进行相似度计算, 并与常用算法进行比较。

4.2 实验结果

(1) 与Pedersen评估标准比较

Pedersen评估标准共有30对术语, SNOMED CT 2014中收录了29对, MeSH 2014中收录了25对。对于未收录的术语, 文献[34]的处理方法是在本体中找到与其最为相近的概念代替, 然后再进行相似度计算。参考这种做法, 本文最终计算了29对术语的相似度。由于两本体结构存在很大差异, 经实验, α 、β 在SNOMED CT中取值为α =1, β =1, 在MeSH中取值为α =0.8, β =0.8时结果最接近人工评分。一般采用皮尔逊相关系数衡量各种算法的效果, 将文献[20-21, 32, 34]中测评的算法及本文算法同Pedersen评估标准的相关系数进行比较, 结果如表1所示。

表1 各种算法与Pedersen评估标准的相关系数

表1囊括了目前大部分常用的词语相似度和相关度算法。其中基于本体的方法均以SNOMED CT或MeSH作为本体, 基于语料库方法均使用Mayo Clinical Corpus of Clinic Notes^[32](MCCCN)语料库, 因此具有可比性。其中, 第1-3行是经典的基于信息量的算法, 第4-6行是基于纯本体信息量的算法, 第7-18行是基于语义距离的算法和混合算法, 第19-21行是基于信息量的语义距离改进算法。第22-25行是基于内容向量的方法, 这是一种基于语料库的方法。其中第22、24行所用语料选自于MCCCN语料库的诊断术语部分, 选取规模分别为100万条和10万条词语, 第23、25行选自整个语料库, 规模与前者相同。第26-27行是本文提出的算法。

(2) 与Hiaoutakis评估标准比较

Hiaoutakis评估标准中包含36对从MeSH中挑选的概念术语, 由人工从0-1进行打分。文献[36]选取其中的32对术语并列举了以MeSH为本体的Dice, Jaccard, Rodriguez & Egenhofer以及Cosine算法的计算结果。笔者同样选用这32对术语并首先以MeSH为本体进行计算。此外, 也以SNOMED CT作为本体进行了计算, 但由于其中有两对术语未被收录且无相似概念可代替, 因此在以SNOMED CT为本体时仅计算了30对术语。表2是各种算法与Hiaoutakis评估标准的相关系数。

表2 各种算法与Hiaoutakis评估标准的相关系数

4.3 实验结果分析

从表1可以看出:

(1) 几乎所有算法结果都与编码员评分更为接近, 这是因为医学编码员是经过训练的具有医学分类知识的专业人员, 对于医学词汇的分类能做到更加客观准确, 文献[34]则只与编码员评分结果进行比较。

(2) 经典的基于信息量的算法(第1-3行)和基于语料库的算法(第22-25行)受语料库的规模和专业程度影响较大。

(3) 经典的基于距离的方法与混合算法(第7-18行)在不同的本体中表现差异较大, 尤其在SNOMED CT中表现不佳。

(4) 改进的基于纯本体信息量算法(第4-6行, 第19-21行)比经典信息量算法表现有所提升, 这从一个方面说明基于领域本体的方法精确度优于基于语料库的方法。

(5) 本文算法(第26-27行)在两个本体中均能得到更高的相关系数且结果相近, 两本体结果相关系数为0.978(见本篇论文网络版本支撑数据), 这说明本文算法具有更高的精确度与更好的通用性。

从表2可以看出, 由于评分专家采用的标准和打分区间的不同, 本文算法计算结果与人工评分有一定差异, 但从相关系数值可以看出本文算法较其他算法在以MeSH为本体时计算结果更加接近人工标准。对于SNOMED CT而言, 由于目前还没有以之为本体的30对术语相关测评结果因而无法进行比较, 但本文算法在两本体中计算结果的相关系数为0.983(见本篇论文网络版本支撑数据)。

5 结语

本文提出一种基于复杂医学本体的术语相似度算法。该算法依据医学本体的结构特征, 运用加权的深度系数、距离系数等语义特征变量计算医学术语相似度。采用Pedersen评估标准和Hiaoutakis评估标准并分别以SNOMED CT和MeSH为本体进行测试, 该算法得到了比传统算法更高的相关系数, 同时也证明了该算法能够运行在SNOMED CT和MeSH两个本体中, 且表现较为相近, 能够在一定程度上弥补单一本体中因未收录术语而无法进行计算的问题。由于该算法依赖本体结构, 当本体结构发生改变时, 需要重新计算。但该算法中的运算多为线性运算, 且不存在反复遍历本体的问题, 能够较为快速地重新完成计算。由于任何一个单独的本体都无法收录所有术语, 如果能够联合不同的本体(包括一般领域本体)进行术语相似度计算, 则能够在更大程度上解决未收录术语的问题, 这是今后需要进一步研究的工作。

参考文献

View Option

[1]	Chen M Y, Chu H C, Chen Y M. Developing a Semantic-Enable Information Retrieval Mechanism[J]. Expert Systems with Application, 2010, 37(1): 322-340. [本文引用:1]
[2]	Kimtani D K, Choudhury J, Chakrabarty A. Improvement in Word Sense Disambiguation by Introducing Enhancements in English WordNet Structure[J]. International Journal on Computer Science and Engineering, 2012, 4(7): 1366-1370. [本文引用:1]
[3]	Leroy G, Rindflesch T C. Effects of Information and Machine Learning Algorithms on Word Sense Disambiguation with Small Datasets[J]. International Journal of Medical Informatics, 2005, 74(7-8): 573-585 [本文引用:1]
[4]	Cilibrasi R L, Vitanyi P M B. The Google Similarity Distance[J]. IEEE Transactions on Knowledge and Data Engineering, 2007, 19(3): 370-383. [本文引用:1]
[5]	Stevenson M, Greenwood M A. A Semantic Approach to IE Pattern Introduction [C]. In: Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2005: 379-386. [本文引用:1]
[6]	Asservatham S, Bennani Y. Semi-Structured Document Categorization with a Semantic Kernel[J]. Pattern Recognition, 2009, 42(9): 2067-2076. [本文引用:1]
[7]	Batet M, Valls A, Gibert K. Improving Classical Clustering with Ontologies [C]. In: Proceedings of the 4th World Conference of the IASC, Yokohama, Japan. 2008: 137-146. [本文引用:1]
[8]	Lu H M, Chen H, Zeng D, et al. Multilingual Chief Complaint Classification for Syndromic Surveillance: An Experiment with Chinese Chief Complaints[J]. International Journal of Medical Informatics, 2009, 78(5): 308-320. [本文引用:1]
[9]	Papachristoudis G, Diplaris S, Mitkas P A. SoFoCles: Feature Filtering for Microarray Classification Based on Gene Ontology[J]. Journal of Biomedical Informatics, 2010, 43(1): 1-14. [本文引用:1]
[10]	盛秋艳. 一种基于本体的语义相似度计算方法[J]. 情报科学, 2012, 30(8): 1238-1241. (Sheng Qiuyan. Research on the Measuring of Semantic Similarity Based Ontology[J]. Information Scinece, 2012, 30(8): 1238-1241. ) [本文引用:1]
[11]	刘宏哲, 须德. 基于本体的语义相似度和相关度计算研究综述[J]. 计算机科学, 2012, 39(2): 8-13. (Liu Hongzhe, Xu De. Ontology Based Semantic Similarity and Relatedness Measures Review[J]. Computer Science, 2012, 39(2): 8-13. ) [本文引用:7]
[12]	秦春秀, 祝婷, 赵捧未, 等. 自然语言语义分析研究进展[J]. 图书情报工作, 2014, 58(22): 130-137. (Qin Chunxiu, Zhu Ting, Zhao Pengwei, et al. Research Review on Semantics Analysis of Natural Language[J]. Library and Information Service, 2014, 58(22): 130-137. ) [本文引用:3]
[13]	Land auer T K, Foltz P W, Laham D. An Introduction to Lantent Semantic Analysis[J]. Discourse Processess, 1998, 25(2-3): 259-284. [本文引用:1]
[14]	陈海燕. 基于搜索引擎的词汇语义相似度计算方法[J]. 计算机科学, 2015, 42(1): 261-267. (Chen Haiyan. Measuring Semantic Similarity Between Words Using Web Search Engines[J]. Computer Science, 2015, 42(2): 261-267. ) [本文引用:1]
[15]	李赟. 基于中文维基百科的语义知识挖掘相关研究[D]. 北京: 北京邮电大学, 2009. (Li Yun. Mining Semantic Knowledge from Chinese Wikipidia [D]. Beijing: Beijing University of Posts and Telecommunications, 2009. ) [本文引用:1]
[16]	Lord P W, Stevens R D, Brass A, et al. Investigating Semantic Similarity Measures Across the Gene Ontology: The Relationship Between Sequence and Annotation[J]. Bioinformatics, 2003, 19(10): 1275-1283. [本文引用:1]
[17]	Resnik P. Using Information Content to Evaluate Semantic Similarity in a Taxonomy [C]. In: Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI95). 1995: 448-453. [本文引用:1]
[18]	Lin D. An Information-Theoretic Definition of Similarity [C]. In: Proceedings of the 15th International Conference on Machine Learning (ICML98). 1998: 296-304. [本文引用:1]
[19]	Jiang J J, Conrath D W. Semantic Similarity Based on Corpus Statistics and Lexical Taxonomy [C]. In: Proceedings of the 10th International Conference on Research in Computational Linguistics. 1997: 19-33. [本文引用:1]
[20]	Batet M, Sanchez D, Valls A. An Ontology-Based Measure to Compute Semantic Similarity in Biomedicine[J]. Journal of Biomedical Informatics, 2011, 44(1): 118-125. [本文引用:2]
[21]	Sanchez D, Batet M. Semantic Similarity Estimation in the Biomedical Domain: An Ontology-Based Information- Theoretic Perspective[J]. Journal of Biomedical Informatics, 2011, 44(5): 749-759. [本文引用:2]
[22]	游彬, 严岳松, 孙英阁, 等. 基于HowNet的信息量计算语义相似度算法[J]. 计算机系统应用, 2013, 22(1): 129-133. (You Bin, Yan Yuesong, Sun Yingge, et al. Method of Information Content Evaluating Semantic Similarity on HowNet[J]. Computer Systems & Applications, 2013, 22(1): 129-133. ) [本文引用:1]
[23]	Rada R, Mili H, Bichnell E, et al. Development and Application of a Metric on Semantic Nets[J]. IEEE Transactions on Systems, Man and Cybernetics, 1989, 19(1): 17-30. [本文引用:2]
[24]	Leacock C, Chodorw M. Combining Local Context and WordNet Similarity for Word Sense Identification [A]. // WordNet: An Electronic Lexical Database [M]. MIT Press, 1998: 265-283. [本文引用:2]
[25]	Wu Z, Palmer M. Verb Semantics and Lexical Selection [C]. In: Proceedings of the 32nd Annual Meeting on Association for Computational Linguistics. Assiciation for Computational Liguistics, 1994: 133-138. [本文引用:2]
[26]	Tversky A. Features of Similarity[J]. Psychological Review, 1977, 84(4): 327-352. [本文引用:1]
[27]	Patwardhan S, Pedersen T. Using WordNet-based Context Vectors to Estimate the Semantic Relatedness of Concepts [C]. In: Proceedings of the EACL Workshop on Making Sense of Sense: Bringing Computaional Linguistics and Psycholinguistics Together, Trento, Italy. 2006: 1-8. [本文引用:1]
[28]	Banerjee S, Pedersen T. Extended Gloss Overlaps as a Measure of Semantic Relatedness [C]. In: Proceedings of the 18th International Joint Conference on Artificial Intelligence (IJCAI). 2003: 805-810. [本文引用:1]
[29]	Wan S, Angryk R A. Measuring Semantic Similarity Using Wordnet-Based Context Vectors [C]. In: Proceedings of IEEE International Conference on Systems, Man and Cybernetics. 2007: 908-913. [本文引用:1]
[30]	Li Y, Band er Z A, Mclean D. An Approach for Measuring Semantic Similarity Between Words Using Multiple Information Sources[J]. IEEE Transactions on Knowledge and Data Engineering, 2003, 15(4): 871-882. [本文引用:2]
[31]	吴健, 吴朝晖, 李莹, 等. 基于本体论和词汇语义相似度的Web服务发现[J]. 计算机学报, 2005, 28(4): 595-602. (Wu Jian, Wu Zhaohui, Li Ying, et al. Web Service Discovery Based on Ontology and Similarity of Words[J]. Chinese Journal of Computers, 2005, 28(4): 595-602. ) [本文引用:1]
[32]	Pedersen T, Pakhomov S, Patwardhan S, et al. Measures of Semantic Similarity and Relatedness in the Biomedical Domain[J]. Journal of Biomedical Informatics, 2007, 40(3): 288-299. [本文引用:3]
[33]	Hliaoutakis A, Varelas G, Voutsakis E, et al. Information Retrieval by Semantic Similarity[J]. International Journal on Semantic Web and Information Systems, 2006, 2(3): 55-73. [本文引用:2]
[34]	Al-Mubaid H, Nguyen H A. A Cluster-Based Approach for Semantic Similarity in the Biomedical Domain [C]. In: Proceedings of the 28th Annual International Conference of the IEEE Engineering in Medicine and Biology Society. New York: IEEE Computer Society, 2006: 2713-2717. [本文引用:1]
[35]	李文庆, 谢红薇. 基于医疗本体的语义相似度评估方法[J]. 计算机工程与设计, 2013, 34(4): 1287-1291. (Li Wenqing, Xie Hongwei. Semantic Similarity Estimation Method Based on Medical Ontology[J]. Computer Engineering and Design, 2013, 34(4): 1287-1291. ) [本文引用:1]
[36]	孙海霞, 钱庆, 吴英杰, 等. MeSH词表的语义计相似度计算研究[J]. 现代图书情报技术, 2010(6): 12-16. (Sun Haixia, Qian Qing, Wu Yingjie, et al. Research on Semantic Similarity Measuring of MeSH[J]. New Technology of Library and Information Service, 2010(6): 12-16. ) [本文引用:1]

2010

0.0

. , :322-340

Developing a semantic-enable information retrieval mechanism

... 1 引言词语语义相似度计算是自然语言处理的一项基础性工作, 在信息检索^[1]、词义消歧^[2,3]、机器翻译^[4]、自动问答、信息提取^[5]、文本分类和聚类^[6,7]、语义标注等领域有广泛的应用 ...

2012

0.0

2005

0.0

2007

0.0

2005

0.0

2009

0.0

. , :2067-2076

Semi-structured document categorization with a semantic kernel

2008

0.0

2009

0.0

... 医疗术语相似度计算对于提高医疗文本资源的检索、聚类和挖掘的效率具有重要意义^[8,9] ...

2010

0.0

... 医疗术语相似度计算对于提高医疗文本资源的检索、聚类和挖掘的效率具有重要意义^[8,9] ...

2012

0.0

. 2012, 30(8):1238-1241

Research on the Measuring of Semantic Similarity Based Ontology

一种基于本体的语义相似度计算方法

Sheng Qiuyan

盛秋艳

本体技术作为一种能在语义和知识层次上描述概念体系的有效工具,给词语间相似度计算带来了新的机会。词语相似度的研究,是知识表示以及信息检索领域中的一个重要内容。本文利用本体来组织概念,计算概念之间的语义相似度,将语义相似度分成概念相似度和描述相似度,把概念相似度和描述相似度进行合并,生成最终的语义相似度。依据《中国分类主题词表》建立的计算机领域本体,验证了语义相似度计算方法的有效性。

... 在传统的数字图书馆领域, 语义检索还是要借助交互式的术语提示来实现概念之间的检索, 而不考虑概念之间的其他属性关系, 检索结果往往不能满足用户需求^[10] ...

2012

0.0

. 2012, 39(2):8-13 DOI:doi:10.3969/j.issn.1002-137X.2012.02.002

Ontology Based Semantic Similarity and Relatedness Measures Review

基于本体的语义相似度和相关度计算研究综述

Liu Hongzhe , Xu De

刘宏哲, 须德

语义相似度和相关度计算广泛应用于自然语言处理中,已有大量语义相似度和相关度算法被提出.分析总结了树和图结构中影响概念相似度或相关度的因素,综述了基于本体的英文语义相似度和相关度计算方法,明确了语义相似度和相关度的区别与联系,系统地对算法进行了分类,最后对每类算法进行了详细的比较.

... 相似度是相关度的一种特殊情况^[11], 本文主要对相似度进行研究 ...

... 另一种是基于本体(Ontology)的方法, 通过本体中概念之间的关系、属性或者层级结构对词语进行相似度计算^[11,12] ...

... 近年来, 有学者提出基于纯本体信息量的算法^[20,21,22], 但由于不能充分体现概念之间的语义关系, 精度受到影响^[11] ...

... Leacock等^[24]和Wu等^[25]对Rada等的方法进行改进, 尽管该种算法理论简单, 但是精度不高^[11] ...

... 该类方法是一种将相似度和相关度混合计算的方法, 但由于没有充分利用本体结构信息, 计算结果精确度受到限制^[11] ...

... 由于充分利用了概念的语义信息, 该类方法近年来涌现出大量的研究成果^[11] ...

... 所处区域的密度越大, 表示概念细化程度越大, 相似度越高^{[11,12, 23,24,25, 30,31]} ...

2014

0.0

. 2014, 58(22):130-137 DOI:doi:10.13266/j.issn.0252-3116.2014.22.021

Research Review on Semantics Analysis of Natural Language

自然语言语义分析研究进展

Qin Chunxiu , Zhu Ting , Zhao Pengwei

秦春秀, 祝婷, 赵捧未

摘　要：按照自然语言的构成层次——词语、句子和篇章,分析各层次语义分析的内涵、现有的研究策略、理论依据及存在的主要方法,并对现存的两类主要研究策略进行对比分析。认为词语语义分析是指确定词语意义,衡量两个词之间的语义相似度或相关度;句子语义分析研究包含句义分析和句义相似度分析两方面;文本语义分析就是识别文本的意义、主题、类别等语义信息的过程。当前的自然语言语义分析主要存在两种主要的研究策略：基于知识或语义学规则的语义分析和基于统计学的语义分析。基于统计与规则相融合的语义分析方法是未来自然语言语义分析的主流方法,本体语义学是自然语言语义分析的重要基础。

... 词语语义相似度算法可根据背景知识的来源不同分为两种类型: 一种是基于语料库的方法, 这类方法以非结构化或者半结构化的文本语料(如病人的电子病历等)、Web网页等为基础, 用统计学的方法计算出词语的分布特征并构造相似度函数^{[12,13,14,15]} ...

... 另一种是基于本体(Ontology)的方法, 通过本体中概念之间的关系、属性或者层级结构对词语进行相似度计算^[11,12] ...

... 所处区域的密度越大, 表示概念细化程度越大, 相似度越高^{[11,12, 23,24,25, 30,31]} ...

1998

0.0

2015

0.0

. 2015, 42(1):261-267 DOI:doi:10.11896/j.issn.1002-137X.2015.1.058

Measuring Semantic Similarity Between Words Using Web Search Engines

基于搜索引擎的词汇语义相似度计算方法

Chen Haiyan

陈海燕

摘　要：词汇语义相似度的计算在网页浏览和查询推荐等网络相关工作中起着重要的作用.传统的基于分类的方法不能处理持续出现的新词.由于网络数据中隐藏着大量的噪音和冗余,鲁棒性和准确性仍然是一个挑战,因此提出了一种基于搜索引擎的词汇语义相似度计算方法.语义片段和检索结果的页数被用来去除词汇语义相似度计算过程中的噪音和冗余.此外,还提出了一种方法来整合查询结果页数、语义片段和显示的搜索结果的数量,该方法不需要任何先验知识与本体.实验结果显示,所提出的方法在Rubenstein-Goodenough测试集的相关系数为0.851,优于现有的基于网络的词汇语义相似度计算方法,同时在搜索引擎的查询扩展任务中具有较为良好的应用效果.

2009

0.0

. 2009, :-

Mining Semantic Knowledge from Chinese Wikipidia [D].

基于中文维基百科的语义知识挖掘相关研究[D]

Li Yun

李赟

为了实现基于自然语言的智能信息处理,计算机需要了解大量的语义知识。大规模语义词典和知识库通常依靠人工构建完成,在建设和维护过程中耗费了大量的人力物力。从语料资源中自动抽取语义信息,建设大规模的语义知识资源已成为一个热门的研究课题。维基百科是一个开放式的在线百科全书,对于自然语言处理它不止是一个大规模的语料库,还可以用作一个包含了大量人类知识和语义关系的知识库资源。本文从自然语言处理和语义知识资源建设两方面出发,研究了维基百科挖掘语义信息挖掘等方面的处理方法及相关应用。针对自然语言处理中的语义相关度计算,本文提出了基于维基百科链接关系(分类图和文档图)的“多路径搜索”算法。实验下载了中文维基百科页面并利用链接关系抽取出反映分类层次关系的分类图以及反映解释文档超级链接引用的文档图。进一步通过搜索多条相关路径,综合路径长度及节点或链接权重等完成语义相关度计算。实验利用超级链接引用关系抽取了大量的语义相关词对,并建立了一个人工标注的测试集,通过与经典算法的对比对实验结果进行了分析评估。文本语义相关度的计算也可以利用维基百科实现语义知识扩展。实验抽取了页面重定向、分类层次、文本链接等反映语义关联关系的链接结构,并利用矩阵运算综合了直接或间接的语义关联关系,建立了一个包含维基百科背景知识的语义转换矩阵。通过将文档词频向量与语义转换矩阵相乘,获得一个在新的语义空间上的扩展向量,利用传统的向量夹角余弦等方法计算文本的语义相关度。算法同样可以用于抽取大量的存在语义相关关系的词,作为语义相关度测试集。针对挖掘维基百科构建语义知识资源,本文从两个角度进行了探索。一方面结合维基百科分类图的层次关系及词汇短语结构,并利用解释页面文档的句法模式等信息,挖掘出反映语义关系类别的信息,并为不包含具体语义关系类型的分类图添加语义关系标记,建立一个本体型语义层次网络。另一方面,从维基百科词汇中筛选出反映独立语义概念的核心词,并为所有词条标注最能反映概念、属性特征的相关词解释,建立解释型语义词典。进一步探讨了将维基百科关联到中文语义词典知网 (HowNet),并通过挖掘分类关系为其扩充新词、标注义原解释的可行性及其实现方式。

2003

0.0

... Lord等^[16]和Resnik^[17]提出以概念最近公共祖先节点(Least Common Subsume, LCS)的信息量度量词语语义相似度, 但该算法对所有拥有相同祖先的概念计算出的相似度都相同 ...

1995

0.0

1998

0.0

... Lin^[18]和Jiang等^[19]在Resnik的基础之上提出改进, 但算法精度受语料库影响较大 ...

1997

0.0

... Lin^[18]和Jiang等^[19]在Resnik的基础之上提出改进, 但算法精度受语料库影响较大 ...

2011

0.0

... 近年来, 有学者提出基于纯本体信息量的算法^[20,21,22], 但由于不能充分体现概念之间的语义关系, 精度受到影响^[11] ...

... 该评估标准和SNOMED CT能准确地比较出评估结果, 近年来已经成为医学界应用最为广泛的评估标准^{[20,21, 32, 34,35]} ...

2011

0.0

... 近年来, 有学者提出基于纯本体信息量的算法^[20,21,22], 但由于不能充分体现概念之间的语义关系, 精度受到影响^[11] ...

... 该评估标准和SNOMED CT能准确地比较出评估结果, 近年来已经成为医学界应用最为广泛的评估标准^{[20,21, 32, 34,35]} ...

2013

0.0

. 2013, 22(1):129-133

Method of Information Content Evaluating Semantic Similarity on HowNet

基于HowNet的信息量计算语义相似度算法

You Bin , Yan Yuesong , Sun Yingge

游彬, 严岳松, 孙英阁

Evaluating Semantic similarity is widely used in areas range from Psychology, Linguistics, Cognitive Science to Artificial Intelligence. This paper means to the merely use of HowNet to evaluate Information Content as the semantic similarity of two terms or word senses. While the conventional ways of measuring the IC of word senses must depend on both an ontology like WordNet and a large corpus, the experiment proves that the semantic similarity measured in this method is easier to calculate and more closely with human judgments, as HowNet has an elaborate way to represent descriptive object.

语义相似度计算的应用范围广泛, 从心理学、语言学、认知科学到人工智能都有其应用. 提出了仅依赖于知网(HowNet)的信息量计算来估计两个词汇间的语义相似度. 经实验证明, 相比于传统的基于词网(WordNet)和大型语料库的计算信息量来估计语义相似度的算法, 本文的算法更容易计算, 并更接近于人工的语义相似度判断.

... 近年来, 有学者提出基于纯本体信息量的算法^[20,21,22], 但由于不能充分体现概念之间的语义关系, 精度受到影响^[11] ...

1989

0.0

... 基于语义距离的算法首先由Rada等^[23]提出, 将本体看做一个由概念组成的语义网, 提出用概念节点之间的最短距离来计算相似度 ...

... 所处区域的密度越大, 表示概念细化程度越大, 相似度越高^{[11,12, 23,24,25, 30,31]} ...

1998

0.0

... Leacock等^[24]和Wu等^[25]对Rada等的方法进行改进, 尽管该种算法理论简单, 但是精度不高^[11] ...

... 所处区域的密度越大, 表示概念细化程度越大, 相似度越高^{[11,12, 23,24,25, 30,31]} ...

1994

0.0

... Leacock等^[24]和Wu等^[25]对Rada等的方法进行改进, 尽管该种算法理论简单, 但是精度不高^[11] ...

... 所处区域的密度越大, 表示概念细化程度越大, 相似度越高^{[11,12, 23,24,25, 30,31]} ...

1977

0.0

2006

0.0

2003

0.0

2007

0.0

2003

0.0

... 混合算法是以上三种方法的综合考虑, 具有代表性的是Li等^[30]提出的方法 ...

... 所处区域的密度越大, 表示概念细化程度越大, 相似度越高^{[11,12, 23,24,25, 30,31]} ...

2005

0.0

. 2005, 28(4):595-602 DOI:doi:10.3321/j.issn:0254-4164.2005.04.018

Web Service Discovery Based on Ontology and Similarity of Words

基于本体论和词汇语义相似度的Web服务发现

Wu Jian , Wu Zhaohui , Li Ying

吴健, 吴朝晖, 李莹

Web服务的大量涌现对服务发现提出了挑战,UDDI上基于关键词和简单分类的服务发现机制已经不能很好满足需要.该文在分析现有相关研究的基础上,提出了基于本体论和词汇语义相似度的Web服务发现方法.通过构建Web服务本体,给出一个明晰的Web服务发现的研究对象,指出可对Web服务进行的几种相似度计算,并对其中的词汇语义相似度计算进行详细讨论.文中具体给出两种词汇语义相似度计算方法,其中第一种方法计算词汇语义相似度基于词语间距离度量,第二种方法计算词汇语义相似度则建立在义原相似度基础上.引入本体论和词汇语义相似度,为Web服务相似度计算、Web服务发现提供了一种有效可行的方法.

... 所处区域的密度越大, 表示概念细化程度越大, 相似度越高^{[11,12, 23,24,25, 30,31]} ...

2007

0.0

... 在医学领域有Pedersen等^[32]和Hiaoutakis等^[33]创建的两种评估标准 ...

... 该评估标准和SNOMED CT能准确地比较出评估结果, 近年来已经成为医学界应用最为广泛的评估标准^{[20,21, 32, 34,35]} ...

... 其中基于本体的方法均以SNOMED CT或MeSH作为本体, 基于语料库方法均使用Mayo Clinical Corpus of Clinic Notes^[32](MCCCN)语料库, 因此具有可比性 ...

2006

0.0

... 在医学领域有Pedersen等^[32]和Hiaoutakis等^[33]创建的两种评估标准 ...

... Hiaoutakis等^[33]的评估标准是从MeSH中选出36对术语, 由8位医学专家进行人工评分, 0表示不相似, 1表示完全相同 ...

2006

0.0

... 该评估标准和SNOMED CT能准确地比较出评估结果, 近年来已经成为医学界应用最为广泛的评估标准^{[20,21, 32, 34,35]} ...

2013

0.0

. 2013, 34(4):1287-1291 DOI:doi:10.3969/j.issn.1000-7024.2013.04.029

基于医疗本体的语义相似度评估方法

Li Wenqing , Xie Hongwei

李文庆, 谢红薇

摘　要：为了能够正确地理解医疗概念和精确地分析临床记录，提出了一种基于概念信息量的方法来衡量概念之间的语义相似度。引进了计算概念信息量的算法，从医疗本体的分类知识中来计算概念的信息量。介绍和分析了常用的语义相似度算法，根据概念的信息量来重定义这些语义相似度算法，产生新的基于概念信息量的语义相似度算法。通过使用一个医疗术语的评估标准和一个标准的医疗本体来评估和比较这些算法。实验结果表明，相比常用的语义相似度算法，重定义后的算法有效地改善了概念相似性评估的准确性。

... 该评估标准和SNOMED CT能准确地比较出评估结果, 近年来已经成为医学界应用最为广泛的评估标准^{[20,21, 32, 34,35]} ...

0.0

. , 2010(6):12-16

Sun Haixia , Qian Qing , Wu Yingjie

孙海霞, 钱庆, 吴英杰

摘　要：借鉴Rodriguez和Egenhofer提出的语义相似度计算模型，结合医学领域主题词表MeSH的特点，提出MeSH主题词表中的语义相似度计算方法，实验结果证明该方法是有效的。