WordNet与SUMO本体之间的映射机制研究
王效岳, 胡泽文, 白如江
山东理工大学科技信息研究所 淄博 255049
摘要

针对本体概念与自然语言词汇之间存在普遍性与特殊性的矛盾,以WordNet同义词典和SUMO本体为研究对象,对两者进行简要概述,详细分析两者之间的映射动机,提出自然语言词汇、WordNet同义集和SUMO本体概念之间的映射模型,并深入分析WordNet同义集与SUMO本体概念之间的映射实例、映射效果及应用。希望藉此更好地利用WordNet同义词典与SUMO本体概念之间的映射关系去解决本体概念与自然语言词汇之间的矛盾,促进本体更广泛地应用于智能检索、语义分类、数据挖掘等领域。

关键词: WordNet; SUMO本体; 映射动机; 映射模型; 映射实例; 映射效果
中图分类号:G250 TP391
Study on the Mapping Mechanism Between WordNet and SUMO Ontology
Wang Xiaoyue, Hu Zewen, Bai Rujiang
Institute of Scientific & Technical Information, Shandong University of Technology, Zibo 255049, China
Abstract

To solve the existing contradiction of generality and speciality between Ontology concepts and natural language words,this paper takes WordNet thesaurus and SUMO Ontology as research objects, makes a simple introduction of them, detailedly analyzes the mapping motivations between them, proposes a mapping model among natural language words, WordNet synsets and SUMO Ontology concepts, and deeply analyzes the mapping instances, the mapping effects and applications between WordNet synsets and SUMO Ontology concepts. The authors hopes to better utilize the mapping relations between WordNet and SUMO to solve the contradiction between Ontology concepts and natural language words, and make Ontology have a more widely application in intelligent retrieval, semantic classification and data mining etc.

Keyword: WordNet; SUMO Ontology; Mapping motivation; Mapping model; Mapping instance; Mapping effect
1 引 言

随着语义Web的兴起,作为语义Web基础的本体受到国内外学者的关注,成为目前国内外学者研究的热点。本体在众多领域有着广泛的应用,如智能检索、语义分类、数据挖掘、文本聚类等,这些领域对本体的应用主要是利用本体的概念语义关系将传统词向量空间映射成概念向量空间,进而基于概念向量空间实现文档的智能检索、语义分类、智能挖掘等应用。由于本体概念抽象程度高、具有普遍性,而词汇抽象程度低、具有特殊性,本体概念与自然语言词汇之间存在普遍性与特殊性的矛盾,使本体概念与自然语言词汇无法进行有效沟通和互操作,导致这些领域对本体的应用还停留在理论、模型、框架研究层次上,无法提升到实现与应用层次。

目前,国外学者利用本体进行词-概念映射方面的研究比较深入的是芬兰学者Ginter等在2004年提出的基于本体的特征转换方法。该方法首先利用本体概念对文档进行标注,然后抽取标注的概念,利用本体概念及其之

间的语义关系将抽取出的概念集组合成层次结构清晰的概念树,最后基于概念树,将词形不同而语义相同的概念转换成相同的概念,将具体的概念转换成通用概念[ 1]。该方法能够为词-概念之间的映射提供新的思路,不足的是实现过程比较复杂和耗时,并且分类性能的提高也有限。笔者认为,该方法分类性能有限的原因是其直接将文档特征映射到本体概念,由于本体概念的抽象性,会出现很多文档特征映射不到本体概念的情况。国内有关该方面的研究涉及更少,比较有代表性的是李文等在2010年提出一种基于本体的词语-概念映射方法。该方法首先利用概念-文档与词语-文档两重关系,计算出词语与概念的相关度与置信度,再实现词语(集)到本体概念(集)的映射[ 2]。此方法主要应用于语义检索领域,由于其需要对文档进行语义标注,考虑上下文信息等,计算过程复杂,并不适合文本分类领域中词向量空间到概念向量空间的转换。

笔者认为,目前能够有效解决本体概念与自然语言词汇之间普遍性与特殊性的矛盾,实现词-概念、词向量空间-概念向量空间之间映射的最便捷、计算复杂度最低的途径就是充分利用WordNet同义词典与SUMO本体概念之间的映射关系,直接将自然语言词汇映射到WordNet同义词集,进而映射成SUMO本体概念。WordNet同义词典主要以同义词集为基本单元,对自然语言词汇进行语义组合,抽象程度低,以其作为桥梁,可以很好地解决本体概念与自然语言词汇之间普遍性与特殊性的矛盾,快速有效地实现自然语言词汇向本体概念的映射。目前国内基本上没有对WordNet同义词集与SUMO本体概念之间映射机制和方法的研究,因此,为更好地利用WordNet同义词集与SUMO本体概念之间的映射关系解决上述问题,本文对两者之间的映射动机、映射模型、映射实例、映射效果及应用等进行详细分析与论述。

2 SUMO和WordNet本体库
2.1 SUMO本体库

SUMO本体库由概念、关系和约束概念、关系语义的公理组成,具有丰富的概念语义关系和清晰的层次结构,可以用于检索、语言学和推理等方面的研究和应用。具有如下特征[ 3]

(1)SUMO本体中的概念能够映射到WordNet中的所有同义词集。

(2)具有很多语言版本,如英文、中文、德文等。

(3)有支持SUMO本体浏览、编辑和推理的工具,如Sigma Knowledge Engineering Environment[ 4]

(4)目前为止,国际上最大的规范化本体库,拥有20 000个概念和70 000个公理,融合了所有领域本体,包括SUMO本身、Mid-Level本体和通信(Communications)、国家与区域(Countries and Regions)、分布计算(Distributed Computing)、经济(Economy)、财政(Finance)、工程组件(Engineering Components)、地理(Geography)、政府(Government)、军事(Military)、人类(People)等20个领域的本体。同时SUMO本体库还有大量来自DBPedia本体库[ 5]中的实例内容和维基百科[ 6]中数百万的事实(Facts),开源的生物医学本体(Biomedical Ontologies)[ 7]也能映射到SUMO本体。

(5)富于公理化,不仅仅是一个分类表,所有术语都被规范化定义。如公理(subclass Person Animal)表示人类是动物类的子类、(and (instance KofiAnnan Human) (occupiesPosition KofiAnnan SecretaryGeneral UnitedNations))表示科菲·安南(Kofi Annan)是人类的一个实例,在联合国任秘书长一职。

(6)可以转换成OWL语言描述的本体文档。

SUMO本体采用的描述语言是标准上层本体知识交换格式(Standard Upper Ontology Knowledge Interchange Format,SUO-KIF)[ 8],该语言主要用于知识创造和交换,无需借助解释器就能够理解知识表达式的意思,同时在逻辑表达上非常丰富和全面,可以对任意逻辑性的句子进行语义表达,与其他借助解释器的描述语言如关系数据库语言(如SQL)、逻辑程序语言(如Prolog)等相比,其能够很好地调节语言推理计算需求与表达丰富性之间的矛盾。该语言在自然语言语义表示、推理、检索等领域效率比较高,而在概念通用化及其层次权重计算方面不如OWL描述的语言效率高,主要因为OWL描述的语言比较通用,能够直接调用开源可视化程序包GraphViz[ 9]将其可视化为概念图,基于概念图对概念进行通用化和权重计算更容易被计算机自动处理。

(7)概念语义关系丰富。SUMO本体概念语义关系可以分为以下几组:时间关系(Temporal Relations)、空间关系(Spatial Relations)、格关系(Case-relations)。Before、After、Starts、Finishes 等定义对象之间的时间关系。Agent、Patient、Destination、Instrument等表示实体间的空间关系[ 10]

2.2 WordNet本体库

WordNet是一种基于认知语言学的包含词间语义关系的英语词典,采用语义网络作为其词汇本体的基本表示形式,如图1所示:

图1 WordNet的逻辑结构[ 11]

图1中网络节点由词形(Word Forms)和词义(Word Meanings)标识,词义由表达其语义的不同词形组成。词形与词义的关系是多对多的关系,一个词形可以有多个词义,即多义关系(Polysemous Relation);一个词义也可以有多个词形,即同义关系。具体如表1所示,列表示n个词形,行表示m个词义,Em,n表示第n个词形能够表达第m个词义。如果词形所在列有两个以上词义,则称该词形为多义词;如果两个以上词形在同一行中出现,则称这些词形为同义词。

表1 词形词义关系矩阵[ 12]

表1中可以看出,WF2为多义词,WF1和WF2是同义词。WordNet中的同义集(Synsets)是由一系列表达相同意思的词条构成,如同义集{arrival,reaching}表示“到达”的意思。WordNet同义词典的版本更新速度非常快,目前最新版本是WordNet3.0,在该版本中有82 115个名词(Noun)同义词集、13 767个动词(Verb)同义词集、18 156个形容词(Adjective)同义词集、3 621个副词(Adverb)同义词集,共计117 659个同义词集[ 13]

3 WordNet同义词集与SUMO本体概念之间的映射
3.1 映射动机

本体及其应用是目前国内外学者研究的热点与难点,不过大部分的研究还仅限于本体及其应用的理论、技术与方法、模型与框架的研究,目前为止还没有一个有效的、计算机能够自动处理的应用方案,主要因为在本体使用过程中,存在以下三个问题,阻碍其在自然语言处理领域、人类社会领域的应用[ 14]

(1)本体概念逻辑性强、语义丰富,对于缺乏逻辑推理和数学知识的人无法有效地使用一个规范化的本体,阻碍了本体在人类社会领域的应用。

(2)无法解决本体概念与自然语言词汇之间抽象性与具体性,普遍性与特殊性的矛盾。本体概念是从自然语言词汇中抽象出来的,是自然语言词汇的抽象性概括,具有普遍性。自然语言词汇是本体概念的具体化表示,具有特殊性。两者之间存在普遍性和特殊性的矛盾,使本体概念与自然语言词汇之间无法进行有效沟通和互操作,导致目前很多领域的研究如信息检索、文本分类、语义标注等无法很有效地从基于自然语言词汇的层次向基于概念的层次转变。

(3)在使用本体的过程中,无法有效地对本体的完整性进行检验。

WordNet同义词集与SUMO本体概念之间的映射能够解决上述问题。WordNet同义词典是美国普林斯顿大学自然语言研究机构为了更有效地利用自然语言词汇,利用语义网络对这些词汇进行重新组织,将那些具有同义关系的词汇组合成同义词集,形成网络结点,将同义词集之间的关系如上下位关系、等价关系等用网络线条连接起来,形成分类清晰、层次分明的同义词集语义网络,其覆盖范围非常广,能够涵盖人类社会所有兴趣领域的词汇。其与SUMO本体概念之间的映射事实上就是对本体概念的一个自然语言标引,是本体中结构化的概念与自然语言词汇之间进行沟通和互操作的桥梁,同时也能对本体内容的完整性进行检验。

笔者将分别阐述WordNet/SUMO映射是如何解决上述三个问题的。

(1)对于缺乏逻辑推理和数学知识的人无法有效使用本体的问题,SUMO本体研究机构已经利用WordNet/SUMO映射可以作为SUMO本体概念的自然语言索引的特性,设计一个使用SUMO本体概念的工具,该工具以WordNet同义词集为桥梁,用户输入自然语言词汇就可以获取SUMO本体中相关的概念。通过与其交互,用户能够看到与自己兴趣领域相关的所有SUMO本体概念,使他们更容易利用本体做知识工程和数据模型任务。该工具已经被集成到SUMO Browser中,在“http://sigma.ontologyportal.org:4010/sigma/Browse.jsp?kb=SUMO”网站中可用。

(2)对于本体概念与自然语言词汇之间存在普遍性与特殊性的矛盾,导致本体概念与自然语言词汇无法有效沟通和互操作的问题,可以发挥WordNet同义词集的桥梁作用,把两者连通起来。WordNet同义词典是由25个独立起始概念,与其他同义词集进行语义互联形成的语义网络。每个同义词集可以用一个概念表示,可以映射到SUMO本体概念。同义词集是由具有相同意义的自然语言词汇组成,包含绝大部分自然语言词汇。因此利用WordNet/SUMO映射可以很好地解决本体概念与自然语言词汇之间的矛盾,极大地促进本体在众多领域的应用。如可以利用WordNet同义词集的桥梁作用,将每个SUMO本体概念分配到每个与它相关的自然语言词汇上,对自然语言文档进行概念标注,实现语义Web服务;还可以通过WordNet/SUMO映射,将文档-词向量空间映射成文本-概念向量空间,将目前许多应用领域如信息检索、文本分类、文本聚类、文档摘要等以词汇作为基本处理单元提升到以概念为基本处理单元的层次,实现文档的语义检索、语义分类、语义聚类和摘要。

(3)一个本体是否完整,主要看它在一个规范化的上下文语义环境中能否表达任何人想表达的任何事情。任何本体在开始的时候都不可能是完整的,SUMO本体也不例外。在对WordNet同义词集与SUMO本体概念进行映射表示的过程,会发现SUMO本体中某些不完整的地方,并对其进行修复,从而使SUMO本体更加完整。如可能会碰到在SUMO本体概念中无法找到与WordNet某些同义词集意思相接近的概念的情况,这时,可以根据WordNet同义词集的意思在SUMO本体中重新安排一个概念;SUMO本体中有些概念缺少定义和公理,此时可以把WordNet同义词集对应的定义和公理增加到SUMO本体中。

3.2 映射模型

由上述分析可知,SUMO专注于领域概念,基本上涵盖了所有领域的概念实体及语义关系,WordNet专注于同义词集。两者因开发者、应用目的不同而存在异构。SUMO本体库是IEEE标准上层知识本体工作小组为了发展标准的上层知识本体SUO (Standard Upper Ontology),促进数据共享性、信息检索、自动推理和自然语言处理的发展而设计的[ 15]。WordNet是美国普林斯顿大学认知科学实验室Miller等学者在国家自然科学基金项目的支持下,为解决传统用户按照字母顺序查询利用词汇的方式耗时耗力等问题,将具有相同意义的词汇组合成同义词集,根据同义词集之间的语义关系,利用语义网络将其组织起来,目前已广泛应用于计算语言学、自然语言处理等领域[ 16]。SUMO与WordNet本体库之间虽然存在异构,但它们都是对人类世界的概念化描述,只不过描述的方式和层次不同。WordNet的主要目的是将这些概念化描述映射成自然语言词汇,是对人类世界的具体描述,而SUMO的主要目的将它们组织成一个层次清晰、语义丰富的逻辑结构,是对人类世界的抽象描述。在实际应用中,如果想使自然语言描述的世界与概念体系描述的抽象世界进行通信,需要在WordNet与SUMO本体之间建立映射关系。据此,笔者建立了自然语言词汇、WordNet同义词集和SUMO本体概念之间的映射模型,如图2所示。

模型设计的基本流程有以下几个部分:

(1) 映射专家的确定

映射工作既是一个技术活,也是一个智力活,需要语言学、心理学、自然语言处理等领域的专家参与,没有这些专家的参与,映射的质量和效果都会大打折扣。自然语言词汇到WordNet之间的映射是由美国普林斯顿大学认知科学实验室心理学家Miller领导的研究小组完成的。SUMO本体库及其与WordNet之间的映射由著名的软件设计公司Teknowledge 和Articulate设计和维护,版权目前归IEEE拥有。

(2) 自然语言词汇的选择

WordNet同义词典的自然语言词汇主要来源于美国布朗大学(Brown University) 的两位语言学家Nelson Francis和Herry Kucera构建的Brown语料库和已有的一些词表如Laurence Urdang (1978)的《同义反义小词典》、Urdang(1978)修订的《Rodale同义词词典》、Robert Chapmand(1977)的第4版《罗杰斯同义词词林》、著名的COMLEX词典等[ 17]

图2 自然语言词汇、WordNet同义词集和SUMO本体概念三者之间的映射模型

(3) 自然语言词汇到WordNet同义词集的映射

领域专家对自然语言词汇进行分类,主要分为4大类:名词、动词、形容词和副词,然后从各类词汇集合中抽取具有同义关系的词组合成同义词集,并确定同义词集之间的关系如上下位关系、部分整体关系、同义反义关系等,每个同义词集合表示一个独立的概念,最后将同义词集作为网络结点,同义词集之间的关系作为结点之间的关系链条,形成WordNet同义词集语义链图,如图3所示:

图3 WordNet3.0版名词同义词的顶层同义词集语义链图

图3中每一个框代表一个同义词集合,框内的序号为该集合在WordNet中的索引号,索引号通常为8位,为表示方便,图中省略了数字前面的“0”,箭头指示同义词集合之间的上下位关系。

可以看出,WordNet 3.0版名词同义词集语义链图与以前版本如1.5、1.6、1.7、2.0、2.1等有所不同。以前版本名词同义词集语义链图有25个独立起始同义词集,分别语义互联其他同义词集构成。而目前3.0版WordNet同义词集仅有一个独立起始同义词集,并且该同义词集与SUMO本体概念体系的根概念相同,图3所示的顶层同义词集语义链图也与SUMO本体顶层概念体系有相似之处。因此笔者认为,WordNet 3.0版致力于消除WordNet与SUMO本体之间的差异,更好地实现两者之间的映射。

(4) WordNet同义词集到SUMO本体概念之间的映射

由映射专家分析WordNet同义词集与SUMO本体概念各自代表的含义,确定两者之间的映射关系。WordNet同义词与SUMO本体概念的映射关系如图2所示,主要有以下三种:等价关系(equivalent to)、包含关系(subsumed by)和实例关系(instance of)。然后确定映射关系的表示符号。在WordNet与SUMO的映射过程中,映射专家用“&%”标识SUMO本体概念;“=”标识WordNet同义词集与SUMO本体概念之间的等价关系即两者在意思上相同;“+”标识两者之间的包含关系,即WordNet同义词集被SUMO本体概念所包含;“@”表示两者之间的实例关系,即WordNet同义词集是SUMO本体概念的一个成员。最后确定WordNet同义词集与SUMO本体概念之间的映射表示语言格式。两者之间的映射语言格式基本上在保留WordNet同义词集描述语言格式的基础上,加上所映射的SUMO本体概念标识及其与WordNet同义词集之间的关系标识。

3.3 映射实例

(1) WordNet同义词集实例分析

WordNet同义词集包括名词、动词、形容词和副词同义词集。由于4种同义词集表示方式类似,因此本文仅对名词同义词集进行详述。WordNet 3.0版名词同义词集中只有一个独立起始概念即同义词集{entity},此前版本有25个独立起始概念。独立起始概念是语义领域所有概念或同义词集的一个原始语义元素,抽象层次最高,具有独立意义,没有上位同义词集。WordNet同义词集语义链图以独立起始概念开始,通过下位关系(hyponymy)连接其他同义词集,其他同义词集之间通过上下位关系(hypernymy-hyponymy)进行语义互联而形成。WordNet 3.0版名词同义词集语义链图的一个实例如图4所示:

图4 WordNet3.0版同义词集语义链图的一个实例

图4中小三角形代表的是词“basketball”,每个小圆圈代表WordNet中的一个同义词集合,圆圈旁边的注释为同义词集合的内容及其ID号。小圆圈之间用带箭头的线连接,小圆圈所代表的同义词集通过上位/下位关系联系起来,从而构成同义词集语义链。该同义词集语义链的首端对应的是WordNet3.0中的独立起始概念:{entity},末端对应的是词“basketball”的两个义项,即图中所示同义词集ID号为“480993”和“2802426”的两个同义词集合。

关于同义词集语义链,目前没有一个明确的定义。Song等将同义词集看成概念,提出概念链的定义,即概念链是一个结构: ζ: =(C,<),结构中ζ表示概念链,C表示组成概念链的概念集,C中的元素是不同的概念,“<”表示概念之间的上下位关系[ 18]。根据Song等的定义,笔者对同义词集语义链的定义进行修正,即同义词集语义链是由独立起始同义词集利用下位关系链接其他同义词集,其他同义词集之间利用上下位关系进行链接形成的。语言符号表示为:ζ:= ((S,<)

图4所示的两条语义链:“480993<479076<463246<523513^455599<407535<30358<29378<23100<2137<1740” 和 “2802426<2778669^2802721<3414162^4285146<3294048<3575240<21939<3553<2684<1930<1740”。两条语义链都是以同义词集1740:{entity }为独立起始概念,通过上位/下位关系与其他同义词集进行语义互联,语义链中“523513^455599”表示一个同义词集同时有两个上位集时出现的分支,“479076”和“2778669^2802721”是两个末端同义词集“480993”和“2802426”的上位集。笔者就同义词集“2137:{abstraction, abstract_entity}”的描述语言分析同义词集的语言组织格式,具体分析内容如图5所示。

图5 WordNet3.0版同义词集语言组织格式的一个实例分析

(2) WordNet同义词集与SUMO本体概念之间映射的实例分析

WordNet同义词典与SUMO本体虽然因开发者不同、应用目的不同而存在异构,但两者之间具有映射关系,即SUMO本体中的所有概念能够映射到WordNet本体中的同义词集,WordNet本体中的同义词集也能映射到SUMO本体中的概念。目前两者之间的映射关系主要有三种:等价关系、包含关系和实例关系。本文通过构建WordNet同义词集语义链与SUMO本体概念体系映射的一个实例图对WordNet同义词集与SUMO本体概念之间的映射关系、映射语言格式进行分析研究。

WordNet同义词集语义链与SUMO本体概念体系之间映射的实例如图6所示:

图6 WordNet同义词集与SUMO本体概念之间的映射实例

图6由三部分组成:左边的WordNet同义词集语义链、右边的SUMO本体概念体系和中间的映射部分。上文已有对WordNet同义词集语义链的介绍,此处不再赘述。SUMO本体概念体系是以“entity”为根概念,概念之间通过子类关系(subclass of)、超类关系(superclass of)、等价关系(equivalent of)、实例关系(instance of)等进行互联形成的。概念“between”是概念“object”的一个实例,概念“physical”是概念“entity”的子类,反过来,“entity”是“physical”的超类。映射部分主要通过三种映射关系将WordNet同义词集语义链中的同义词集映射到SUMO本体概念体系中的概念。就这三种映射关系的实例对两者之间映射关系、映射语言格式进行分析如下:

① 等价关系

00001930 03 n 01 physical_entity 0 007 @00001740 n 0000 ~ 00002452 n 0000 ~ 00002684 n 0000 ~ 00007347 n 0000 ~ 00020827 n 0000 ~ 00029677 n 0000 ~ 14580597 n 0000 | an entity that has physical existence &%Physical=记录共分为两部分,分隔符分别为“&%”。 “&%”前面的部分为WordNet同义词集,后面的部分为WordNet同义词集所映射的SUMO本体概念,“=”表示WordNet同义词集{physical_entity}与SUMO本体概念“physical”的映射关系是等价关系。

② 包含关系

08518505 15 n 01 capital 0 010 @08647945 n 0000 ~i 08558289 n 0000 ~ 08691669 n 0000 ~ 08695198 n 0000 ~ 08695539 n 0000 ~i 08709593 n 0000 ~i 08755664 n 0000 ~i 08888479 n 0000 ~i 08892596 n 0000 ~i 08895386 n 0000 | a seat of government &%LandArea+与第一条记录不同的是“&%”后面映射部分出现“+”标识符,而不是“=”标识符。“+”标识符表示WordNet中同义词集在SUMO本体中不存在等价概念时,映射到SUMO本体中能够包含该同义词集语义的更抽象的概念,如此记录中同义词集“首都{capital}”映射到SUMO本体中涵盖首都语义的抽象概念“陆地区域(LandArea)”。

③ 实例关系

08724726 15 n 04 Beijing 0 Peking 0 Peiping 0 capital_of_Red_China 0 003 @i 08691669 n 0000 #p08723006 n 0000 % p08724972 n 0000 | capital of the People’s Republic of China in the Hebei province in northeastern China; 2nd largest Chinese city &%City@与前两条记录不同的是“&%”后面映射部分出现“@”标识符。该标识符表示WordNet中同义词集在SUMO本体中既不存在同义概念,也不存在上位概念,只是SUMO概念的一个实例或成员。如记录中“&%City@”表示同义词集“首都北京{Beijing,Peking,Peiping,capital_of_Red_China}是概念“城市(city)”的一个具体城市。

3.4 映射效果及应用分析

(1)映射效果分析

确定实体之间映射关系的映射方法主要有两种:人工映射和自动映射。人工映射方式通过领域专家确定实体之间的映射关系,映射的建立耗时耗力,映射更新速度慢,映射专家的能力和水平直接决定映射的效果和质量。自动映射方式采用相似度计算方法确定实体之间的映射关系,映射建立省时省力,映射更新速度快,映射方法的优劣直接决定映射的效果和质量。一般来说,人工映射方式充分考虑了实体的上下文语境,因此映射效果和质量较高,而自动映射无法有效地辨认实体的上下文语境,映射效果和质量无法与人工映射方式相比,不过人工映射方式需要很多领域专家的参与,才能保证映射效果和质量,这是很多研究机构无法做到的,也是人工映射方式无法广泛应用的一个原因。WordNet同义词集与SUMO本体概念之间的映射采用的是人工映射方法,是由著名的软件设计公司Teknowledge 和Articulate赞助和维护的,因此有足够的人力和财力保证WordNet同义词集与SUMO本体概念之间的映射效果和质量。

(2)映射的应用领域分析

国内外学者对WordNet、SUMO等本体的应用研究主要集中于单本体的应用研究,如基于WordNet同义词典的应用[ 19]或基于领域本体的应用[ 20],很少有学者将两者结合起来,利用两者之间的映射关系去解决一些问题。从国外相关研究[ 21]可以看出,国外学者主要利用两者之间的映射关系去检验概念隐喻中的源域和目标域之间映射原则的有效性[ 22]。为更进一步地拓展WordNet/SUMO映射的应用领域,笔者简要分析WordNet/SUMO本体映射在语义标注、语义分类、语义检索等领域中应用的方法,以便给读者在该领域的研究提供一些思路。

①语义标注

目前流行的语义标注方法是利用领域本体对文档信息进行语义标注,该方法需要综合考虑各种因素计算文档词汇与本体概念之间的相似度,然后根据相似度将本体概念安排到对应词汇上[ 23]。很明显,这种方法计算复杂度高,标注准确率低。而利用WordNet同义词与SUMO本体概念之间的映射关系可以借助WordNet同义词典直接将SUMO本体概念安排到对应的文档词汇上,方法简单、效率高、标注准确率高。

②语义分类

目前比较流行的语义分类方法是潜在语义索引法[ 24]和本体语义映射法。本体语义映射法主要利用相似度计算方法计算文档词汇与本体概念之间的相似度,根据相似度建立两者之间的映射关系,将文档词汇映射成本体概念,形成文档概念向量空间,从而实现语义分类[ 25]。很明显,文档词汇与本体概念之间存在普遍性和特殊性的矛盾,相似度计算较复杂。而利用WordNet同义词集与SUMO本体概念之间的映射关系,可以直接将文档-词向量空间中的词条映射成WordNet同义词集,进而映射成SUMO本体中相应的概念,形成文档-概念向量空间进行文本自动分类,无需计算相似度,方法简单直接,效率高。

③语义检索

WordNet/SUMO本体映射在语义检索领域的应用可以借助WordNet同义词集与SUMO本体概念之间的映射关系,将用户查询关键词所在的WordNet同义词集及其对应的SUMO本体概念扩展到用户查询表达式中,实现用户查询的语义扩展检索。

4 结语

本体概念与自然语言词汇之间普遍性与特殊性的矛盾,使得本体概念与自然语言词汇无法进行有效沟通和互操作,导致这些领域对本体的应用研究仅停留在理论、模型、框架研究层次上,无法提升到实践与应用层次。本文针对该问题,以WordNet同义词典和SUMO本体为研究对象,对两者的内在机制,两者之间的映射动机、映射模型、映射实例、映射效果及应用进行深入分析与研究,以便更好地利用WordNet同义词典贴近自然语言词汇、SUMO本体概念抽象层次高的特性和两者之间的映射关系去解决本体概念与自然语言词汇之间普遍性与特殊性的矛盾,并在后续文章中利用两者之间的映射关系将传统词向量空间映射成概念向量空间,将传统基于词向量空间的文本分类、信息检索、数据挖掘等领域的研究提升到基本概念向量空间的层次,从而促进本体更广泛地应用于这些领域。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献
[1] Ginter F, Pyysalo S, Boberg J, et al. Ontology-based Feature Transformations: A Data-driven Approach[C]. In: Proceedings of the 4th International Conference, EsTAL 2004-Advances in Natural Language Processing. Berlin: Springer, 2004: 279-290. [本文引用:1]
[2] 李文, 陈叶旺, 彭鑫, . 一种有效的基于本体的词语-概念映射方法[J]. 计算机科学, 2010, 37(10): 138-142. [本文引用:1]
[3] Suggested Upper Merged Ontology (SUMO)[EB/OL]. [2010-04-28]. http://www.ontologyportal.org/. [本文引用:1]
[4] Sigma Knowledge Engineering Environment[EB/OL]. [2010-04-29]. http://sigmakee.sourceforge.net/. [本文引用:1]
[5] DBpedia[EB/OL]. [2010-04-29]. http://dbpedia.org/About. [本文引用:1]
[6] Welcome to Wikipedia[EB/OL]. [2010-04-30]. http://en.wikipedia.org/wiki/Main_Page. [本文引用:1]
[7] The Open Biological Biomedical Ontologies [EB/OL]. [2010-04-30]. http://www.obofoundry.org/. [本文引用:1]
[8] Stand ard Upper Ontology Knowledge Interchange Format [EB/OL]. [2010-05-02]. http://sigmakee.cvs.sourceforge.net/viewvc/sigmakee/sigma/suo-kif.pdf. [本文引用:1]
[9] Graphviz - Graph Visualization Software [EB/OL]. [2010-05-02]. http://www.graphviz.org/. [本文引用:1]
[10] Translating UNL Expressions to Logical Expressions [EB/OL]. [2010-05-03]. http://www.ontologyportal.com/pubs/KumarThesis.pdf. [本文引用:1]
[11] Sevcenko M. Online Presentation of an Upper Ontology[EB/OL]. [2010-05-03]. http://www.ontologyportal.org/pubs/Sevcenko.pdf. [本文引用:1]
[12] Miller G A, Beckwith R, Fellbaum C, et al. Introduction to WordNet: An On-line Lexical Database[J]. International Journal of Lexicography, 1990, 3(4): 235-244. [本文引用:1]
[13] Wnstats - WordNet 3. 0 Database Statistics [EB/OL]. [2010-05-03]. http://wordnet.princeton.edu/wordnet/man/wnstats.7WN.html. [本文引用:1]
[14] Niles I, Pease A. Linking Lexicons and Ontologies: Mapping WordNet to the Suggested Upper Merged Ontology [C]. In:Proceedingsofthe2003InternationalConferenceonInformationandKnowledgeEngineering(IKE03),LasVegas. 2003: 23-26. [本文引用:1]
[15] Pease A, Niles I, Li J. The Suggested Upper Merged Ontology: A Large Ontology for the Semantic Web and Its Applications [C]. In:WorkingNotesoftheAAAI-2002WorkshoponOntologiesandtheSemanticWeb,Edmonton,Canada. 2002. [本文引用:1]
[16] Miller G A. WordNet: A Lexical Database for English[J]. Communications of the ACM, 1995, 38(11): 39-41. [本文引用:1] [JCR: 2.511]
[17] 詹卫东. WordNet 简介[EB/OL]. [2010-05-10]. http://ccl.pku.edu.cn/doubtfire/course/computational%20linguistics/contents/Intr2WordNet_zwd20030630.pdf. [本文引用:1]
[18] Song S X, Zhang J, Li C P. Concept Chain Based Text Clustering [C]. In: Proceedings of 2005 International Conference on Computational Intelligence and Security (CIS 2005). Berlin: Springer-Verlag, 2005: 713-720. [本文引用:1]
[19] 张剑, 李春平. 基于WordNet 概念向量空间模型的文本分类[J]. 计算机工程与应用, 2006, 42(4): 174-178. [本文引用:1]
[20] Lee Y H, Tsao W J, Chu T H. Use of Ontology to Support Concept-based Text Categorization[C]. In: Proceedings of Designing E-Business Systems: Markets, Services, and Networks, the 7th Workshop on E-Business, Web 2008. LNBIP 22. Heidelberg: Springer-Verlag, 2009: 201-213. [本文引用:1]
[21] Publications[EB/OL]. [2010-05-14]. http://www.ontologyportal.org/Pubs.html#FOIS. [本文引用:1]
[22] Ahrens K, Chung S F, Huang C R. From Lexical Semantics to Conceptual Metaphors: Mapping Principle Verification with WordNet and SUMO[C]. In: Proceedings of the 5th Chinese Lexical Semantics Workshop(CLSW-5). Singapore: COLIPS, 2004: 99-106. [本文引用:1]
[23] 时念云, 杨晨. 基于领域本体的语义标注方法研究[J]. 计算机工程与设计, 2007, 28(24): 5985-5987. [本文引用:1]
[24] Abdelwahab A, Sekiya H, Matsuba I, et al. An Efficient Collaborative Filtering Algorithm Using SVD-free Latent Semantic Indexing and Particle Swarm Optimization[C]. In: Proceedings of 2009 International Conference on Natural Language Processing and Knowledge Engineering, NLP-KE 2009. Piscataway: IEEE Computer Society, 2009: 1-4. [本文引用:1]
[25] 张真. 基于语义相似度的中文文本分类系统的研究与实现[D]. 大连: 大连海事大学, 2007. [本文引用:1]