This paper describes the elements of Ontology learning and the development of learning methods. The key tasks of Ontology learning, including concept extraction and relationship identification are analyzed in detail. Finally, it summarizes the challenges and developing trend in Ontology learning.
随着互联网的快速普及,无数新信息迅速产生。如何科学地组织、管理和维护海量信息以便为用户提供有效的服务成为一项重要而迫切的研究课题。本体是共享概念模型的形式化规范说明[ 1],能够在语义和知识层次上描述信息,自被提出以来就引起了国内外众多科研人员的关注,并在许多领域得到了广泛的应用,如知识工程、数字图书馆、信息检索、异构信息的处理和语义网等[ 2]。本体应用的基础是构建本体,传统的手工构建方式虽然可以保证质量,但费时费力。本体学习是解决本体构建的重要手段,它利用统计、机器学习、自然语言处理等技术自动(半自动)地从已有的数据源中获得期望的本体[ 3]。本文调研了本体学习的发展和研究现状,从领域概念抽取和概念关系的识别两个方面对本体学习的方法和技术进行介绍,指出该领域今后的研究方向。
Maedche等[ 4]将本体结构定义为一个五元组:O:={C, R, HC, rel, AO}。其中O 代表本体,C表示概念集合,R表示关系集合,HC表示概念等级或分类层次,HC ∈C×C代表一种有向关系,HC(C1,C2)表示C1是C2的子概念;rel:R→C×C是一个函数,表示概念间的非等级关系,rel(R)= (C1,C2)也可表示为R(C1,C2),AO表示本体公理集,是指领域内被公认无需证明的正确假设。由本体结构可以看出,本体学习的内容包括概念的学习,概念关系的学习和公理的学习。当前对公理的学习还比较少[ 5, 6],本体学习研究的重点是领域概念和概念关系的自动抽取。
领域概念是领域内公认的核心概念,用于表达领域的主题。领域概念来源于但并不等同于领域术语,相对于领域术语而言,它通常具有如下特征:在特定的领域数据源中使用频次较高、分布范围较广,在非领域数据源中使用较少;词性大多为名词;一般为合成词,词的各部分结合紧密、满足语言完备性。本体学习是依据领域概念的统计特征和语言学特征自动抽取领域概念。
概念间的关系主要有等级关系和非等级关系两类。其中等级关系也称上下位关系,用来描述领域的概念层次体系。非等级关系也称相关关系,本质上是一种联想关系[ 7],它来源于人们长期的知识积累所形成的思维,而且其涵盖的范围十分广泛。概念间的关系既能够通过统计概念在领域文档中的分布特征抽取,也可以利用概念所在语句的语法特征进行挖掘。
本体学习的研究兴起于20世纪末。鉴于叙词表与本体有诸多相似之处,最初研究人员利用领域叙词表进行本体转化。Syracuse大学的Qin等[ 8]研究了将GEM中的受控词表转换成Ontology的原理和规则框架;联合国粮农组织(FAO)[ 9]在农业本体服务项目中将AGROVOC叙词表改造成语义关系丰富的农业本体,采用rules-as-you-go算法,借助计算机辅助识别可能的语义关系。Jannink[ 10],Rigau[ 11],Suryanto等[ 12]分别探索了从机器可读词典和领域知识库中学习本体的方法。
同一时期,Johannesson[ 13]提出基于关系数据库的本体构建,通过分析关系模型蕴涵的基本语义信息,将其映射到本体中的相应部分。Stojanovic等[ 14]对此进行了优化,考虑了数据库中的包含依赖关系以及主外键,进一步完善了关系模型到本体的映射规则。
随着网络资源的增加,半结构化的数据(XML/HTML网页、DTD、RDF标注的网页)也成为本体学习的数据源。Deitel等[ 15]提出了一种从RDF标注中进行本体学习的方法。Papatheodorou等[ 16]运用数据挖掘方法从XML/RDF描述的领域数据仓库中抽取领域概念的分类关系。目前开发出的从半结构化数据中学习本体的工具有OntoBuilder[ 17]、OntoLiFT[ 18]、Hasti[ 5]等。
近年来,研究人员开始探索如何从自由文本中学习本体,因为自由文本包含大量的持续更新的领域术语和丰富的语义信息,有助于获得更完整的领域概念和更准确的概念间关系。但由于文本数据非结构化的特点,概念以及概念间的关系多隐含于其中,因而还需要借助自然语言处理、统计学、人工智能和机器学习等方法进行本体学习。Wagner[ 19]在本体的自动生成中,通过语料统计分析技术推荐词汇,抽取领域概念。Chalendar等[ 20]开发了SVETLAN系统,该系统可以通过检索获得与主题相关的动词,建立语法主题单元三元组,在此基础上识别名词的等级关系。Bisson等[ 21]开发了Mo’K工作台,可以帮助开发者根据给定的任务选取合适的学习算法进行聚类,并且能够对概念聚类方法进行评价、比较和加工。Cimiano等[ 22]将形式概念分析引入领域本体构建当中,实现了领域本体的自动构建, 提高了本体构建的效率和形式化程度。具有代表性的基于非结构化数据的本体学习工具有ASIUM[ 23]、Text-To-Onto/Text2Onto[ 24]、OntoLearn[ 25]。
目前,对领域概念和概念等级关系的学习取得一些成果,能够实现概念和概念等级关系的自动获取,在概念非等级关系的学习方面,大部分方法都停留在判断两个概念有关系的层面上,无法进一步揭示关系的语义内容。
本体学习中领域概念抽取的方法可以归纳为三种:基于语言学的领域概念抽取、基于统计的领域概念抽取以及将两者结合起来的混合方法。
最简单的基于语言学的概念抽取是以POS(Part-Of-Speech)[ 26]标注为基础,即根据句子中成分的位置挖掘概念,该方法只能利用词语的词性,如名词、动词、形容词等较弱的语言学信息抽取概念,影响概念挖掘的准确率。
浅层解析技术是基于语言学的概念抽取常用技术,即在已进行词性标记的文本中,探测句子中词语边界,发现词语间语法关系(如主谓、动宾关系),进而确定领域概念。Bourigault[ 27]认为术语单元有一个固定的词法形式,他在浅层语法解析的基础上抽取出了最大长度的名词短语。
Sabou等[ 28]提出基于语法依赖的概念挖掘,综合利用词语的词素(Morpheme)、词根(Root)、在句子中的位置等信息,基于浅层语义信息挖掘领域概念,所挖掘的概念大多是名词性短语NP,包括由名词充当修辞成分的名词短语(NN)和由形容词修辞的名词短语(Mod)两种形式。
Shamsfard等[ 29]采用基于模式匹配的方法抽取领域概念,先利用语言学的相关知识分析领域文本,根据语言的结构、运用、功能等来建立规则,再依据建立的规则抽取概念。
基于语言学的方法在术语消歧和准确率上具有非常明显的优势,所得概念都有一定的意义,并且不依赖大语料库,计算量较小,对低频术语的抽取效果也较好。但这种方法也存在不足之处:该方法依赖于分词和词性标注的结果;相关的语法模式规则难以维护,新添加规则容易与旧规则相冲突,无法保证一致性和完备性,算法的可移植性较差。
基于统计的领域概念抽取,一般通过计算领域术语的词频、词语长度、领域分布率、领域相关度、领域一致度、合成词内部的结合程度等来筛选领域概念。
郑家恒等[ 30]提出采用非线性函数与“成对比较法”相结合的方法,综合考虑位置和词频因素,计算候选词的权重,筛选领域关键词。翟林[ 31]根据合成词内部的相关性和外部的上下文依赖性,采用互信息和上下文依赖分析相结合的方法选择领域术语,进一步通过TF-IDF筛选领域概念。
黄婵[ 32]在领域概念的抽取中对传统的TF-IDF公式进行了改进。将词语的长度、位置信息(题名、关键词、摘要等)添加到公式中,长度增加,权重相应增加,出现在题名的短语比出现在关键词和摘要中的权重高。
Navigli等[ 33]提出加入领域无关文档,通过对比筛选具有领域特征的概念。该方法综合利用领域相关度和领域一致度进行衡量,领域相关度反映术语与特定领域的相关程度,领域一致度反映术语在领域文集中的分布情况。
于娟[ 34]继承并发展了此方法,通过领域隶属度(DMM)衡量概念隶属于领域的程度,领域隶属度由领域相关度、领域均匀度(相当于领域一致度)、竞争因子共同决定。
结合领域无关的文档进行统计有助于筛选出领域特征明显的概念,但是如何有效地选择对照文档也是有待进一步研究的问题。
上述统计方法的性能和准确率依赖于领域语料库的规模和候选概念的词频,面对稀疏矩阵时效果较差。因此,一些研究将特征聚类、主成分分析、潜在语义分析、非负矩阵分解等方法用于领域概念的抽取中[ 35],通过降维的方式改变原特征的性质,形成新的特征集,进而实现概念的抽取。
基于统计的概念抽取,除了可以在已有领域候选词库的基础上进行外,还可以利用机器学习的方法自动地从文本中抽取。
Chien[ 36] 于1999年第一次提出根据词在句子中的位置构造基于上下文的PAT-Tree,利用PAT-Tree实现了一种可变长统计语言模型,进而抽取关键词。陈文亮等[ 37]提出利用Bootstrapping的机器学习技术,从给定的几个领域种子词出发,从大规模无标注真实语料中自动抽取领域词汇。在此基础上,Ji等[ 38]提出基于种子-扩展机制的关键词抽取方法,实现了领域种子词的自动抽取。
近年来,社会网络分析的方法[ 39, 40]被用于领域概念的抽取。在共词矩阵的基础上得到关键词之间的关联网络图,利用社会网络分析方法对关键词进行聚类并挖掘核心关键词,为领域概念的抽取提供帮助。
基于统计的关键词抽取的优势在于它不需要词法、句法层面的信息,不局限于某一特定专业领域,可移植性较好,但是计算量很大。
基于统计的方法和基于语言学的方法各有优势和不足,将两者结合使用,可实现互补,获得更好的学习效果。何琳[ 41]采用N-Gram文本表达方法,抽取领域术语,并通过部分语法规则辅助去除N-Gram法产生的噪音数据,最后综合字符串的长度和频次信息,采用GF/GL衡量一个字符串对主题的表达能力,抽取领域概念。周浪[ 42]使用子串归并、搭配检验和领域相关度等技术解决领域术语抽取中的三个问题:短语结构不完整、短语内部词汇搭配不合理、短语中所负载的领域信息量较少,提高低频术语和基础术语的抽取效果。Wu等[ 43]先使用PAT-Tree发现领域的高频新词,作为领域概念的种子词,再使用抽取规则从词性标注后的中文语料库中抽取与种子词相关的概念。翟笃风等[ 44]借鉴Frantzi等[ 45]提出C-value/NC-value方法,先通过中文分词技术和单字合并法提取政务文本中的候选术语,再通过C-value求解法和TF-IDF对候选术语进行过滤抽取。
在混合方法中,从语言学的角度可以挖掘术语的内部信息,包括构成术语的单词之间的组合信息和术语自身的结构信息;通过统计的方法则可以挖掘术语的外在信息,即一系列与术语所处文档环境相关的信息,混合使用挖掘领域概念的效果更理想。
本体学习中概念间关系的识别可以分为:基于结构化词表的方法、基于语言学的方法、基于统计的方法。其中,结构化词表既包括传统结构化词典,如同义词词典、中国分类主题词表、领域叙词表等;又包括各类机器可读词典(MRD)[ 46],如国外的WordNet、MindNet、FrameNet、VerbNet,国内的HowNet等。传统结构化词表所建立的概念间关系种类较少,以等级关系为主,而且大量的隐式概念层次关系不能通过词表的方法挖掘出来;大多数机器可读词典都是领域无关的,因而也制约了该方法在挖掘等级关系中的应用。
基于语言学的方法通过语形分析、句法分析、依存结构分析以及语义分析等来识别概念间的等级关系。
具有相同词根的术语往往具有词根所对应的一切特征,是词根所描述概念的下位概念。利用术语的这个特点,可以以词形为切入点,从术语的结构相似性来判断一对术语之间是否存在等级关系。于娟[ 34],Brewster等[ 47]分别采用这种方法学习概念之间的等级关系。
上述方法仅利用了概念词法层面的信息,基于模板匹配的方法则利用句法层面的信息挖掘概念间等级关系。该方法通过分析领域相关文本,可以总结出一些频繁出现的语言模式作为规则,然后判断文本中词的序列是否匹配某个模式,如果匹配,则可以识别出相应的等级关系。Hearst[ 48, 49] 于1992年最先采用模板匹配方法从原始语料中抽取概念间的上下位关系,先后手工构造了6个表示上下位关系的词汇句法语境(概念关系模板),在此基础上,通过自举(Bootstrapping)算法模型提取概念间上下位关系。
Agichtein等[ 50] 、Ahmad等[ 51] 、Pantel等[ 52]分别从附加语境、基于Web的语境匹配、语境学习等方面,对Hearst模式获取的方法进行改进,以获取高质量语境特征,挖掘概念间的等级关系。
为了识别概念间的相关关系,Nedellec[ 53]和Kavalec等[ 54]提出利用经常出现在这两个概念周围的动词来标识概念关系。该方法假设:如果概念C1和C2间具有语义关系V,当且仅当C1和C2都出现在含有动词V的n个词内,动词和概念对间的这种关联度则可以用一个条件概率来表示。
综上所述,基于语言学的概念关系识别主要利用词法或句法层面的相关信息,把词汇作为整体去匹配识别,避免了切词匹配过程中破坏词汇作为整体而特有的含义,因此该方法所识别出的词间关系准确率高。缺点是可移植性较差,语法规则的完备性对于概念关系识别的效果影响较大。
(1)基于聚类的等级关系识别
基于聚类的等级关系识别,其指导思想是Harris的分布假设[ 55],即在相似的语法环境中出现的词具有语义相似性,语法环境指每个概念出现的上下文环境,通过一定的聚类算法将上下文环境相似的概念聚类,形成概念的等级体系。最常用的聚类算法是自底向上的凝聚聚类方法[ 41, 56, 57]。
针对层次聚类方法中一个概念只能得到一个父概念的问题,Faure等[ 58]采用宽度优先的方法对概念进行逐层聚类,该方法在进行每层聚类的时候都要考虑除当前簇的父簇外的所有簇,能够识别出一个概念的多个父概念。何琳[ 41]通过改进聚类的粒度和约束类的数目对层次聚类方法进行改进,优化聚类效果。
除了层次聚类外,形式概念分析技术也能够识别出概念间隐含的层次关系。Cimiano等[ 22]通过句法解析器得到语法树,将名词抽象为概念,概念的上下文特征(动词)表示为属性,以此作为形式背景生成概念格,将概念格的偏序关系作为本体的概念层次。王磊等[ 59]借鉴此方法构建关键词×文档矩阵作为形式背景,挖掘概念间的等级关系。Zhang等[ 60]在此基础上进行改进,通过启发式方法(论文共著),构建关键词×关键词矩阵作为形式背景,在此基础上挖掘概念间隐含的等级关系。
Obitko等[ 61]指出,概念由属性描述,属性决定概念的层次,当两个概念属性相同时,这两个概念也相同。张云中[ 62]对此进行改进,将领域形式背景根据相关理论分解成若干个兼容子背景,进而分别根据子背景构建概念格,得到概念层次模型。他采用这种方法挖掘交通工具领域概念的等级关系。
此外,基于划分的聚类、基于密度的聚类、自组织映射的方法均可以用于概念间分类关系的学习,学习的结果是将一组概念划分为几个并列的类,类与类之间不存在等级关系,在此不再赘述。
(2)基于关联规则的概念关系挖掘
关联规则挖掘通过支持度(Support)和置信度(Confidence)进行关联度的度量,用于发现大量数据中项集之间有趣的关联或相关联系。常用的算法有Apriori算法、采样算法、频繁模式树算法和分区算法[ 63]等。
Maedche等[ 64, 65]最先描述并评价了将关联规则应用于本体学习的方法。随后,他们在Text-To-Onto工具中进一步将已有的概念类层次结构作为背景知识,以指导概念间非等级关系的识别。王俊华[ 66]在概念非等级关系的学习中,使用改进的关联挖掘技术,添加在概念附近频繁出现的动词,以此揭示概念之间的语义关系。
Sanderson等[ 67]使用基于文档级别的关联规则挖掘,他们假设如果词t1出现过的任何文档中都有t2出现,那么t1比t2更特殊,即t1是 t2的下位关系。基于这个假设,他们将文档集中的名词自动归纳出一个概念层次。
基于统计的方法从统计学的角度出发,通过对大规模语料库的统计处理发现统计规律,从而挖掘概念之间的关系,由于其不需要语言学的知识作支持,因而该方法与语言和领域无关,具有较强的移植性。但是,这种方法的效果很大程度上依赖于语料库的质量和规模,而且难以为关系类型赋予具体的语义标签。为了获取更丰富准确的概念关系,研究人员往往综合使用多种方法,如层次聚类与模式匹配[ 41]、语法分析与聚类[ 23]、语义相似度与语法分析[ 25]、语义相似度与关联规则[ 68]、模式匹配与关联规则[ 66, 67, 68, 69]等,以提高本体构建的自动化程度,增强所构建本体的语义丰富性和形式化程度,以便确切地表达领域知识。
上述基于语言学和基于统计的方法主要依赖于词语在文档中的语法特征和分布特性来识别概念间的关系,没有考虑词语之间的语义关联。语义关联可以通过语义相似度来衡量,近年来,基于维基百科的语义相似度计算有了较大的进展。Strube等[ 70]提出了WikiRelate!方法,以词汇为标题的文章的相关度作为词汇的相关度。Gabrilovich等[ 71]提出显性语义分析法(ESA),ESA方法通过使用机器学习的方法,建立语义翻译器将自然语言文本片段或词汇映射到一系列加权的Wikipedia概念,然后计算向量的夹角余弦值得到相关度。词汇语义关联度的计算能够改进共词矩阵或关键词网络,从而提高概念抽取和关系识别的准确度。
本体学习致力于实现本体的自动构建,能够解决构建过程中自动获取知识这一瓶颈,有助于挖掘更全面的领域概念以及概念之间的关系,提高本体构建效率。从目前的研究来看,虽然本体学习的研究已经取得了一定的成果,但还有很多工作要做,进一步的研究主要包括以下几个方面:
(1)增强对抽取概念的语义理解。为了更准确地识别概念,挖掘概念间的关系,增强对抽取概念的语义理解是非常重要的。单纯从计算机的角度对统计学算法的研究已趋于饱和,有必要加强结合对领域知识的理解,对抽取的概念进行解释。不仅有助于用户对本体的理解和使用,而且有助于减少本体构建中的冗余信息。
(2)多类型数据源的结合。不同类型的数据源,如自由文本、专业词表/词典、知识库、数据库以及Web网页等,在本体构建中的互补性都是不容忽视的,综合利用各种类型的数据有助于获取丰富的领域知识。因此,在本体构建之初,如何对多类型的数据源进行筛选结合是需要考虑的问题。
(3)本体学习过程的可视化。由于本体学习方法本身的复杂性,常常使得一般用户难以理解。本体学习的可视化主要是通过可视化技术的直观性来弥补本体学习复杂性的缺陷,是用户与本体学习系统的有效交互,加强与领域专家的合作。
(4)本体的评价。本体能否实际应用,需要对其进行评估与测试。虽然目前已经有一些从不同角度提出的领域本体评价策略,但是尚未形成一套完善的本体评估理论,关于本体评价的研究内容尚不明确,现有的研究既没有给出完整的评价分析框架,也没有建立起可行的评估指标体系及评估工具。
(5)本体的自动进化。一方面是指本体自身的进化,如建立本体自丰富机制,增加新的本体概念,并完善本体概念间的语义关系。另一方面是加强本体的对外进化,因为不同的领域本体之间也存在多种关联,为避免本体“孤岛”的现象,加强不同领域本体之间的互操作是十分必要的。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|
[32] |
|
[33] |
|
[34] |
|
[35] |
|
[36] |
|
[37] |
|
[38] |
|
[39] |
|
[40] |
|
[41] |
|
[42] |
|
[43] |
|
[44] |
|
[45] |
|
[46] |
|
[47] |
|
[48] |
|
[49] |
|
[50] |
|
[51] |
|
[52] |
|
[53] |
|
[54] |
|
[55] |
|
[56] |
|
[57] |
|
[58] |
|
[59] |
|
[60] |
|
[61] |
|
[62] |
|
[63] |
|
[64] |
|
[65] |
|
[66] |
|
[67] |
|
[68] |
|
[69] |
|
[70] |
|
[71] |
|