领域本体学习方法和技术研究综述

引用本文

刘萍, 胡月红. 领域本体学习方法和技术研究综述. 现代图书情报技术, 2012, 28(1): 19-26
Liu Ping, Hu Yuehong. Review on Ontology Learning Methods and Techniques. New Technology of Library and Information Service, 2012, 28(1): 19-26 复制到剪切板

Permissions

This article is the open access journal literature, in the following situations are free to use: academic research and academic exchanges, scientific research and teaching, etc., but don't allow for commercial purposes.

领域本体学习方法和技术研究综述

刘萍, 胡月红

武汉大学信息资源研究中心武汉 430072

基金:本文系教育部人文社会科学青年基金项目“高校专家知识地图构建研究”（项目编号：10YJC870022）的研究成果之一;

摘要

分析本体学习的内容,对本体学习的发展进行评述;对领域本体学习过程中的几个关键任务——领域概念抽取、概念关系的识别进行深入的分析;总结领域本体学习的发展趋势。

关键词: 领域本体; 本体学习; 学习技术

Review on Ontology Learning Methods and Techniques

Liu Ping, Hu Yuehong

Center for Studies of Information Resources, Wuhan University, Wuhan 430072, China

Abstract

This paper describes the elements of Ontology learning and the development of learning methods. The key tasks of Ontology learning, including concept extraction and relationship identification are analyzed in detail. Finally, it summarizes the challenges and developing trend in Ontology learning.

Keyword: Domain Ontology; Ontology learning; Learning techniques

Show Figures

1 引言

随着互联网的快速普及,无数新信息迅速产生。如何科学地组织、管理和维护海量信息以便为用户提供有效的服务成为一项重要而迫切的研究课题。本体是共享概念模型的形式化规范说明^{[ 1]},能够在语义和知识层次上描述信息,自被提出以来就引起了国内外众多科研人员的关注,并在许多领域得到了广泛的应用,如知识工程、数字图书馆、信息检索、异构信息的处理和语义网等^{[ 2]}。本体应用的基础是构建本体,传统的手工构建方式虽然可以保证质量,但费时费力。本体学习是解决本体构建的重要手段,它利用统计、机器学习、自然语言处理等技术自动(半自动)地从已有的数据源中获得期望的本体^{[ 3]}。本文调研了本体学习的发展和研究现状,从领域概念抽取和概念关系的识别两个方面对本体学习的方法和技术进行介绍,指出该领域今后的研究方向。

2 本体学习的内容及发展

2.1 本体学习的内容

Maedche等^{[ 4]}将本体结构定义为一个五元组:O:={C, R, H_C, rel, A_O}。其中O 代表本体,C表示概念集合,R表示关系集合,H_C表示概念等级或分类层次,H_C ∈C×C代表一种有向关系,H_C(C₁,C₂)表示C₁是C₂的子概念;rel:R→C×C是一个函数,表示概念间的非等级关系,rel(R)= (C₁,C₂)也可表示为R(C₁,C₂),A_O表示本体公理集,是指领域内被公认无需证明的正确假设。由本体结构可以看出,本体学习的内容包括概念的学习,概念关系的学习和公理的学习。当前对公理的学习还比较少^{[ 5, 6]},本体学习研究的重点是领域概念和概念关系的自动抽取。

领域概念是领域内公认的核心概念,用于表达领域的主题。领域概念来源于但并不等同于领域术语,相对于领域术语而言,它通常具有如下特征:在特定的领域数据源中使用频次较高、分布范围较广,在非领域数据源中使用较少;词性大多为名词;一般为合成词,词的各部分结合紧密、满足语言完备性。本体学习是依据领域概念的统计特征和语言学特征自动抽取领域概念。

概念间的关系主要有等级关系和非等级关系两类。其中等级关系也称上下位关系,用来描述领域的概念层次体系。非等级关系也称相关关系,本质上是一种联想关系^{[ 7]},它来源于人们长期的知识积累所形成的思维,而且其涵盖的范围十分广泛。概念间的关系既能够通过统计概念在领域文档中的分布特征抽取,也可以利用概念所在语句的语法特征进行挖掘。

2.2 本体学习的发展

本体学习的研究兴起于20世纪末。鉴于叙词表与本体有诸多相似之处,最初研究人员利用领域叙词表进行本体转化。Syracuse大学的Qin等^{[ 8]}研究了将GEM中的受控词表转换成Ontology的原理和规则框架;联合国粮农组织(FAO)^{[ 9]}在农业本体服务项目中将AGROVOC叙词表改造成语义关系丰富的农业本体,采用rules-as-you-go算法,借助计算机辅助识别可能的语义关系。Jannink^{[ 10]},Rigau^{[ 11]},Suryanto等^{[ 12]}分别探索了从机器可读词典和领域知识库中学习本体的方法。

同一时期,Johannesson^{[ 13]}提出基于关系数据库的本体构建,通过分析关系模型蕴涵的基本语义信息,将其映射到本体中的相应部分。Stojanovic等^{[ 14]}对此进行了优化,考虑了数据库中的包含依赖关系以及主外键,进一步完善了关系模型到本体的映射规则。

随着网络资源的增加,半结构化的数据(XML/HTML网页、DTD、RDF标注的网页)也成为本体学习的数据源。Deitel等^{[ 15]}提出了一种从RDF标注中进行本体学习的方法。Papatheodorou等^{[ 16]}运用数据挖掘方法从XML/RDF描述的领域数据仓库中抽取领域概念的分类关系。目前开发出的从半结构化数据中学习本体的工具有OntoBuilder^{[ 17]}、OntoLiFT^{[ 18]}、Hasti^{[ 5]}等。

近年来,研究人员开始探索如何从自由文本中学习本体,因为自由文本包含大量的持续更新的领域术语和丰富的语义信息,有助于获得更完整的领域概念和更准确的概念间关系。但由于文本数据非结构化的特点,概念以及概念间的关系多隐含于其中,因而还需要借助自然语言处理、统计学、人工智能和机器学习等方法进行本体学习。Wagner^{[ 19]}在本体的自动生成中,通过语料统计分析技术推荐词汇,抽取领域概念。Chalendar等^{[ 20]}开发了SVETLAN系统,该系统可以通过检索获得与主题相关的动词,建立语法主题单元三元组,在此基础上识别名词的等级关系。Bisson等^{[ 21]}开发了Mo’K工作台,可以帮助开发者根据给定的任务选取合适的学习算法进行聚类,并且能够对概念聚类方法进行评价、比较和加工。Cimiano等^{[ 22]}将形式概念分析引入领域本体构建当中,实现了领域本体的自动构建, 提高了本体构建的效率和形式化程度。具有代表性的基于非结构化数据的本体学习工具有ASIUM^{[ 23]}、Text-To-Onto/Text2Onto^{[ 24]}、OntoLearn^{[ 25]}。

目前,对领域概念和概念等级关系的学习取得一些成果,能够实现概念和概念等级关系的自动获取,在概念非等级关系的学习方面,大部分方法都停留在判断两个概念有关系的层面上,无法进一步揭示关系的语义内容。

3 本体学习中领域概念抽取

本体学习中领域概念抽取的方法可以归纳为三种:基于语言学的领域概念抽取、基于统计的领域概念抽取以及将两者结合起来的混合方法。

3.1 基于语言学的领域概念抽取

最简单的基于语言学的概念抽取是以POS(Part-Of-Speech)^{[ 26]}标注为基础,即根据句子中成分的位置挖掘概念,该方法只能利用词语的词性,如名词、动词、形容词等较弱的语言学信息抽取概念,影响概念挖掘的准确率。

浅层解析技术是基于语言学的概念抽取常用技术,即在已进行词性标记的文本中,探测句子中词语边界,发现词语间语法关系(如主谓、动宾关系),进而确定领域概念。Bourigault^{[ 27]}认为术语单元有一个固定的词法形式,他在浅层语法解析的基础上抽取出了最大长度的名词短语。

Sabou等^{[ 28]}提出基于语法依赖的概念挖掘,综合利用词语的词素(Morpheme)、词根(Root)、在句子中的位置等信息,基于浅层语义信息挖掘领域概念,所挖掘的概念大多是名词性短语NP,包括由名词充当修辞成分的名词短语(NN)和由形容词修辞的名词短语(Mod)两种形式。

Shamsfard等^{[ 29]}采用基于模式匹配的方法抽取领域概念,先利用语言学的相关知识分析领域文本,根据语言的结构、运用、功能等来建立规则,再依据建立的规则抽取概念。

基于语言学的方法在术语消歧和准确率上具有非常明显的优势,所得概念都有一定的意义,并且不依赖大语料库,计算量较小,对低频术语的抽取效果也较好。但这种方法也存在不足之处:该方法依赖于分词和词性标注的结果;相关的语法模式规则难以维护,新添加规则容易与旧规则相冲突,无法保证一致性和完备性,算法的可移植性较差。

3.2 基于统计的领域概念抽取

基于统计的领域概念抽取,一般通过计算领域术语的词频、词语长度、领域分布率、领域相关度、领域一致度、合成词内部的结合程度等来筛选领域概念。

郑家恒等^{[ 30]}提出采用非线性函数与“成对比较法”相结合的方法,综合考虑位置和词频因素,计算候选词的权重,筛选领域关键词。翟林^{[ 31]}根据合成词内部的相关性和外部的上下文依赖性,采用互信息和上下文依赖分析相结合的方法选择领域术语,进一步通过TF-IDF筛选领域概念。

黄婵^{[ 32]}在领域概念的抽取中对传统的TF-IDF公式进行了改进。将词语的长度、位置信息(题名、关键词、摘要等)添加到公式中,长度增加,权重相应增加,出现在题名的短语比出现在关键词和摘要中的权重高。

Navigli等^{[ 33]}提出加入领域无关文档,通过对比筛选具有领域特征的概念。该方法综合利用领域相关度和领域一致度进行衡量,领域相关度反映术语与特定领域的相关程度,领域一致度反映术语在领域文集中的分布情况。

于娟^{[ 34]}继承并发展了此方法,通过领域隶属度(DMM)衡量概念隶属于领域的程度,领域隶属度由领域相关度、领域均匀度(相当于领域一致度)、竞争因子共同决定。

结合领域无关的文档进行统计有助于筛选出领域特征明显的概念,但是如何有效地选择对照文档也是有待进一步研究的问题。

上述统计方法的性能和准确率依赖于领域语料库的规模和候选概念的词频,面对稀疏矩阵时效果较差。因此,一些研究将特征聚类、主成分分析、潜在语义分析、非负矩阵分解等方法用于领域概念的抽取中^{[ 35]},通过降维的方式改变原特征的性质,形成新的特征集,进而实现概念的抽取。

基于统计的概念抽取,除了可以在已有领域候选词库的基础上进行外,还可以利用机器学习的方法自动地从文本中抽取。

Chien^{[ 36]} 于1999年第一次提出根据词在句子中的位置构造基于上下文的PAT-Tree,利用PAT-Tree实现了一种可变长统计语言模型,进而抽取关键词。陈文亮等^{[ 37]}提出利用Bootstrapping的机器学习技术,从给定的几个领域种子词出发,从大规模无标注真实语料中自动抽取领域词汇。在此基础上,Ji等^{[ 38]}提出基于种子-扩展机制的关键词抽取方法,实现了领域种子词的自动抽取。

近年来,社会网络分析的方法^{[ 39, 40]}被用于领域概念的抽取。在共词矩阵的基础上得到关键词之间的关联网络图,利用社会网络分析方法对关键词进行聚类并挖掘核心关键词,为领域概念的抽取提供帮助。

基于统计的关键词抽取的优势在于它不需要词法、句法层面的信息,不局限于某一特定专业领域,可移植性较好,但是计算量很大。

3.3 混合方法

基于统计的方法和基于语言学的方法各有优势和不足,将两者结合使用,可实现互补,获得更好的学习效果。何琳^{[ 41]}采用N-Gram文本表达方法,抽取领域术语,并通过部分语法规则辅助去除N-Gram法产生的噪音数据,最后综合字符串的长度和频次信息,采用GF/GL衡量一个字符串对主题的表达能力,抽取领域概念。周浪^{[ 42]}使用子串归并、搭配检验和领域相关度等技术解决领域术语抽取中的三个问题:短语结构不完整、短语内部词汇搭配不合理、短语中所负载的领域信息量较少,提高低频术语和基础术语的抽取效果。Wu等^{[ 43]}先使用PAT-Tree发现领域的高频新词,作为领域概念的种子词,再使用抽取规则从词性标注后的中文语料库中抽取与种子词相关的概念。翟笃风等^{[ 44]}借鉴Frantzi等^{[ 45]}提出C-value/NC-value方法,先通过中文分词技术和单字合并法提取政务文本中的候选术语,再通过C-value求解法和TF-IDF对候选术语进行过滤抽取。

在混合方法中,从语言学的角度可以挖掘术语的内部信息,包括构成术语的单词之间的组合信息和术语自身的结构信息;通过统计的方法则可以挖掘术语的外在信息,即一系列与术语所处文档环境相关的信息,混合使用挖掘领域概念的效果更理想。

4 本体学习中概念关系的识别

本体学习中概念间关系的识别可以分为:基于结构化词表的方法、基于语言学的方法、基于统计的方法。其中,结构化词表既包括传统结构化词典,如同义词词典、中国分类主题词表、领域叙词表等;又包括各类机器可读词典(MRD)^{[ 46]},如国外的WordNet、MindNet、FrameNet、VerbNet,国内的HowNet等。传统结构化词表所建立的概念间关系种类较少,以等级关系为主,而且大量的隐式概念层次关系不能通过词表的方法挖掘出来;大多数机器可读词典都是领域无关的,因而也制约了该方法在挖掘等级关系中的应用。

4.1 基于语言学的概念关系识别

基于语言学的方法通过语形分析、句法分析、依存结构分析以及语义分析等来识别概念间的等级关系。

具有相同词根的术语往往具有词根所对应的一切特征,是词根所描述概念的下位概念。利用术语的这个特点,可以以词形为切入点,从术语的结构相似性来判断一对术语之间是否存在等级关系。于娟^{[ 34]},Brewster等^{[ 47]}分别采用这种方法学习概念之间的等级关系。

上述方法仅利用了概念词法层面的信息,基于模板匹配的方法则利用句法层面的信息挖掘概念间等级关系。该方法通过分析领域相关文本,可以总结出一些频繁出现的语言模式作为规则,然后判断文本中词的序列是否匹配某个模式,如果匹配,则可以识别出相应的等级关系。Hearst^{[ 48, 49]} 于1992年最先采用模板匹配方法从原始语料中抽取概念间的上下位关系,先后手工构造了6个表示上下位关系的词汇句法语境(概念关系模板),在此基础上,通过自举(Bootstrapping)算法模型提取概念间上下位关系。

Agichtein等^{[ 50]} 、Ahmad等^{[ 51]} 、Pantel等^{[ 52]}分别从附加语境、基于Web的语境匹配、语境学习等方面,对Hearst模式获取的方法进行改进,以获取高质量语境特征,挖掘概念间的等级关系。

为了识别概念间的相关关系,Nedellec^{[ 53]}和Kavalec等^{[ 54]}提出利用经常出现在这两个概念周围的动词来标识概念关系。该方法假设:如果概念C₁和C₂间具有语义关系V,当且仅当C₁和C₂都出现在含有动词V的n个词内,动词和概念对间的这种关联度则可以用一个条件概率来表示。

综上所述,基于语言学的概念关系识别主要利用词法或句法层面的相关信息,把词汇作为整体去匹配识别,避免了切词匹配过程中破坏词汇作为整体而特有的含义,因此该方法所识别出的词间关系准确率高。缺点是可移植性较差,语法规则的完备性对于概念关系识别的效果影响较大。

4.2 基于统计的概念关系识别

(1)基于聚类的等级关系识别

基于聚类的等级关系识别,其指导思想是Harris的分布假设^{[ 55]},即在相似的语法环境中出现的词具有语义相似性,语法环境指每个概念出现的上下文环境,通过一定的聚类算法将上下文环境相似的概念聚类,形成概念的等级体系。最常用的聚类算法是自底向上的凝聚聚类方法^{[ 41, 56, 57]}。

针对层次聚类方法中一个概念只能得到一个父概念的问题,Faure等^{[ 58]}采用宽度优先的方法对概念进行逐层聚类,该方法在进行每层聚类的时候都要考虑除当前簇的父簇外的所有簇,能够识别出一个概念的多个父概念。何琳^{[ 41]}通过改进聚类的粒度和约束类的数目对层次聚类方法进行改进,优化聚类效果。

除了层次聚类外,形式概念分析技术也能够识别出概念间隐含的层次关系。Cimiano等^{[ 22]}通过句法解析器得到语法树,将名词抽象为概念,概念的上下文特征(动词)表示为属性,以此作为形式背景生成概念格,将概念格的偏序关系作为本体的概念层次。王磊等^{[ 59]}借鉴此方法构建关键词×文档矩阵作为形式背景,挖掘概念间的等级关系。Zhang等^{[ 60]}在此基础上进行改进,通过启发式方法(论文共著),构建关键词×关键词矩阵作为形式背景,在此基础上挖掘概念间隐含的等级关系。

Obitko等^{[ 61]}指出,概念由属性描述,属性决定概念的层次,当两个概念属性相同时,这两个概念也相同。张云中^{[ 62]}对此进行改进,将领域形式背景根据相关理论分解成若干个兼容子背景,进而分别根据子背景构建概念格,得到概念层次模型。他采用这种方法挖掘交通工具领域概念的等级关系。

此外,基于划分的聚类、基于密度的聚类、自组织映射的方法均可以用于概念间分类关系的学习,学习的结果是将一组概念划分为几个并列的类,类与类之间不存在等级关系,在此不再赘述。

(2)基于关联规则的概念关系挖掘

关联规则挖掘通过支持度(Support)和置信度(Confidence)进行关联度的度量,用于发现大量数据中项集之间有趣的关联或相关联系。常用的算法有Apriori算法、采样算法、频繁模式树算法和分区算法^{[ 63]}等。

Maedche等^{[ 64, 65]}最先描述并评价了将关联规则应用于本体学习的方法。随后,他们在Text-To-Onto工具中进一步将已有的概念类层次结构作为背景知识,以指导概念间非等级关系的识别。王俊华^{[ 66]}在概念非等级关系的学习中,使用改进的关联挖掘技术,添加在概念附近频繁出现的动词,以此揭示概念之间的语义关系。

Sanderson等^{[ 67]}使用基于文档级别的关联规则挖掘,他们假设如果词t₁出现过的任何文档中都有t₂出现,那么t₁比t₂更特殊,即t₁是 t₂的下位关系。基于这个假设,他们将文档集中的名词自动归纳出一个概念层次。

基于统计的方法从统计学的角度出发,通过对大规模语料库的统计处理发现统计规律,从而挖掘概念之间的关系,由于其不需要语言学的知识作支持,因而该方法与语言和领域无关,具有较强的移植性。但是,这种方法的效果很大程度上依赖于语料库的质量和规模,而且难以为关系类型赋予具体的语义标签。为了获取更丰富准确的概念关系,研究人员往往综合使用多种方法,如层次聚类与模式匹配^{[ 41]}、语法分析与聚类^{[ 23]}、语义相似度与语法分析^{[ 25]}、语义相似度与关联规则^{[ 68]}、模式匹配与关联规则^{[ 66, 67, 68, 69]}等,以提高本体构建的自动化程度,增强所构建本体的语义丰富性和形式化程度,以便确切地表达领域知识。

上述基于语言学和基于统计的方法主要依赖于词语在文档中的语法特征和分布特性来识别概念间的关系,没有考虑词语之间的语义关联。语义关联可以通过语义相似度来衡量,近年来,基于维基百科的语义相似度计算有了较大的进展。Strube等^{[ 70]}提出了WikiRelate!方法,以词汇为标题的文章的相关度作为词汇的相关度。Gabrilovich等^{[ 71]}提出显性语义分析法(ESA),ESA方法通过使用机器学习的方法,建立语义翻译器将自然语言文本片段或词汇映射到一系列加权的Wikipedia概念,然后计算向量的夹角余弦值得到相关度。词汇语义关联度的计算能够改进共词矩阵或关键词网络,从而提高概念抽取和关系识别的准确度。

5 结语

本体学习致力于实现本体的自动构建,能够解决构建过程中自动获取知识这一瓶颈,有助于挖掘更全面的领域概念以及概念之间的关系,提高本体构建效率。从目前的研究来看,虽然本体学习的研究已经取得了一定的成果,但还有很多工作要做,进一步的研究主要包括以下几个方面:

(1)增强对抽取概念的语义理解。为了更准确地识别概念,挖掘概念间的关系,增强对抽取概念的语义理解是非常重要的。单纯从计算机的角度对统计学算法的研究已趋于饱和,有必要加强结合对领域知识的理解,对抽取的概念进行解释。不仅有助于用户对本体的理解和使用,而且有助于减少本体构建中的冗余信息。

(2)多类型数据源的结合。不同类型的数据源,如自由文本、专业词表/词典、知识库、数据库以及Web网页等,在本体构建中的互补性都是不容忽视的,综合利用各种类型的数据有助于获取丰富的领域知识。因此,在本体构建之初,如何对多类型的数据源进行筛选结合是需要考虑的问题。

(3)本体学习过程的可视化。由于本体学习方法本身的复杂性,常常使得一般用户难以理解。本体学习的可视化主要是通过可视化技术的直观性来弥补本体学习复杂性的缺陷,是用户与本体学习系统的有效交互,加强与领域专家的合作。

(4)本体的评价。本体能否实际应用,需要对其进行评估与测试。虽然目前已经有一些从不同角度提出的领域本体评价策略,但是尚未形成一套完善的本体评估理论,关于本体评价的研究内容尚不明确,现有的研究既没有给出完整的评价分析框架,也没有建立起可行的评估指标体系及评估工具。

(5)本体的自动进化。一方面是指本体自身的进化,如建立本体自丰富机制,增加新的本体概念,并完善本体概念间的语义关系。另一方面是加强本体的对外进化,因为不同的领域本体之间也存在多种关联,为避免本体“孤岛”的现象,加强不同领域本体之间的互操作是十分必要的。

参考文献

View Option

[1]	Borst W N. Construction of Engineering Ontologies for Knowledge Sharing and Reuse[D]. Enschede: University of Twente, 1997. [本文引用:1]
[2]	邓志鸿, 唐世渭, 张铭, 等. Ontology研究综述[J]. 北京大学学报: 自然科学版, 2002, 38(5): 730-738. [本文引用:1]
[3]	Gómez P A, Manzano M D. A Survey of Ontology Learning Methods and Techniques[EB/OL]. [2011-09-23]. http://www.sti-innsbruck.at/fileadmin/documents/deliverables/Ontoweb/D1.5.pdf [本文引用:1]
[4]	Maedche A, Staab S. Ontology Learning for the Semantic Web[C]. In: Proceedings of the IEEE Intelligent Systems. 2001. [本文引用:1]
[5]	Shamsfard M, Barforoush A. Learning Ontologies from Natural Language Texts[J]. International Journal of Human Computer Studies, 2004, 60(1): 17-63. [本文引用:2] [JCR: 1.415]
[6]	任柏青. 基于关系数据库的领域本体构建方法的研究与实践[D]. 北京: 北京邮电大学, 2009. [本文引用:1]
[7]	贾黎莉. Ontology构建中概念间关系的研究[D]. 北京: 中国农业科学院, 2007. [本文引用:1]
[8]	Qin J, Paling S. Converting a Controlled Vocabulary into an Ontology: The Case of GEM[J/OL]. Information Research, 2001, 6(2). [2011-09-23]. http://informationr.net/ir/6-2/paper94.html. [本文引用:1]
[9]	Dagobert S. Building a Rich Ontology from AGROVOC[OL]. [2011-10-13]. http://www.dsoergel.com/cv/B93.ppt. [本文引用:1]
[10]	Jannink J. Thesaurus Entry Extraction from an On-line Dictionary[C]. In: Proceedings of the 2nd International Conference on Information Fusion, Sunnyvale, CA, USA. 1999: 599-607. [本文引用:1]
[11]	Rigau G. Automatic Acquisition of Lexical Knowledge from MRDs[D]. Barcelona: Universitat Politècnica de Catalunya, 1998. [本文引用:1]
[12]	Suryanto H, Compton P. Discovery of Ontologies from Knowledge Bases[C]. In: Proceedings of the 1st International Conference on Knowledge Capture, British Columbia, Canada. 2001: 171-178. [本文引用:1]
[13]	Johannesson P. A Method for Transforming Relational Schemas into Conceptual Schemas[C]. In: Proceedings of the 10th International Conference on Data Engineering. Boston: IEEE Computer Society, 1994: 190-201. [本文引用:1]
[14]	Stojanovic L, Stojanovic N, Volz R. Migrating Data-intensive Websites into the Semantic Web[C]. In: Proceedings of the 17th ACM Symposium on Applied Computing. New York: ACM Press, 2002: 1100-1107. [本文引用:1]
[15]	Deitel A, Faron C, Dieng R. Learning Ontologies from RDF Annotations[C]. In: Proceedings of the IJCAI Workshop in Ontology Learning, Seattle, USA. 2001. [本文引用:1]
[16]	Papatheodorou C, Vassiliou A, Simon B. Diseovery of Ontologies for Learning Resources Using Word-based Clustering[C]. In: Proceedings of the World Conference on Educational Multimedia, Hypermedia and Telecommunications. Chesa Peake: AACE, 2002: 1523-1528. [本文引用:1]
[17]	Modica G, Gal A, Jamil H M. The Use of Machine-Generated Ontologies in Dynamic Information Seeking[C]. In: Proceedings of the 9th International Conference on Cooperative Information Systems. Springer-Verlag, 2001. [本文引用:1]
[18]	Volz R, Oberle D, Staab S, et al. OntoLiFT Prototype[EB/OL]. [2011-10-13]. http://wonderweb.man.ac.uk/deliverables/documents/D11.pdf [本文引用:1]
[19]	Wagner A. Enriching a Lexical Semantic Net with Selectional Preferences by Means of Statistical Corpus Analysis[C]. In: Proceedings of the 1st Workshop on Ontology Learning, Berlin, Germany. 2000. [本文引用:1]
[20]	Chalendar G D, Grau B. SVETLAN: A System to Classify Nouns in Context[C]. In: Proceedings of the 1st Workshop on Ontology Learning, Berlin, Germany. 2000. [本文引用:1]
[21]	Bisson G, Nédellec C, Cañamero D. Designing Clustering Methods for Ontology Building-The Mo’K Workbench [C]. In: Proceedings of the ECAI Ontology Learning Workshop, Berlin, Germany. 2000. [本文引用:1]
[22]	Cimiano P, Stumme G, Hotho A. Conceptual Knowledge Processing with Formal Concept Analysis and Ontologies[C]. In: Proceedings of the 2nd International Conference on Formal Concept Analysis (ICFCA). Springer, 2004: 189-207. [本文引用:2]
[23]	Faure D, Nédellec C. Knowledge Acquisition of Predicate Argument Structures from Technical Texts Using Machine Learning: The System ASIUM[C]. In: Proceedings of the 11th European Workshop (EKAW’99). Springer-Verlag, 1999: 329-334. [本文引用:2]
[24]	Maedche A, Volz R. The Text-To-Onto Ontology Extraction and Maintenance Environment[C]. In: Proceedings of the ICDM Workshop on Integrating Data Mining and Knowledge Management, San Jose, California, USA. 2001. [本文引用:1]
[25]	Velardi P, Navigli R, Missikoff M. Integrated Approach for Web Ontology Learning and Engineering[C]. In: Proceedings of the IEEEComputer. 2002: 60-63. [本文引用:2]
[26]	Sabou M. From Software APIs to Web Service Ontologies: A Semi-Automatic Extraction Method[C]. In: Proceedings of International Semantic Web Conference (ISWC), Hiroshima, Japan. 2004. [本文引用:1]
[27]	Bourigault D. Surface Grarnmatieal Analysis for the Extraction of Terminological Noun Phrase[C] . In: Proceedings of International Conference on Computational Linguistics(COLING). 1992: 977-981. [本文引用:1]
[28]	Sabou M, Chris W. Learning Domain Ontologies for Web Service Descriptions: An Experiment in Bioinformatics[C]. In: Proceedings of the 14th International Conference on World Wide Web. New York, USA: ACM, 2005. [本文引用:1]
[29]	Shamsfard M, Barforoush A. Learning Ontologies from Natural Language Texts[J]. International Journal of Human-Computer Studies, 2004, 60(1): 17-63. [本文引用:1] [JCR: 1.415]
[30]	郑家恒, 卢娇丽. 关键词抽取方法的研究[J]. 计算机工程, 2005, 31(18): 194-196. [本文引用:1]
[31]	翟林. 领域本体的半自动构建方法研究与实现[D]. 南京: 东南大学, 2005. [本文引用:1]
[32]	黄婵. 领域本体的构建及其在Web信息抽取中的应用研究[D]. 赣州: 江西理工大学, 2009. [本文引用:1]
[33]	Navigli R, Velardi P, Gangemi A. Ontology Learning and Its Application to Automated Terminology Translation[J]. IEEE Intelligent Systems, 2003, 18(1): 22-31. [本文引用:1] [JCR: 2.154]
[34]	于娟. 基于文本的领域本体学习方法及其应用研究[D]. 大连: 大连理工大学, 2010. [本文引用:2]
[35]	奉国和, 郑伟. 文本分类特征降维研究综述[J]. 图书情报工作, 2011, 55(9): 1001-1008. [本文引用:1]
[36]	Chien L F. PAT-Tree-Based Adaptive Key-phrase Extraction for Intelligent Chinese Information Retrieval[J]. Information Processing & Management, 1999, 35(4): 501-521. [本文引用:1] [JCR: 0.488]
[37]	陈文亮, 朱靖波, 姚天顺, 等. 基于Bootstrapping的领域词汇自动获取[C]. In: Proceedings of the JSCL. 北京: 清华大学, 2003: 67-72. [本文引用:1]
[38]	Ji D H, Zhao S J, Xiao G Z. Chinese Document Re-ranking Based on Automatically Acquired Term Resource[J]. Language Resource & Evaluation, 2009, 43(4): 385-406. [本文引用:1]
[39]	张敏, 耿焕同, 王煦法. 一种利用BC方法的关键词自动提取算法研究[J]. 小型微型计算机系统, 2007, 28(1): 189-192 [本文引用:1]
[40]	魏瑞斌. 社会网络分析在关键词网络分析中的实证研究[J]. 情报杂志, 2009, 28(9): 46-49. [本文引用:1]
[41]	何琳. 领域本体的半自动构建及检索研究[M]. 南京: 东南大学出版社, 2009. [本文引用:4]
[42]	周浪. 中文术语抽取若干问题研究[D]. 南京: 南京理工大学, 2009. [本文引用:1]
[43]	Wu S H, Hsu W L. SOAT: A Semi-automatic Domain Ontology Acquisition Tool from Chinese Coprus[C]. In: Proceedings of 19th International Conference on Computational Linguistics (COLING), Taipei, Taiwan. 2002. [本文引用:1]
[44]	翟笃风, 刘柏嵩. 政务领域本体术语的自动抽取[J]. 现代图书情报技术, 2010(4): 59-65. [本文引用:1]
[45]	Frantzi K T, Ananiadou S. The C-value/NC-Value Domain-independent Method for Multiword Term Extraction[J]. Journal of Natural Language Processing, 1999, 6(3): 145-179. [本文引用:1]
[46]	王世清. 本体构建中建立概念间关系方法研究[D]. 北京: 中国农业科学院, 2010. [本文引用:1]
[47]	Brewster C, Simon J, Lueiano J, et al. Issues in Learning an Ontology from Text[C]. In: Proceedings of the Bio-Ontologies Special Interest Group Workshop 2008: Knowledge inBiology. 2008. [本文引用:1]
[48]	Hearst M A. Automatic Acquisition of Hyponyms from Large Text Corpora[C]. In: Proceedings of the 14th Conference on Computational Linguistics. 1992: 539-545. [本文引用:1]
[49]	Hearst M A. Automated Discovery of WordNet Relations[A]. //Fellbaum C. WordNet: An Electronic Lexical Database and Some of Its Applications[M]. MIT Press, 1998. [本文引用:1]
[50]	Agiehtein E, Eskin E, Gravano L. Combining Strategies for Extracting Relations from Text Collections[C]. In: Proceedings of the ACM SIGMOD Workshop on Data Mining and KnowledgeDiseovery. 2000: 86-95. [本文引用:1]
[51]	Ahlnad K, Tariq M, Vrusias B, et al. Corpus-based Thesaurus Construction for Image Retrieval in Speeialist Domains[C]In: Proceedings of the 25th European Conference on Advances in Information Retrieval(ECIR), Pisa, Italy. 2003: 502-510. [本文引用:1]
[52]	Pantel P, Ravichand ran D, Hovy E. Towards Terascale Knowledge Acquisition[C]. In: Proceedings of the 20th International Conference on Computational Linguisties(COLING), Geneva, Switzerland . 2004. [本文引用:1]
[53]	Nedellec C. Corpus-based Learning of Semantic Relations by the ILP System Asium[C]. In: Proceedings of Learning Languagein Logic, Berlin, Germany. 2000: 259-278. [本文引用:1]
[54]	Kavalec M, Maedche A, Svateck V. Discovery of Lexical Entries for Non-taxonomic Relations in Ontology Learning [C]. In: Proceedings of Conference on Current Trends in Theory and Practice of Informatics(SOFSEM). 2004: 249-256. [本文引用:1]
[55]	Harris Z S. Mathematical Structures of Language[M]. New York: Wiley Inter-Science, 1968. [本文引用:1]
[56]	傅魁. 基于Web的本体学习研究[D]. 武汉: 武汉理工大学, 2007. [本文引用:1]
[57]	Zhou L. Ontology Learning: State of the Art and Open Issues[J]. Information Technology Management, 2007, 8(3): 241-252. [本文引用:1]
[58]	Faure D, Nedellec C. A Corpus-based Conceptual Clustering Method for Verb Frames and Ontology Acquisition [C]. In: Proceedings of the LREC Workshop on Adapting Lexical and Corpus Resources to Sublanguages and Applications. Granada: LREC, 1998: 5-12. [本文引用:1]
[59]	王磊, 周宽久, 仇鹏. 领域本体自动构建研究[J]. 情报学报, 2010, 29(1): 45-52. [本文引用:1]
[60]	Zhang G Q, Troy A D, Bourgoin K. Bootstrapping Ontology Learning for Information Retrieval Using Formal Concept Analysis and Information Anchors[C]. In: Proceedings of the 14th International Conference on Conceptual Structures, Alborg. 2006. [本文引用:1]
[61]	Obitko M, Snášel V, Smid J. Ontology Design with Formal Concept Analysis[C]. In: Proceedings of the CLA 2004 International Workshop on Concept Lattices and TheirApplications. 2004: 111-119. [本文引用:1]
[62]	张云中. 基于形式概念分析的领域本体构建方法研究[D]. 长春: 吉林大学, 2009. [本文引用:1]
[63]	Han J, Kamber M. Data Mining: Concepts and Techniques[R/OL]. [2011-01-23]. http://134.208.3.165/course/2006/Fall/Data_mining/06.pdf. [本文引用:1]
[64]	Maedche A, Staab S. Discovering Conceptual Relations from Text[C]. In: Proceedings of the European Conference on Artificial Intelligence (ECAI). 2000: 321-325. [本文引用:1]
[65]	Maedche A, Staab S. Ontology Learning for the Semantic Web[C]. In: Proceedings of the IEEE IntelligentSystems. 2001: 72-79. [本文引用:1]
[66]	王俊华. 基于文本的半监督领域领域本体构建[D]. 长春: 吉林大学, 2010. [本文引用:2]
[67]	Sand erson M, Croft B. Deriving Concept Hierarchies from Text[C]. In: Proceedings of the Special Interest Group on Information Retrieval (SIGIR). 1999: 206-213. [本文引用:2]
[68]	杨芬. 本体学习中概念和关系抽取方法研究[D]. 重庆: 重庆大学, 2010. [本文引用:2]
[69]	刘柏崇. 基于Web的通用本体学习方法[D]. 杭州: 浙江大学, 2007. [本文引用:1]
[70]	Strube M, Ponzetto S P. WikiRelate! Computing Semantic Relatedness Using Wikipedia[C]. In: Proceedings of the 21st National Conference on ArtificialIntelligence. 2006. [本文引用:1]
[71]	Gabrilovich E, Markovich S. Computing Semantic Relatedness Using Wikipedia-based Explicit Semantic Analysis[C]. In: Proceedings of the 20th International Joint Conference on Artificial Intelligence (IJCAI’07), Hyderabad, India. 2007. [本文引用:1]

1997

0.0

... 本体是共享概念模型的形式化规范说明^[1],能够在语义和知识层次上描述信息,自被提出以来就引起了国内外众多科研人员的关注,并在许多领域得到了广泛的应用,如知识工程、数字图书馆、信息检索、异构信息的处理和语义网等^[2] ...

2002

0.0

2011

0.0

... 本体学习是解决本体构建的重要手段,它利用统计、机器学习、自然语言处理等技术自动(半自动)地从已有的数据源中获得期望的本体^[3] ...

2001

0.0

... 1 本体学习的内容Maedche等^[4]将本体结构定义为一个五元组:O:=#cod#x0007b ...

2004

1.415

0.0

. 2004, 60(1):17-63 DOI:10.1016/j.ijhcs.2003.08.001

Learning Ontologies from Natural Language Texts

Abstract Research on ontology is becoming increasingly widespread in the computer science community. The major problems in building ontologies are the bottleneck of knowledge acquisition and time-consuming construction of various ontologies for various domains/applications. Meanwhile moving toward automation of ontology construction is a solution. We proposed an automatic ontology building approach. In this approach, the system starts from a small ontology kernel and constructs the ontology through text understanding automatically. The kernel contains the primitive concepts, relations and operators to build an ontology. The features of our proposed model are being domain/application independent, building ontologies upon a small primary kernel, learning words, concepts, taxonomic and non-taxonomic relations and axioms and applying a symbolic, hybrid ontology learning approach consisting of logical, linguistic based, template driven and semantic analysis methods. Hasti is an ongoing project to implement and test the automatic ontology building approach. It extracts lexical and ontological knowledge from Persian (Farsi) texts. In this paper, at first, we will describe some ontology engineering problems, which motivated our approach. In the next sections, after a brief description of Hasti, its features and its architecture, we will discuss its components in detail. In each part, the learning algorithms will be described. Then some experimental results will be discussed and at last, we will have an overview of related works and will introduce a general framework to compare ontology learning systems and will compare Hasti with related works according to the framework.

... 当前对公理的学习还比较少^[5,6],本体学习研究的重点是领域概念和概念关系的自动抽取 ...

... 目前开发出的从半结构化数据中学习本体的工具有OntoBuilder^[17]、OntoLiFT ^[18]、Hasti^[5]等 ...

2009

0.0

... 当前对公理的学习还比较少^[5,6],本体学习研究的重点是领域概念和概念关系的自动抽取 ...

2007

0.0

... 非等级关系也称相关关系,本质上是一种联想关系^[7],它来源于人们长期的知识积累所形成的思维,而且其涵盖的范围十分广泛 ...

2001

0.0

... Syracuse大学的Qin等^[8]研究了将GEM中的受控词表转换成Ontology的原理和规则框架 ...

2011

0.0

... 联合国粮农组织(FAO)^[9]在农业本体服务项目中将AGROVOC叙词表改造成语义关系丰富的农业本体,采用rules-as-you-go算法,借助计算机辅助识别可能的语义关系 ...

1999

0.0

... Jannink^[10],Rigau^[11],Suryanto等^[12]分别探索了从机器可读词典和领域知识库中学习本体的方法 ...

1998

0.0

... Jannink^[10],Rigau^[11],Suryanto等^[12]分别探索了从机器可读词典和领域知识库中学习本体的方法 ...

2001

0.0

... Jannink^[10],Rigau^[11],Suryanto等^[12]分别探索了从机器可读词典和领域知识库中学习本体的方法 ...

1994

0.0

... 同一时期,Johannesson^[13]提出基于关系数据库的本体构建,通过分析关系模型蕴涵的基本语义信息,将其映射到本体中的相应部分 ...

2002

0.0

... Stojanovic等^[14]对此进行了优化,考虑了数据库中的包含依赖关系以及主外键,进一步完善了关系模型到本体的映射规则 ...

2001

0.0

... Deitel等^[15]提出了一种从RDF标注中进行本体学习的方法 ...

2002

0.0

... Papatheodorou等^[16]运用数据挖掘方法从XML/RDF描述的领域数据仓库中抽取领域概念的分类关系 ...

2001

0.0

... 目前开发出的从半结构化数据中学习本体的工具有OntoBuilder^[17]、OntoLiFT ^[18]、Hasti^[5]等 ...

2011

0.0

... 目前开发出的从半结构化数据中学习本体的工具有OntoBuilder^[17]、OntoLiFT ^[18]、Hasti^[5]等 ...

2000

0.0

... Wagner^[19]在本体的自动生成中,通过语料统计分析技术推荐词汇,抽取领域概念 ...

2000

0.0

... Chalendar等^[20]开发了SVETLAN系统,该系统可以通过检索获得与主题相关的动词,建立语法主题单元三元组,在此基础上识别名词的等级关系 ...

2000

0.0

... Bisson等^[21]开发了Mo’K工作台,可以帮助开发者根据给定的任务选取合适的学习算法进行聚类,并且能够对概念聚类方法进行评价、比较和加工 ...

2004

0.0

... Cimiano等^[22]将形式概念分析引入领域本体构建当中,实现了领域本体的自动构建, 提高了本体构建的效率和形式化程度 ...

... Cimiano等^[22]通过句法解析器得到语法树,将名词抽象为概念,概念的上下文特征(动词)表示为属性,以此作为形式背景生成概念格,将概念格的偏序关系作为本体的概念层次 ...

1999

0.0

... 具有代表性的基于非结构化数据的本体学习工具有ASIUM^[23]、Text-To-Onto/Text2Onto^[24]、OntoLearn^[25] ...

... 为了获取更丰富准确的概念关系,研究人员往往综合使用多种方法,如层次聚类与模式匹配^[41]、语法分析与聚类^[23]、语义相似度与语法分析^[25]、语义相似度与关联规则^[68]、模式匹配与关联规则^{[66,67,68,69]}等,以提高本体构建的自动化程度,增强所构建本体的语义丰富性和形式化程度,以便确切地表达领域知识 ...

2001

0.0

... 具有代表性的基于非结构化数据的本体学习工具有ASIUM^[23]、Text-To-Onto/Text2Onto^[24]、OntoLearn^[25] ...

2002

0.0

... 具有代表性的基于非结构化数据的本体学习工具有ASIUM^[23]、Text-To-Onto/Text2Onto^[24]、OntoLearn^[25] ...

2004

0.0

... 1 基于语言学的领域概念抽取最简单的基于语言学的概念抽取是以POS(Part-Of-Speech)^[26]标注为基础,即根据句子中成分的位置挖掘概念,该方法只能利用词语的词性,如名词、动词、形容词等较弱的语言学信息抽取概念,影响概念挖掘的准确率 ...

1992

0.0

... Bourigault^[27]认为术语单元有一个固定的词法形式,他在浅层语法解析的基础上抽取出了最大长度的名词短语 ...

2005

0.0

... Sabou等^[28]提出基于语法依赖的概念挖掘,综合利用词语的词素(Morpheme)、词根(Root)、在句子中的位置等信息,基于浅层语义信息挖掘领域概念,所挖掘的概念大多是名词性短语NP,包括由名词充当修辞成分的名词短语(NN)和由形容词修辞的名词短语(Mod)两种形式 ...

2004

1.415

0.0

. 2004, 60(1):17-63 DOI:10.1016/j.ijhcs.2003.08.001

Learning Ontologies from Natural Language Texts

... Shamsfard等^[29]采用基于模式匹配的方法抽取领域概念,先利用语言学的相关知识分析领域文本,根据语言的结构、运用、功能等来建立规则,再依据建立的规则抽取概念 ...

2005

0.0

... 郑家恒等^[30]提出采用非线性函数与“成对比较法”相结合的方法,综合考虑位置和词频因素,计算候选词的权重,筛选领域关键词 ...

2005

0.0

... 翟林^[31]根据合成词内部的相关性和外部的上下文依赖性,采用互信息和上下文依赖分析相结合的方法选择领域术语,进一步通过TF-IDF筛选领域概念 ...

2009

0.0

... 黄婵^[32]在领域概念的抽取中对传统的TF-IDF公式进行了改进 ...

2003

2.154

0.0

... Navigli等^[33]提出加入领域无关文档,通过对比筛选具有领域特征的概念 ...

2010

0.0

... 于娟^[34]继承并发展了此方法,通过领域隶属度(DMM)衡量概念隶属于领域的程度,领域隶属度由领域相关度、领域均匀度(相当于领域一致度)、竞争因子共同决定 ...

... 于娟^[34],Brewster等^[47]分别采用这种方法学习概念之间的等级关系 ...

2011

0.0

... 因此,一些研究将特征聚类、主成分分析、潜在语义分析、非负矩阵分解等方法用于领域概念的抽取中^[35],通过降维的方式改变原特征的性质,形成新的特征集,进而实现概念的抽取 ...

1999

0.488

0.0

... Chien^[36] 于1999年第一次提出根据词在句子中的位置构造基于上下文的PAT-Tree,利用PAT-Tree实现了一种可变长统计语言模型,进而抽取关键词 ...

2003

0.0

... 陈文亮等^[37]提出利用Bootstrapping的机器学习技术,从给定的几个领域种子词出发,从大规模无标注真实语料中自动抽取领域词汇 ...

2009

0.0

. 2009, 43(4):385-406 DOI:10.1007/s10579-009-9106-z

Chinese Document Re-ranking Based on Automatically Acquired Term Resource

1.Wuhan University Department of Computer Science, Center for Study of Language Information 430072 Wuhan China 2.Wuhan University Department of Chinese Language and Literature 430072 Wuhan China 3.Wuhan University Center for Study of Language Information 430072 Wuhan China

In this paper, we address the problem of document re-ranking in information retrieval, which is usually conducted after initial retrieval to improve rankings of relevant documents. To deal with this problem, we propose a method which automatically constructs a term resource specific to the document collection and then applies the resource to document re-ranking. The term resource includes a list of terms extracted from the documents as well as their weighting and correlations computed after initial retrieval. The term weighting based on local and global distribution ensures the re-ranking not sensitive to different choices of pseudo relevance, while the term correlation helps avoid any bias to certain specific concept embedded in queries. Experiments with NTCIR3 data show that the approach can not only improve performance of initial retrieval, but also make significant contribution to standard query expansion.

... 在此基础上,Ji等^[38]提出基于种子-扩展机制的关键词抽取方法,实现了领域种子词的自动抽取 ...

2007

0.0

... 近年来,社会网络分析的方法^[39,40]被用于领域概念的抽取 ...

2009

0.0

... 近年来,社会网络分析的方法^[39,40]被用于领域概念的抽取 ...

2009

0.0

... 何琳^[41]采用N-Gram文本表达方法,抽取领域术语,并通过部分语法规则辅助去除N-Gram法产生的噪音数据,最后综合字符串的长度和频次信息,采用GF/GL衡量一个字符串对主题的表达能力,抽取领域概念 ...

... 最常用的聚类算法是自底向上的凝聚聚类方法^[41,56,57] ...

... 何琳^[41]通过改进聚类的粒度和约束类的数目对层次聚类方法进行改进,优化聚类效果 ...

2009

0.0

... 周浪^[42]使用子串归并、搭配检验和领域相关度等技术解决领域术语抽取中的三个问题:短语结构不完整、短语内部词汇搭配不合理、短语中所负载的领域信息量较少,提高低频术语和基础术语的抽取效果 ...

2002

0.0

... Wu等^[43]先使用PAT-Tree发现领域的高频新词,作为领域概念的种子词,再使用抽取规则从词性标注后的中文语料库中抽取与种子词相关的概念 ...

0.0

... 翟笃风等^[44]借鉴Frantzi等^[45]提出C-value/NC-value方法,先通过中文分词技术和单字合并法提取政务文本中的候选术语,再通过C-value求解法和TF-IDF对候选术语进行过滤抽取 ...

1999

0.0

2010

0.0

... 又包括各类机器可读词典(MRD)^[46],如国外的WordNet、MindNet、FrameNet、VerbNet,国内的HowNet等 ...

2008

0.0

... 于娟^[34],Brewster等^[47]分别采用这种方法学习概念之间的等级关系 ...

1992

0.0

... Hearst^[48,49] 于1992年最先采用模板匹配方法从原始语料中抽取概念间的上下位关系,先后手工构造了6个表示上下位关系的词汇句法语境(概念关系模板),在此基础上,通过自举(Bootstrapping)算法模型提取概念间上下位关系 ...

1998

0.0

2000

0.0

... Agichtein等^[50] 、Ahmad等^[51] 、Pantel等^[52]分别从附加语境、基于Web的语境匹配、语境学习等方面,对Hearst模式获取的方法进行改进,以获取高质量语境特征,挖掘概念间的等级关系 ...

2003

0.0

2004

0.0

2000

0.0

... 为了识别概念间的相关关系,Nedellec^[53]和Kavalec等^[54]提出利用经常出现在这两个概念周围的动词来标识概念关系 ...

2004

0.0

... 为了识别概念间的相关关系,Nedellec^[53]和Kavalec等^[54]提出利用经常出现在这两个概念周围的动词来标识概念关系 ...

1968

0.0

... 基于聚类的等级关系识别,其指导思想是Harris的分布假设^[55],即在相似的语法环境中出现的词具有语义相似性,语法环境指每个概念出现的上下文环境,通过一定的聚类算法将上下文环境相似的概念聚类,形成概念的等级体系 ...

2007

0.0

... 最常用的聚类算法是自底向上的凝聚聚类方法^[41,56,57] ...

2007

0.0

. 2007, 8(3):241-252 DOI:10.1007/s10799-007-0019-5

Ontology Learning: State of the Art and Open Issues

1.UMBC Department of Information Systems 1000 Hilltop Circle Baltimore MD 21250 USA

Ontology is one of the fundamental cornerstones of the semantic Web. The pervasive use of ontologies in information sharing and knowledge management calls for efficient and effective approaches to ontology development. Ontology learning, which seeks to discover ontological knowledge from various forms of data automatically or semi-automatically, can overcome the bottleneck of ontology acquisition in ontology development. Despite the significant progress in ontology learning research over the past decade, there remain a number of open problems in this field. This paper provides a comprehensive review and discussion of major issues, challenges, and opportunities in ontology learning. We propose a new learning-oriented model for ontology development and a framework for ontology learning. Moreover, we identify and discuss important dimensions for classifying ontology learning approaches and techniques. In light of the impact of domain on choosing ontology learning approaches, we summarize domain characteristics that can facilitate future ontology learning effort. The paper offers a road map and a variety of insights about this fast-growing field.

... 最常用的聚类算法是自底向上的凝聚聚类方法^[41,56,57] ...

1998

0.0

... 针对层次聚类方法中一个概念只能得到一个父概念的问题,Faure等^[58]采用宽度优先的方法对概念进行逐层聚类,该方法在进行每层聚类的时候都要考虑除当前簇的父簇外的所有簇,能够识别出一个概念的多个父概念 ...

2010

0.0

... 王磊等^[59]借鉴此方法构建关键词#cod#x000d7 ...

2006

0.0

... Zhang等^[60]在此基础上进行改进,通过启发式方法(论文共著),构建关键词#cod#x000d7 ...

2004

0.0

... Obitko等^[61]指出,概念由属性描述,属性决定概念的层次,当两个概念属性相同时,这两个概念也相同 ...

2009

0.0

... 张云中^[62]对此进行改进,将领域形式背景根据相关理论分解成若干个兼容子背景,进而分别根据子背景构建概念格,得到概念层次模型 ...

2011

0.0

... 常用的算法有Apriori算法、采样算法、频繁模式树算法和分区算法^[63]等 ...

2000

0.0

... Maedche等^[64,65]最先描述并评价了将关联规则应用于本体学习的方法 ...

2001

0.0

... Maedche等^[64,65]最先描述并评价了将关联规则应用于本体学习的方法 ...

2010

0.0

... 王俊华^[66]在概念非等级关系的学习中,使用改进的关联挖掘技术,添加在概念附近频繁出现的动词,以此揭示概念之间的语义关系 ...

1999

0.0

... Sanderson等^[67]使用基于文档级别的关联规则挖掘,他们假设如果词t₁出现过的任何文档中都有t₂出现,那么t₁比t₂更特殊,即t₁是 t₂的下位关系 ...

2010

0.0

2007

0.0

2006

0.0

... Strube等^[70]提出了WikiRelate!方法,以词汇为标题的文章的相关度作为词汇的相关度 ...

2007

0.0

... Gabrilovich等^[71]提出显性语义分析法(ESA),ESA方法通过使用机器学习的方法,建立语义翻译器将自然语言文本片段或词汇映射到一系列加权的Wikipedia概念,然后计算向量的夹角余弦值得到相关度 ...