Ontology 和 FCA在知识建模中的融合机理研究
张云中
吉林大学管理学院 长春 130022
摘要

针对Ontology与FCA在知识建模中的融合问题,对比Ontology和FCA之间的异同,从哲学视角、代数结构视角、知识处理与知识管理视角分析Ontology和FCA融合的条件,剖析二者在知识建模过程中的融合机理,最终得出Ontology和FCA在知识建模过程中融合的8个具体方向,为Ontology和FCA在知识建模领域中的融合研究提供启发。

关键词: 形式概念分析; 本体; 知识建模; 融合机理
Research on Amalgamation Mechanism of FCA and Ontology in Knowledge Modeling
Zhang Yunzhong
School of Management, Jilin University, Changchun 130022,China
Abstract

For the amalgamation problems of Ontology and FCA in knowledge modeling, the similarities and differences between Ontology and FCA are compared. Then the conditions of amalgamation of Ontology and FCA are analyzed from the perspectives of philosophy, algebraic structure, knowledge processing and knowledge management, and the amalgamation mechanism of Ontology and FCA in the process of knowledge modeling is defined. Finally,the paper comes to the conclusion that Ontology and FCA can be combined on eight idiographic aspects in the process of knowledge modeling, which may offer a wide view for the amalgamation of Ontology and FCA in the field of knowledge modeling.

Keyword: FCA; Ontology; Knowledge modeling; Amalgamation mechanism
1 引 言

信息网络向知识网络的进化,对知识表示的高度形式化和语义丰富度提出了越来越高的要求。本体作为一种有效表现概念结构形式化的语义模型,被广泛地应用在知识发现、知识组织、知识推理、知识检索等多个领域。同时,随着形式概念分析(FCA)的研究逐渐从理论转向应用,国内外学者也开始尝试将FCA应用到上述领域。

FCA是对概念的哲学理解的数学化,是以人为中心的构造概念并对之进行分析的方法。FCA可以从内涵和外延两方面对概念进行形式化,用形式背景和概念格作为数据结构来对给定的概念知识进行数学分析和思考。

近年来,Ontology与FCA在知识建模中的融合研究已成为信息资源管理、智能信息系统、知识处理与知识管理等领域的热点与前沿。文献[1]基于IRMJ和JASIS对信息资源管理热点研究分析后指出: FCA被广泛应用于本体的构建,二者形成了伴生关系。文献[2]指出FCA与Ontology的结合主要包括三个方面: FCA作为本体学习

技术来支持本体构建;已有的本体可用FCA技术来分析和导航;Ontology可被用来促进FCA的应用。文献[2]-[4]从各种角度阐述了利用FCA构建领域本体的不同方法;文献[5]和[6]分别提出了基于FCA的领域本体合并方法;文献[7]对FCA用于本体导航和利用本体改善FCA处理大型数据集质量的相关成果进行了综述。

本文主要剖析Ontology与FCA之间的差异及二者走向融合的条件,进而正确把握Ontology与FCA在知识建模中的融合机理,并揭示两者融合的具体内容。

本文分别从哲学、数学、知识处理和知识管理学的视角剖析Ontology与FCA结合的条件,并以知识建模的过程为线索,分别总结了FCA与Ontology在该过程中的功能作用,并将Ontology和FCA的优势在此框架之下合理融合,指明了两者融合研究的8个方向,具有一定的创新性。

2 Ontology与FCA的差异

Ontology和FCA都是领域知识建模的有力工具,在领域知识建模的具体应用中,两者都有一套基本原理和基本方法,形成了各自的独特风格。下面从建模对象、描述层次、概念描述的完备性、描述语言、推理能力、支持可视化和建模模式7个方面对两者的差异进行对比分析,并以动物领域的一个知识片段为例,对各个论据做出佐证。该知识片段用自然语言简单描述为:“动物包含肉食动物和草食动物,肉食动物有地上跑的虎、天上飞的鹰等,草食动物有牛马等”。

(1)建模对象的差异

本体的目标是对人能感觉到的现实世界建立共享的概念模型。FCA不是为现实建模,而是为人工世界建模,其必须在给定数据的基础之上对领域知识进行分析和结构化,目的是支持用户在给定数据的基础上进行领域分析和建模。可以在没有任何数据的前提下构建本体,但必须建立在给定数据集(形式背景)的基础上使用FCA。

借助Protégé本体构建工具,在没有基础数据的前提下,可使用Ontology对客观世界的上述领域知识片段进行描述,如图1所示:

图1 用Ontology描述动物领域知识片段的示意图

图1中很容易可以看出用Is-a关系表达出的本体概念分类关系,其中肉食动物(Carnivore)具有传递属性食肉的(Carnivorous),草食动物(Herbivore)具有传递属性食草的(Herbivorous),概念虎(Tiger)、牛(Cattle)、马(Horse)具有属性陆地上的(Terrestrial),概念鹰(Eagle)具有属性能飞的(Volitant)。

相应地,采用FCA来对之进行描述,则必须有初始背景,这里暂且复用上述本体中的对象-属性关系,构成初始形式背景(见图2),进而才能通过概念格对上述领域知识片段建模。

图2 初始形式背景

由于该形式背景不是净化形式背景,故需要对形式背景进行编辑优化,通过添加属性对象使之成为净化的形式背景,如图3所示:

图3 优化后的形式背景

从引例中可看出,Ontology无需形式背景就可以建模,而FCA必须依赖于基础数据形成形式背景才可以建模。

(2)描述层次的差异

图4所示,以国际标准ISO704的层次为准,Ontology所关注的重点在表示层,而FCA更关注概念层[ 8]。事实上,FCA中对形式概念的定义与概念层的描述密切相关:形式概念由概念的外延和内涵组成,而非表示层上的名称和定义组成。

图4 ISO704标准下的对象层、概念层和表示层

(3)概念描述的完备性的差异

FCA是对概念哲学理解的数学化表示,它将概念分别从内涵和外延两方面进行描述,提高了对概念知识描述的形式化程度,丰富了概念的属性集和实例集。FCA能深刻反映出概念节点之间的多重继承关系,而且FCA能够依据概念格自动发现蕴含在形式背景中的隐含概念及其内涵和外延,这都是Ontology所不能完成的。

结合引例,用Ontology描述知识片段,领域中的概念包括肉食动物、草食动物、虎、鹰、牛、马,而领域中的属性包括食肉的、食草的、陆地上的、能飞的。显然,这些概念和属性是不完备的。而用FCA描述上述知识片段,就能进一步提高概念描述的完备性。FCA通过将优化后的形式背景转换成相应的概念格的过程(见图5),一方面丰富了概念的属性集(如偶蹄的、奇蹄的)或实例集(如雁),另一方面又生成了新的隐含概念,如走兽、飞禽、家畜等,提高了概念描述的完备性的语义丰富度。

图5 优化后背景对应的概念格

(4)描述语言的差异

本体有特定的描述语言体系来进行支撑,如SHOE、XOL、RDF、RDF-S、OIL、DAML、DAML+OIL、OWL等描述语言;而FCA则没有专门针对它的描述语言。

(5)推理能力的差异

本体依靠其描述语言(如OWL)或本体构建工具(如Protégé),应用谓词逻辑甚至描述逻辑而具有自身的推理能力,这一优势是FCA所不具有的。

(6)支持可视化的差异

FCA利用其特有数据结构概念格的Hasse图,借助特定的概念格平台,如ToscanaJ、ConExp等,实现对概念格节点、对象、属性的可视化编辑、修改、更新等,如图6所示。因此,FCA是一种将数学化和图像化良好融合起来的建模工具。而本体本身不具有图形化的表达方式,必须借助一定的本体构建工具才可实现可视化。

图6 概念格可视化工具ConExp

(7) 建模模式的差异

Ontology一般采用自顶向下的模式对领域知识进行建模,即先描述领域中的抽象度高的上层概念,然后逐步求精,依次细化;而FCA则从底层概念的属性-对象对应关系开始,自底向上进行聚类。

结合引例,Ontology的建模模式是先构建肉食动物和草食动物两个类,再分别对每个类细化;而FCA从虎、鹰、牛、马这些底层概念及其相应属性开始,自底向上聚类出肉食动物、草食动物、飞禽、走兽等高层概念。

3 Ontology与FCA的融合
3.1 哲学视角下Ontology与FCA的融合

在哲学的视角下,形式概念分析将概念深化为:概念、概念的内涵、概念的外延及概念层次关系。本体也是用来体现客观世界的概念与概念之间关系的。因此,两者都是对概念及概念之间关系的描述,这是将二者融合起来的条件之一;形式概念分析与本体都是形式化的工具和方法,二者都强调重视概念的主体间一致的重要性,都强调模型形式说明的必要性,这又是二者融合的一个条件;FCA和Ontology有着不同的关注重心,FCA强调的重心在概念层,而本体强调的重心则在表示层,这就意味着形式概念分析不宜与本体相竞争,而更适合作为它们的补充,从这个意义上说,形式概念分析和本体应当被整合在一个统一的框架之下,这也是二者融合的一个条件。

3.2 代数结构视角下Ontology与FCA的融合

代数结构主要研究各种典型的抽象代数系统,它用代数的方法从不同的研究对象中概括出一般的数学模型并研究其规律、性质和结构,是对客观世界对象的数学抽象。

FCA以概念格为主要的数据结构。概念格一般被定义为:对于形式背景K=(G,M,I),存在唯一的一个偏序集(H,≤)与之对应,并且该偏序集存在一个唯一的下确界和一个唯一的上确界,这个偏序集产生的格结构称为概念格。可见,概念格是一种典型的格结构。

本体的概念间关系基本有4种:Kind-of、Part-of、Instance-of、Attribute-of,其中以表达概念之间的继承关系的Kind-of关系最为核心。实质上,本体概念间的Kind-of关系呈现为一种偏序关系,而相应的本体概念的继承结构则呈现出格结构,下面对此论点进行论证:

设O为本体, 令Co 是本体O上的所有概念的集合,即Co = {x|x 是本体O中的一个概念};同时设a,b∈Co,若a是b的子类(存在继承关系),则记为a≤b(若a≤b且a≠b,记为a< b)。在上述前提下,则有:

(1)a∈Co,有a≤a;

(2)a,b∈Co,若a≤b 且b≤a,则a= b;

(3)a,b,c∈Co,若a≤b 且b≤c,则a≤c。

可见,本体概念集上的Kind-of关系分别满足自反性、反对称性和传递性,本体上的Kind-of关系是一种偏序关系,记为(Co,≤)。

对于本体O, 本体本身就是一个概念记为o,且该概念出现在O的表示中,因此有o∈Co。另引进一个空概念n, 表示具有所有属性但不包含任何实例的概念,则n∈Co

针对(Co,≤),对于 ⊆Co,∃o,n∈Co,且对任意 x∈ 都满足 x≤o,同理,若对任意x∈ 都满足 n≤x,则o为子集 的上界,n为子集 的下界。同时,对 的所有上界y 均有o=y,对 的所有下界 z 均有 z=n,则偏序(Co,≤)有上确界o和下确界n,加之Co中任意两个元素都有最小上界和最大下界,则偏序集(Co,≤)为格。可见,本体的概念集合从Kind-of关系的视角来看,呈现出一种格结构。

本体概念的继承关系及FCA的概念格都表现为一种代数结构,也就是格结构。这种共性从本质上揭示了二者融合的又一个条件。这种相同的代数结构使得二者之间产生一种映射关系,即可以通过映射规则将概念格节点、节点属性、节点对象和节点间联系分别映射为领域本体概念、概念属性集、概念实例和概念分类关系,这种映射是将二者融合起来的桥梁。

3.3 知识处理和知识管理视角下Ontology与FCA的融合

Ontology和FCA在知识处理和知识管理的应用领域的融合可以概括为以下几个方面:

(1)在知识发现领域:Ontology通过本体学习技术和实例学习技术来实现知识发现,前者重点处理内涵的方面,而后者着重处理外延的方面。因此,本体技术被作为一种与人交互的半自动化处理技术被广泛用于知识发现。而FCA通过对概念知识进行属性探索,或从关系数据中构造出概念格,然后从概念格上用各种规则(如蕴含规则、关联规则、分类规则等)提取各种类型的知识。二者通过各自的知识发现模式丰富了知识发现的途径。

(2)在知识表示领域:Ontology作为现实世界与机器世界的一种沟通介质,为人与人之间或组织与组织之间的交流提供共同的词汇,其通过逻辑结构上的三元组建立一种良好的约定集合,通过谓词逻辑(甚至描述逻辑)实现一定智能推理,实现了一定程度上的形式语义表达。而FCA的概念格理论促进了概念格理论者与概念格的实际潜在应用者之间的沟通,基于概念这一基本单元构建复杂的思想实体,表现出本体论约定上的健壮性,并以形式背景、形式概念和概念格来承载语义,达到逼真的替代效果,FCA作为人造工具能良好地支持人类的思考、交流沟通、讨论。

(3)在知识推理领域:本体推理一般以描述逻辑为基础,将领域知识构建在某种本体语言形式化的TBox和ABox上, 然后用本体语义关系来构造领域公理所蕴涵的产生式规则,并将形式化的规则与定义好的本体类与属性结构和声明的事实断言按一定的搜索策略进行规则模式匹配[ 9],进而实现本体推理。而对FCA而言,随着“概念-判断-结论”模式的背景逻辑不断发展,将会克服谓词逻辑在知识表示上的不足[ 8]

(4)在知识检索领域:本体被用于基于语义的智能检索系统,实现对知识语义层面的描述。而FCA的概念格可以实现对知识的有机组织,被广泛用于知识检索导航,依据概念格的多继承机制组织起来的知识,可以支持用户沿着不同的检索路径检索到同一知识。

通过上述方面可看出,在知识处理和知识管理领域,Ontology和FCA的应用各有侧重,且在很大程度上体现出一种互补的态势,因此,二者的融合将成为必然的趋势。

4 Ontology与FCA在知识建模中的融合

机理及具体内容

4.1 Ontology与FCA在知识建模中的融合机理

FCA和Ontology作为知识建模的工具,一方面两者存在着差异性,有各自的典型特征,另一方面两者又存在着千丝万缕的关联。本文在把握明晰两者的独特优势和两者融合条件的基础上,总结出FCA与Ontology在知识建模过程中融合的内在规律,并将Ontology和FCA的优势在同一个框架之下合理地进行融合,最终形成了两者在知识建模中的融合机理,如图7所示:

图7 FCA与Ontology在知识建模中的融合机理

本文将对知识进行建模的过程依次分为5个阶段:元知识(概念)获取和描述阶段;元知识(概念)间关系分析与描述阶段;原型构建及可视化阶段;形式化描述及推理阶段;复用阶段。

(1)元知识(概念)获取和描述阶段:单纯应用Ontology对知识进行建模,不能确保领域核心概念内涵外延的完备性,更不易找出隐藏概念,且元知识获取和描述的效率低下。虽然FCA不能直接对元知识进行描述(需先构造形式背景),但是FCA能从内涵和外延两方面对概念进行全面描述,能够依据概念格自动发现蕴含在形式背景中的隐含概念,并能自动分析出隐含概念的内涵和外延。因此,先通过复用Ontology为初始的形式背景提供对象-属性关系,再用FCA完善概念的内涵和外延,并挖掘隐含概念,最终达到对元知识进行完备描述的目的,成为二者融合的内在规律之一。

(2)元知识(概念)间关系分析与描述阶段:本体概念关系一般只能通过领域专家和知识工程师用人工的方式建立,费时费力,且没有完善的检验机制,容易出错。而FCA利用概念格进行概念聚类,用节点的形式将概念-对象-属性三者紧密联系在一起,并自动生成概念间的继承关系,轻松表达了多重继承的问题,实现了本体所不能实现的重要功能。在此阶段,用FCA描述元知识间的分类关系,用Ontology描述元知识间的其他关系是两者融合的机理。

(3)原型构建及可视化阶段:本体没有表达原型的工具,不易实现可视化编辑,需借助特定的工具(如Protégé工具)才可实现;而FCA可以根据概念格转换出知识原模型,并用Hasse图对模型进行可视化,在可视化基础上通过知识专家来编辑和完善原型。在此阶段,可依据本体概念Kind-of关系的格结构和FCA的格结构建立两者之间的映射关系,实现知识原型构建及可视化。

(4)形式化描述及推理阶段:本体具有多种适合各种情况的本体描述语言,并有与之相适应的推理机制或推理工具,如整合了谓词逻辑的Protégé本体构建工具,从而易于实现形式化描述和推理。而FCA没有特定的描述语言,没有自身的推理机制,在这一阶段,必须借助本体的形式化描述手段和推理机制。

(5)复用阶段:采用传统本体构建模式的知识建模过程没有统一的规则和标准,且受主观因素的影响较大,因此其共享和复用仅局限在核心词汇的层次上,然而在引用FCA进行知识建模的过程中,通过形式背景的分解、替代、合并等运算,以及对概念格进行分解、胶合等运算,实现对形式背景或概念格的复用或重构,实现对知识片段的复用,从而提高知识共享或复用的粒度。另外, FCA可以改进对领域知识概念间相似度的算法(文献[10]和[11]对此进行了详细阐述),有效解决传统基于特征的概念相似度计算方法准确性不高的问题。概念格提高了概念相似度的表达精度,可为知识模型的映射、合并、桥接奠定基础。

4.2 Ontology与FCA在知识建模中融合的具体内容

依据FCA与Ontology的融合机理,两者在知识建模中融合的具体内容包括:

(1)在领域核心概念描述上的融合。形式概念分析对领域本体核心概念分别从内涵和外延两方面进行描述,完善了领域本体核心概念的表示程度,丰富了领域本体核心概念的属性集和实例集,为构建领域本体的后续步骤奠定了基础。

(2)在发掘领域隐藏概念上的融合。形式概念分析通过构造领域形式背景,进而将形式背景转换成概念格,在这个转换过程中,不但能保留原有概念,而且还能生成蕴含在领域形式背景中的隐含概念,这些隐含概念是由原概念的内涵和外延的某种特定聚类形成的。FCA支持对隐含概念的自动发现,是其余描述工具所不能轻易完成的。

(3)在确立领域本体概念Kind-of关系上的融合。形式概念分析以概念格为核心数据结构,可以自动实现领域概念的聚类过程,从而确定领域概念的层次关系和概念继承关系,最终确立领域本体概念间的类属关系。

(4)在构建领域本体原型上的融合。通过修剪概念格,可以得出领域本体概念层次模型,基于该模型并应用领域本体与概念格的映射规则,可以将领域本体概念层次模型合理地映射为领域本体的原型,从而实现了领域本体建模的过程。

(5)在可视化编辑方面的融合。随着概念格三维可视化的相关研究在国内外的不断成熟,概念格的可视化编辑越来越合理可行。这有助于完成本体概念及其内涵、外延与概念层次结构的可视化编辑工作,进而实现领域本体原型的可视化。

(6)形式化描述及推理方面的融合。多种本体描述语言构成的本体描述语言系可以克服FCA没有描述语言和不易实现推理的困难。

(7)在本体重构或本体复用上的融合。对不够完善或难以处理的概念格进行分解、合并、编辑等操作,可以产生新的更加合理的概念格,实现概念格的重构过程。概念格的重构可以带来本体概念层次模型的重构,进而实现本体原型的重构。另外,对形式背景片段或概念格片段的复用可以有效地指导本体的复用过程。

(8)在本体映射、结盟与合并方面的融合。概念格上的概念相似度计算可以有效提高其精度,从而奠定本体映射、结盟和合并的基础。

5 结 语

Ontology和FCA的伴生关系已被学界所广泛关注并倍受青睐,两者融合也成为必然趋势。因此,找出FCA与Ontology间的异同,剖析二者融合的内在规律,最终找到其融合的具体内容或方向就显得至关重要,这就是本文所做的努力和贡献。本文提出了两者在知识建模中的融合机理,在一个统一的框架下对两者进行了互补式的融合,吸取了各自在知识建模方面的优势,同时在一定程度上摒弃了各自的一些缺点,最终指明了FCA和Ontology在知识建模中的8个融合方向。

本文的后续研究将沿着上述8个融合方向展开,在宏观研究的基础上向纵深展开,逐个击破,最终依托各个方向从更深入的层次上解决FCA和Ontology的融合问题。

参考文献
[1] 毕强, 滕广青. 国外信息资源管理研究进展及热点分析——基于IRMJ和JASIS的分析[J]. 中国图书馆学报, 2009, 35(9): 80-90. [本文引用:1]
[2] Cimiano P. Conceptual Knowledge Processing with Formal Concept Analysis and Ontologies[EB/OL]. [2010-01-15]. http://www.aifb.uni-karlsruhe.de/WBS/pci/icfca04.pdf. [本文引用:1]
[3] Haav H M. A Semi-automatic Method to Ontology Design by Using FCA[EB/OL]. [2010-01-15]. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.92.6057&rep=rep1&type=pdf. [本文引用:1]
[4] Obitko M, Snasel V, Smid J. Ontology Design with Formal Concept Analysis[EB/OL]. [2010-01-15]. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.86.2092&rep=rep1&type=pdf. [本文引用:1]
[5] Stumme G, Maedche A. FCA-merge : Bottom-up Merging of Ontologies [EB/OL]. [2010-01-15]. http://eprints.kfupm.edu.sa/40922/1/40922.pdf. [本文引用:1]
[6] Ganter B, Stumme G. Creation and Merging of Ontology Top-levels [EB/OL]. [2010-01-15]. http://www.springerlink.com/content/b52v43h6atteg5ut/fulltext.pdf. [本文引用:1]
[7] 周文, 刘宗田, 陈慧琼. FCA与本体融合研究的综述[J]. 计算机科学, 2006, 33(2): 8-12. [本文引用:1]
[8] Stumme G. Formal Concept Analysis on Its Way from Mathematics to Computer Science [EB/OL]. [2010-01-15]. http://www.springerlink.com/content/ddyjgml92pawdu4h/fulltext.pdf. [本文引用:2]
[9] 徐国虎, 许芳, 董慧. 基于语义关系的本体推理规则研究[J]. 中国图书馆学报, 2007, 33(5): 88-92. [本文引用:1]
[10] 曹泽文, 钱杰, 张维明, . 基于FCA的概念相似度计算方法[J]. 模糊系统与数学, 2008, 22(1): 155-162. [本文引用:1]
[11] 林智超, 朱国进. 一种基于FCA的概念相似度算法[J]. 计算机技术与发展, 2008, 18(9): 112-126. [本文引用:1]