基于形式概念分析的知识集成建模研究
王欣1,2, 徐宝祥1
1.吉林大学管理学院 长春 130022
2.齐齐哈尔医学院图书馆 齐齐哈尔 161006
摘要

采用形式概念分析的方法,对知识集成建模过程进行研究和分析;在此基础上利用本体来描述知识模型,提出基于形式概念分析的知识集成过程模型,并通过实例验证建模过程。结果证明在建模过程中引入FCA可以产生创新知识概念,提高网络资源的查全率;还可以对知识概念异构整合,消除同形异义词,提高网络资源的查准率。

关键词: 形式概念分析; 知识集成; 模型; 本体
Research on Knowledge Integration Modeling Based on FCA
Wang Xin1,2, Xu Baoxiang1
1.School of Management,Jilin University,Changchun 130022,China
2.Qiqihar Medical College Library,Qiqihar 161006,China
Abstract

Firstly,this article adopts the methods of Formal Concept Analysis(FCA) to analyze and research the process of knowledge integration modeling. Then it proposes the knowledge integration model based on FCA and gives the example to test the process of knowledge integration modeling. Finally,the result shows that introducing FCA in the process of knowledge integration modeling can produce innovative knowledge concepts and improve recall ratio of network resources. It also can integrate the heterogeneous concepts and remove homographs so as to improve precision ratio of network resources.

Keyword: Formal concept analysis; Knowledge integration; Modeling; Ontology
1 引 言

随着知识经济时代的到来,无论对知识经济持何种态度,在管理领域,知识已经成为企业竞争力的源泉。知识的有效集成和共享对企业的长远发展起到关键性作用并能够提升企业竞争力[ 1]。知识集成是组织获取知识所带来的收益并创造竞争优势的根本过程,这表明了知识集成具有非常重要的战略意义和实践价值[ 2]。知识集成模型主要是用来描述知识与知识之间、知识与人之间、知识与过程之间的关系,是对如何进行知识集成的一种模式或指导[ 3]。目前,该领域主要有三种模型:

(1)基于认识论的SECI模型,即显性知识和隐性知识的动态集成,严格意义上来讲,SECI模型属于知识创造模型,研究成果偏重于对知识创造的研究[ 4]

(2)基于本体论的ITOI模型,即个体知识、团队知识、组织知识和组织间知识在同一层面和不同层面的集成,此模型侧重于在具体的管理领域进行补充和扩展[ 5]

(3)基于认识论、本体论和知识范围的知识集成三维模型,即企业中的内部知识和外部知识在个体、团队和组织不同层面的知识集成[ 6],该模型侧重于知识模型的扩展。

但是笔者认为在知识集成建模过程中,应该侧重于概念模型的异构整合和实践应用,而不应该只侧重于知识创造和知识扩展。

在这样的背景下,为了解决上述知识集成模型存在的问题,笔者提出了基于形式概念分析的知识集成模型,通过形式概念分析,除了可以了解已知知识并且产生创新知识外,还可以找到隐含概念及概念间的关系,进而对知识模型进行异构整合,消除冗余概念(即消除异形同义词),这样用户访问网络资源时即可以通过产生的创新知识概念扩大自己的检索,提高网络资源的查全率;在检索结果中没有同形异义词,同时提高了网络资源的查准率。

2 基于形式概念分析的知识集成建模
2.1 形式概念分析的涵义

形式概念分析(Formal Concept Analysis,FCA)由 Wille于 1982 年首先提出[ 7],用于概念的发现、排序和显示,所有的概念连同它们之间的泛化、例化关系构成一个概念格。它的涵义是一个形式背景(Formal Context),由一个三元组 D = (A,B,R)构成,其中 A 是对象的集合,B 是属性的集合,R 是A 和B 之间的一个二元关系,即R⊆A×B,a R b表示a∈A 与b∈B 之间存在关系R[ 7]

2.2 形式概念分析与知识集成模型的结合点

形式概念分析与知识集成模型之间的结合点主要有两项:

(1)在形式概念分析中,概念格由概念层次结构组成,内涵和外延构成了概念[ 8];而知识集成模型是用来体现知识与知识之间关系的,可以利用本体对知识与知识之间的关系进行描述,进而形成公认的概念集合。因此,归根究底两者都是对概念及概念之间关系的描述,这是能将二者联系起来的根本原因。

(2)本体将形式概念分析与知识集成模型紧密联系起来。本体体现的是共同认可的知识,反映的是相关领域中公认的概念集,本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的概念,并从不同层次的形式化模式上给出这些概念(知识术语)和概念之间相互关系的明确定义[ 9]。知识集成模型的目的是描述知识与知识之间、知识与人之间、知识与过程之间的关系,因此知识集成模型的最佳描述工具就是本体。

本体的本质是概念模型,通过概念模型对信息作完全的形式化描述,使计算机可以理解网上的信息[ 10]。形式概念分析建立在数学基础之上,能够对组成本体的概念、属性以及关系等用形式化的语境表述出来,然后根据语境构造出概念格(Concept Lattice),即本体,从而能清楚地表达出本体的结构[ 11]。由此可见,本体能够将形式概念分析与知识集成模型紧密联系起来。

2.3 基于形式概念分析的知识集成建模

(1)原始数据预处理

在知识集成建模过程中,要构建描述知识之间关系的本体必须先对领域原始数据进行相关处理,原始数据大致可以分为三种类型:文本文件、关系型数据库和XML格式的网页。本文只讨论对文本文件的处理,一般过程是通过自然语言的解析器,将领域文本中的每一个句子转换成一棵语法树,通过语法树分析来将词汇关系分为动宾关系、并列关系、从属关系、主谓关系等,进而将这些关系转换成“对象-属性”关系[ 12]

(2)形式概念分析

形式概念分析一般分为三个步骤:

①根据原数据处理的结果生成形式背景:一个形式背景可以用一个关系表来表示,根据原始数据处理后得到的“对象-属性”关系,关系表的行表示对象(Objn;n=1,2,……,i),列表示属性(Attrm;m=1,2,……,j),则n+1行、m+1列的交叉处是X,表示对象n具有属性m[ 12]

②依据形式背景构造概念格:根据形成的形式背景,选用合适的造格算法将形式背景转换成概念格,即将形式背景中的对象及其属性转换成概念格中的概念节点[ 12]

③对概念格的底端节点、相关概念和顶端节点进行处理,得到知识集成模型中的知识模型[ 12]。具体做法如下:

概念格的底端节点表示包含所有概念节点的属性,在现实世界中,该概念是不存在的,因此对底端节点的处理办法是直接将其删除。

将概念格的中间节点的层次关系直接转换成描述知识模型的本体概念间的层次关系,把形式概念背景中没有的对象转变成概念节点,概念格的顶端节点处理成描述知识模型的本体层次的根概念[ 12]。由于本体体现的是共同认可的知识,反映的是相关领域中公认的概念集,因此在基于形式概念分析的知识集成建模过程中,使用本体来描述知识模型是最合适的。

Perez等人[ 13]提出Ontology 包含5 个基本构成元素,因此领域本体的逻辑结构可以看成一个5元组,O::={C,R,AC,X,I},其中,C:概念;R:概念之间的关系,表示概念之间的一类关联,R:C1×C2×…×Cn 表示概念C1、C2、…、Cn 之间存在的 n 元关系 R;AC:表示概念C所对应的属性集合;X:概念或者概念之间的关系所满足的公理,是一些永真式;I:领域内概念实例的集合,其中∮:I→C 为概念实例到所属相应概念的映射,概念的实例具有所属概念定义的属性,本文将用本体5元组来表示形式概念节点。

(3)利用本体描述的知识模型进行知识概念创新

知识概念创新过程实际上是一个不断发现问题和解决问题的过程。由于知识存储于人们的头脑中,在知识概念创新的过程中,人们所掌握的隐性知识决定了其发现问题和解决问题的能力,也就是说隐性知识是知识创新的源泉,必须依靠现有的隐性知识来创造更多的隐性知识[ 14]

在基于形式概念分析的知识集成建模过程中,建模技术人员应该根据利用本体描述出的知识模型进行详细的分析,根据实际情况先总结出新的知识概念,也就是新的隐性知识;向其他技术人员表述自己创造的新的隐性知识,使新的隐性知识变成显性知识;显性知识在所有的建模技术人员之间进行交流,大家集思广益,产生出新的知识概念,然后利用本体描述这些新的知识概念。用户在访问网络资源的时候,不仅可以使用原来的知识概念进行检索,还可以利用相关的新的知识概念进行检索,这样就扩大了网络资源的检索范围。

(4)解决利用本体描述的知识模型中语义异构的问题

在基于形式概念分析的知识集成建模过程中,知识模型所存在的语义异构的情形主要是同一个词在不同的领域中所表达的涵义不同,即同形异义词。如果存在同形异义词,建模技术人员应该利用本领域的专业词汇工具书进行查找,确定知识模型中的这两个同形异义词到底哪个才是该领域真正需要的概念节点;然后把涵义不同的概念节点和它的属性从概念模型中删除,这样在建模过程中减少了概念节点间语义含糊不清的问题和知识模型中概念节点的冗余问题。当用户检索网络资源的时候,检索结果中就不会出现同形异义词,提高了网络资源的查准率。

(5)使用OWL语言描述知识模型

随着网络资源使用率的增高,出现了一系列Web本体语言,例如RDF、OIL、OWL等。其中网络本体语言(Web Ontology Language, OWL)是W3C推荐的本体描述语言的标准,位于W3C绘制的本体语言栈的栈顶,它是为了在万维网上发布和共享本体而提供的语义标记语言[ 15],同时也是语义网活动的一个组成部分,其目的是提供更多的元语以支持更加丰富的语义表达并通过描述或提供网络内容资源的信息,从而使网络资源能更容易地被自动进程访问[ 16]。因此,为了能让用户更加方便地检索网络资源并且能够丰富网络资源的语义表达,可以使用OWL 本体语言描述实例中的对象、属性及其关系。

(6)基于形式概念分析的知识集成模型及框架

原始数据中的知识概念经过以上5个步骤的处理,减少了知识模型中概念节点之间的冗余性,同时也保证了它们之间的唯一性。这样在基于形式概念分析的知识集成建模过程中,不但进行了有效的知识创造和知识扩展,而且实现了对知识模型进行异构整合,以便更加方便地检索网络资源。基于形式概念分析的知识集成模型及其框架如图1所示:

图1 基于形式概念分析的知识集成模型

3 基于形式概念分析的知识集成模型实例研究

以网络资源中“计算工具:珠算的历史”和“算盘,电子算盘,定位算盘,速算盘类技术资料”两文为例,叙述基于形式概念分析的知识集成建模过程。由于知识集成建模过程较长,只列出其5个步骤的主要框架部分,具体情况如下:

3.1 原始数据预处理

截取以上两篇文章的网络资源如下:“算盘是以算珠代替算筹,它起源于中国,陶宗义著《南村辍耕录》中,最初提到算盘一词,并说拨之则动,一般为木制[ 17]。经过发展,现在已经有了乐音算盘:在算珠内装有发声弹簧,经过改进的算盘,可以作为计算工具,也可以作为音乐玩具;电子算盘:一种每拨一粒算盘珠子,可以同时在算盘上和荧光数码管上反映出来,或调入计算器进行寄存、运算和显示,由金属和木材制成[ 18]。算盘自古以来一直被中国人所使用,就连财神爷塑像的手里都拿着一个小算盘,大概是预示着商人心理打着如意算盘如何赚钱呢吧!”

经过分析,上文中与计算工具有关的概念有4个:算盘、乐音算盘、电子算盘、算盘(如意),其中算盘、乐音算盘、电子算盘、算盘(如意)之间是并列关系,同时它们和计算工具又是从属关系。其中算盘的属性是能计算、木制和有算珠;乐音算盘的属性是能计算、能奏乐、木制、金属制成和有算珠;电子算盘的属性是能计算、木制、金属制成和有算珠;算盘(如意)的属性是能推理。

3.2 形式概念分析

形式概念分析一般分为三个步骤:

(1)根据原数据处理的结果生成形式背景: 通过对计算工具的历史进行分析,共有4个对象:算盘、乐音算盘、电子算盘和算盘(如意)。那么5行7列的交叉处是X,表示对象具有的属性,基于FCA的知识集成模型实例生成的形式背景如表1所示:

表1 基于FCA的知识集成模型实例的形式背景

(2)依据形式背景构造概念格:除了原有的4个对象以外,又生成了具有能计算、木制、有算珠和金属制成4个属性的新的概念节点,即图2中的4个空心的圆点,由基于FCA的知识集成模型实例生成的概念格如图2所示:

图2 基于FCA的知识集成模型实例的概念格

(3)对概念格的底端节点、相关概念和顶端节点进行处理,去掉现实世界中不存在的底端节点,得到知识集成模型中的知识模型。从图2可以看出,从形式背景到概念格转换,最后到生成知识模型,总共构建了9个形式概念节点(其中一个根节点,4个对象节点,4个新的概念节点)。由于篇幅有限,只列出“根节点”、对象“乐音算盘”和新生成的节点“金属制的算盘”三个节点,它们分别是:

①节点1:({概念:计算工具},{属性:NULL },{联系:根节点},{公理:NULL},{实例:乐音算盘、算盘、电子算盘、算盘(如意)})。

②节点2:({概念:乐音算盘},{属性:能计算,能奏乐,木制,金属制成,有算珠},{联系:节点3的子节点},{公理:NULL},{实例:乐音算盘})。

③节点3:({概念:金属制成的算盘},{属性:金属制成的},{联系:节点1的子节点,节点2的父节点},{公理:NULL},{实例:乐音算盘,电子算盘})。

3.3 利用本体描述的知识模型进行知识概念创新

图2可以看出,通过基于形式概念分析的知识集成建模后得到了4个新的知识概念,分别是能计算的、木制的、有算珠的和金属制成的算盘,从而达到了知识概念创新的效果。

3.4 解决利用本体描述的知识模型中语义异构的问题

图2可以看出,此实例中存在语义异构的情况,算盘和算盘(如意)属于同形异义词。利用本领域的专业词汇工具书进行查找,确定知识模型中的这两个同形异义词中的算盘才是该领域(计算工具)真正需要的概念节点;然后在知识模型中保留算盘这个概念节点,并且把涵义不同的概念节点“算盘(如意)”和它的属性从概念模型中删除,这样就在建模过程中减少了概念节点间语义含糊不清的问题。

3.5 使用OWL语言描述知识模型

把比较合理的知识模型用OWL语言描述出来:

//本体头部

//定义对象

//乐音算盘是金属制的算盘的子节点

//结束定义子节点

//结束定义对象

//定义属性

//用#算盘引用算盘对象

//结束定义属性

……

//结束定义本体计算工具

4 结 语

在知识集成建模过程中引入形式概念分析的思想方法后,用户访问网络资源时可以获得两个主要优势:

(1)可以了解已知知识概念并且产生创新知识概念,这样用户访问网络资源时可以通过产生的创新知识概念扩大自己的检索范围,提高了网络资源的查全率。

(2)可以找到隐含知识概念及概念间的关系,进而对知识模型中的节点进行异构整合,消除冗余概念(即消除异形同义词),也就是可以在检索结果中消除同形异义词,提高了网络资源的查准率,同时又节省了用户排除干扰信息的时间。

本文的研究仅仅是一个起点,关于在知识集成建模过程中引入形式概念分析的研究后续工作还很多,主要集中在两个方面:

(1)由于网络资源的知识分散度很大并且数量众多,不同角色拥有的知识具有不对称性,同时知识的结构又存在不确定性[ 19],鉴于以上原因,笔者认为建模人员在建模过程中应该加强对网络资源知识的辨别能力,利用OWL语言更好地描述网络资源知识。

(2)FCA创建工具的开发可以有效地改进利用形式概念分析构建知识集成模型的进程,在基于形式概念分析的推理知识方面还需要进一步的研究,这将有赖于语义网的发展。

参考文献
[1] Swart J, Kinnie N. Sharing Knowledge in Knowledge-intensive Firms: The Influence of the Client on HR Systems[J]. Human Resource Management Journal, 2003, 16(3): 60-70. [本文引用:1]
[2] Yang J. Knowledge Integration and Innovation: Securing New Product Advantage in High Technology Industry[J]. Journal of High Technology Management Research, 2005, 16(1): 121-135. [本文引用:1]
[3] 马彪. 国外知识集成研究综述[J]. 情报理论与实践, 2007, 30(1): 139-144. [本文引用:1]
[4] Nonaka I, Toyama R, Konno N. SECI and Leadership: A Unified Model of Dynamic Knowledge Creation[J]. Long Range Planning, 2000, 33(1): 5-10. [本文引用:1]
[5] Shin M, Holden T, Schmidt R. From Knowledge Theory to Management Practice: Towards an Integrated Approach[J]. Information Processing & Management, 2001, 37(2): 335-340. [本文引用:1] [JCR: 0.488]
[6] 王娟茹, 赵嵩正, 杨瑾. 知识集成模式研究[J]. 工业工程, 2004, 7(6): 26-29. [本文引用:1]
[7] Salton G. Introduction to Modern Information Retrieval[M]. New York: McGraw Hill Book Co. , 1983: 1-40. [本文引用:2]
[8] International Organization of Stand ardization. ISO 704, Terminology Work — Principles and Methods[S]. 2000. [本文引用:1]
[9] 黄美丽, 刘宗田. 基于形式概念分析的领域本体构建方法研究[J]. 计算机科学, 2007, 33(1): 210-212, 239. [本文引用:1]
[10] 张瑞玲, 白桂梅, 徐红升, . 基于FCA的本体的构建与合并[J]. 微电子学与计算机, 2008, 25(7): 40-43, 47. [本文引用:1]
[11] 黄伟, 金远平. 形式概念分析在本体构建中的应用[J]. 微机发展, 2007, 15(2): 28-31. [本文引用:1]
[12] 张云中. 基于形式概念分析的领域本体构建方法研究[D]. 长春: 吉林大学, 2009: 14-50. [本文引用:5]
[13] Perez A G, Benjamins V R. Overview of Knowledge Sharing and Reuse Components: Ontologies and Problem Solving Methods[C]. In: Proceedings of the IJCAI-99 Workshop on Ontologies and Problem Solving Methods. 1999: 1-14. [本文引用:1]
[14] 涂蕾. 隐性知识的开发与创新: 知识管理的战略观[J]. 中南财经政法大学研究生学报, 2008(5): 57-59. [本文引用:1]
[15] Web Ontology Language, (OWL) Reference Version 1. 0 [EB/OL]. [2009-11-12]. http://www.w3.org/TR/2009/WD-owl-ref. [本文引用:1]
[16] 软件工程: OWL Web本体语言[EB/OL]. [2010-01-29]. http://www.xue5.com/itedu/200707/125737.html. [本文引用:1]
[17] 百度知道: 计算工具历史[EB/OL]. [2010-01-28]. http://zhidao.baidu.com/question/17136746.html. [本文引用:1]
[18] [ 算盘, 电子算盘, 定位算盘, 速算盘类技术资料[EB/OL]. [2010-01-28]. http://youa.baidu.com/item/7ec92132ddc5220ab0a8b7f3. [本文引用:1]
[19] Becker M C. Managing Dispersed Knowledge[J]. Journal of Management Studies, 2001, 38(7): 1037-1051. [本文引用:1]