云环境下基于FCA的领域本体协作构建模式初探
颜时彦1, 王胜清2, 罗云川3, 黄浩军4
1. 北京大学信息管理系 北京 100871
2. 北京大学现代教育技术中心 北京 100871
3. 文化部全国公共文化发展中心 北京 100034
4. 北京大学软件与微电子学院 北京 100871
王胜清E-mail:wangsq@pku.edu.cn

设计研究方案、负责论文起草;
王胜清:指导研究工作, 提出研究思路, 论文最终稿修订;
罗云川:指导论文工作, 提出研究思路;
黄浩军:负责云计算处理部分的论文起草, 应用示例图的设计。

摘要

【目的】

借助云环境下的技术理念探索基于FCA的领域本体协作构建模式。

【方法】

利用云环境下的基于MapReduce框架的技术划分形式背景, 局部制造概念格, 并结合专家与用户的意见修改完善领域本体。

【结果】

成功设计新的云环境下的领域本体构建的协作模式, 提高本体构建自动化程度的同时使得多种不同权限的用户和专家参与其中, 提高本体构建的效率和质量。

【局限】

该协作模式仍处于概念设计阶段, 需要云环境下多用户参与的实践, 完善协作方案。

【结论】

基于FCA的领域本体构建方式可以在云环境下有所扩展, 可以在多人多层次的协作中不断改善领域本体。

关键词: 云计算; FCA; 领域本体构建; 本体协作构建模式; 公共数字文化资源
An Ontology Collaborative Construction Model Based on FCA in Cloud Computing Environment
Yan Shiyan1, Wang Shengqing2, Luo Yunchuan3, Huang Haojun4
1. Department of Information Management, Peking University, Beijing 100871, China
2. Center for Educational Technology, Peking University, Beijing 100871, China
3. National Public Culture Development Center, Ministry of Culture of the PRC, Beijing 100034, China
4. School of Software and Microelectronics, Peking University, Beijing 100871, China
Abstract

[Objective]

Find the collaboration pattern of domain Ontology construction based on FCA with the concepts and techniques in cloud computing environment.

[Methods]

Partition the formal context with the techniques in MapReduce framework in cloud computing environment, construct concept lattices locally, use the ideas from experts and users to modify domain Ontology.

[Results]

Successfully design a new collaboration pattern for construction domain Ontology in cloud computing environment, improve degree of automation of the process of construction, people with different privileges participate in the process. Thereby increasing the efficiency and quality of Ontology.

[Limitations]

This collaborative pattern is still in the conceptual design phase. The pattern requires multi-users participation in practice under cloud computing to improve collaboration solutions.

[Conclusions]

The construction of domain Ontology based on FCA can be extended in cloud computing environment. People from different levels can modify the Ontology via the collaboration.

Keyword: Cloud computing; Formal Concept Analysis; Domain Ontology construction; Ontology collaborative schema; Public digital culture resource
1 引 言

“文化信息资源共享工程”、“数字图书馆推广工程”及“公共电子阅览室建设工程”是文化部的三大惠民工程, 是文化部围绕公共数字文化建设的骨干, 也是公益性数字文化服务体系构建的重要组成部分。从资源存储和服务的角度来看, 三大工程的数字文化资源建设和服务存在着信息孤岛, 数字资源的建设没有得到合理有效的共建共享, 特别是随着数字阅读队伍的不断壮大, 广大用户对公共文化服务体系的建设也提出了新的需求, 公共数字资源的建设和服务需要不断创新和变革。而近年来出现的云计算、全媒体、移动图书馆等新兴信息技术, 为公共数字文化资源共建共享的问题提供了新型的技术解决方案和思路。云计算为三大工程的资源整合服务提供了计算架构, 而本体对知识共享与交换提供了技术支撑, 本文将采用云计算与FCA相结合的研究方法, 探索云环境下领域本体协作构建的新模式, 对提高公共数字文化资源领域本体协作构建的效率和质量具有重要意义。

2 研究背景
2.1 云计算

云计算是继分布式计算、网格计算之后的一种新兴计算模式, 在互联网上它经常表现为提供动态更新的虚拟化资源的服务。云计算也是一种重要的技术趋势, 被认为可以重塑IT技术并改变IT市场[ 1]。在云计算的环境下, 高速、安全的分布式存储技术以及高效的计算模式都被广泛运用, 这使得诸如领域本体编辑这样需要一定自动化技术、需要不同人员协同工作的任务有了新的发展可能性。大规模的本体协作编辑包括概念的提取、概念质量的控制、概念间关系的发现、概念等级结构的建立等一系列操作, 都可以在这新的环境下建立新的模式。

2.2 基于FCA的领域本体构建

领域本体被认为是在传统的知识组织系统之外, 用于描述和组织网络资源的有效手段。但领域本体的构造需要大量的领域专家的参与, 领域本体的规模和发展速度受到了限制。为了扩大领域本体规模并可以与时俱进地扩展更新, 很多学者提出了提高领域本体建设自动化程度、利用普通大众创造的语料并集成筛选、专家之间远程协作创建本体等方法来优化领域本体构建的流程。其中, 形式概念分析(Formal Concept Analysis, FCA)因其在各个领域的通用性以及较高的自动化程度而被广泛研究。

FCA是由Wille在1982年提出的数学理论[ 2], 是一种利用形式背景与概念格的数据分析理论, 是从一些对象与其性质导出概念体系和正式本体的方法[ 3]。它从语料出发, 定义对象、属性、关系从而定义形式背景, 利用形式背景产生概念之间的偏序关系和概念格, 构建概念的层次体系与Hasse图, 经过最终的调整与形式化描述形成领域本体。

FCA的方法直观易行, 而在其基础上出现了多种基于FCA构造本体的方法, 包括Cimiano法[ 4]、GuTao法[ 5]、Haav法[ 6]以及Obitko法[ 7]。Cimiano方法利用语料的动宾结构形成对象-属性关系对, 利用其构造概念格。GuTao法提出了本体构建的循环反馈思想, 利用FcaTab插件以及ConExp工具创建本体。Haav法提出了本体的逻辑推理, 包括概念和关系的映射过程。Obitko法设计了从空集不断添加对象属性并构造概念格的方法, 较为系统地展现了基于FCA的领域本体从无到有的构建过程。除本体构造的方法外, 国外对于FCA在本体研究、软件工程、知识发现、Web语义检索的应用有较多研究[ 8], 国内则对于FCA与Folksonomy的结合[ 9]、FCA在本体构建中的应用[ 10]等多方面开展研究。

虽然上述本体构造方法利用了FCA的思想并结合循环反馈、用户交互的理念实现了一定的半自动构建领域本体, 但构建本体参与的人群较少、过程较为机械, 构建的本体也较为简单, 质量有限, 较难被共享和重用, 在现有的环境下也无法有效进行并行计算、实时更新和多人协作, 因而需要新的模式对其加以改进。

3 云计算环境下的领域本体协作构建思路

云计算是从分布走向集中的一种计算模式, 互联网上分布式的计算机可以连接到一起, 形成一台巨大的计算机, 对用户提供按需服务。该计算模式的最大特点之一是计算资源和存储资源的动态可扩展性, 可以根据应用需要, 不断扩充计算能力和存储空间, 让多用户共享数据资源池, 从而高效协同工作。因此, 云计算环境下的技术特点, 使得构建新的领域本体协作模式成为一种新的发展趋势。

目前存在的基于FCA 的领域本体协作构建模式, 其根本的构建步骤仍然遵循FCA构建方式, 即从基本的领域相关语料出发构建形式背景, 利用算法和可视化工具自动由形式背景生成概念格与Hasse图, 再请专家与用户对概念结构做多次调整, 添加非等级的关系形成领域本体。

通过利用云计算对大数据处理的能力, 结合大量的数据信息流入、高效的计算、实时同步以及普通用户的参与特点, 对已有FCA协同模式进行优化调整, 其主要方法如下:

(1) 普通用户参与领域本体构建的过程。为了使普通用户可以参与到领域本体构建的过程中, 新的协作模式中将语料提供、形式背景调整、概念结构调整等步骤都开放给用户参与。对于不同的用户给予不同权限, 水平较低的用户可以提供语料, 而水平较高的用户可以赋予调整概念、关系、结构甚至是评价他人工作的权限。而专家作为拥有最高权限的群体则可以免于筛选语料的工作, 更多地将精力放在本体结构的敲定等需要领域专业知识的地方。

(2) 利用云计算环境下的同步更新与高效备份的技术基础, 构建可以实时更新的大规模的本体创建体系。在过往的FCA的构建过程中, 语料一旦输入, 后续工作便只基于原有的语料计算成果, 更新语料、调整概念都较为困难, 而在云计算环境下的协作模式可以实现不断的语料更新, 并对新语料进行切词标注, 以参与形式背景构建, 并可以设计增量算法将新的属性和对象加入概念格当中进行处理。优点是在一定程度上解决了本体更新速度慢的缺陷, 使得新的概念和关系可以比较容易地添加到原有的本体中。

4 领域本体协作构建的基本步骤

根据上述的领域本体协作构建模式的思路, 本文将整个协作构建模式划分为4个步骤, 并对每个步骤所涉及的重要问题展开论述。这4个步骤分别是: 云环境下的领域知识汇集; 云环境下的概念格的形成与转化; 云环境下的领域本体结构调整; 云环境下的领域本体描述。构建步骤如图1所示:

图1 云环境下基于FCA的领域本体协作构建模式

4.1 云环境下的领域知识汇集

FCA构建本体的第一步需要将大量的语料经过自然语言处理之后形成较为可靠的形式背景, 以达成领域知识的汇集。在云环境下, 领域本体构建主要可以使用的较为可靠的语料包括: 领域相关的文章专著、领域词典的说明词条、在维基百科等平台上领域相关的词条解释、已有的可参考的领域本体及词表等。这些语料或具有较好的结构, 或与领域知识有极为密切的联系, 在领域本体构建过程中都有较为重要的参考价值, 而提供语料的工作并不太困难, 可以由较低权限的用户完成这一过程。

上述这些不同类型的语料处理方式均有所不同: 领域本体与词表本身就有明显的结构, 只需要通过转化工具便可以自动形成相应的形式背景; 维基百科和词典词条则需要将词条内容用自然语言处理工具切词标注, 将领域相关的词汇取出作为属性, 而将词条描述的词汇作为对象, 加入到形式背景当中; 领域专著则需要标示文章的主题内容后, 根据主题词和自然语言分析结果确定形式背景。不同语料的处理方式如图2所示:

图2 云环境下的领域知识汇集

经过上述方法的处理, 异质信息源的大量领域相关信息集中在形式背景这一巨大的矩阵中实现存储。而为了克服矩阵规模过大的问题, 除了传统的各种数据清洗和矩阵压缩外, 还需对矩阵进行索引并切分矩阵, 在云计算环境下保留多个副本方便系统分布式调用大矩阵的内容。而且切分后的局部形式背景还可以提供给普通用户进行判断, 删除其中不合理的对象-属性对, 进一步优化矩阵的内容, 为后续步骤提供较为准确的形式背景。

4.2 云环境下的概念格的形成与转化

在建立形式背景之后, 需要利用造格算法计算出概念格。概念格说明了概念与概念之间的偏序关系, 再根据这种偏序关系, 可以整理出概念与概念之间的等级关系, 并进一步由用户与专家判断决定概念的留存, 未命名但比较特殊的概念是否需要单独命名, 等级关系是否需要保留等一系列问题。

在云计算的环境下, 由于形式背景矩阵被划分并分布式地存储于不同节点, 造格算法在计算概念格时考虑利用MapReduce框架。首先, 在Map阶段各个节点根据本地的局部形式背景计算局部的概念格, 然后通过Reduce进行全局的概念格的合并。其中, Map的过程主要涉及矩阵划分, 利用行列的置换将矩阵中互相关系较为密切的行列重新排列到一起并划分到同一子矩阵, 使各子矩阵数据充实, 避免稀疏性问题。在Reduce的过程中, 主要需要处理概念之间的多重继承问题。由于多重继承是否正确往往需要人为判断, 在云计算框架下, 计算机应该自动将所有继承关系合并到同一概念格中, 若继承关系计算时发生冲突, 以继承关系出现次数的多少选取合适的继承关系, 从而形成统一的初步的概念格为后续的人为的概念格调整打下基础。除此之外, 由于形式背景会随着语料的增加而有所变化, 还需要考虑增量式地增加形式背景的对象和属性, 以及随之而来的概念格的增量式变化, 如图3所示:

图3 基于Map-Reduce的形式背景划分与概念格形成过程[ 11]

经过造格的过程, 系统得到了带有层次结构的概念格, 可以使用可视化工具[ 12]将概念格可视化为Hasse图, 并将Hasse图划分出较小的可以展示的分支, 供用户与领域专家共同编辑。具体造格与可视化过程如图4所示:

图4 云环境下的概念格的形成与转化

4.3 云环境下的领域本体结构调整

经过造格运算和可视化后的概念体系依旧有非常多的计算机无法自动解决的问题, 以及大量需要调整的错误, 拥有较高权限的用户和领域专家需要根据现有的Hasse图进行改动。改动的内容主要包括概念的调整、等级关系的调整以及非等级关系的添加。

经过造格运算后的概念格中包含大量的概念, 这些概念中有些具有完全相同的外延与内涵, 这需要拥有较高权限的用户和领域专家判断这些概念是否真的完全相同。如果完全相同, 则需要删除重复的概念, 若并不相同则需要提供可以区别二者的反例, 用以重新构造概念格, 将两个概念加以区分。与此同时, 概念格中还存在一些没有具体对象的概念, 这些概念是一些拥有共同属性的对象的集合的上位概念, 但没有具体的名称, 这需要拥有较高权限的用户判断是否为这些新发现的概念命名, 若不需要则删去节点, 否则就需要添加一个新的对象及其实例。

在调整完概念后, 需要对概念之间的关系进行调整。首先要调整的是层次关系(上下位关系)。由于概念格中的偏序关系有时会因为实例不够而出现错误, 使得一些原本并列的概念因为缺乏用以区分二者的属性而成为了上下位的概念, 也有可能因为属性过于庞杂使得原本较为直接的上下位关系, 变成较为间接的上下位关系, 而这些错误都需要借助拥有较高权限的用户和领域专家进行修正。具体的修正操作包括删除不必要的上下位关系, 为平级的概念添加区别二者的属性形成上下位关系, 对不正确的关系添加更多的反例予以修正。

在层次关系调整之后, 由于FCA对非层次关系的发现并不足够, 需要借助其他方法挖掘非层次的关系。这些非层次关系挖掘方法既包括自动的方法, 如文献[13]中提到的基于关联规则挖掘的方法, 也包括由专家和用户识别出来的概念之间的关系。一般说来, 非层次关系越是丰富, 本体的可用性和复用价值就越大, 因而在概念格塑造的基础上继续添加非层次关系对于构建可用的本体意义重大。

对于上述三种基于概念格的概念、关系的调整, 在云环境下可以由用户和专家协作完成。具体的协作方法则是先由拥有较高权限的用户在线对概念、关系进行修正, 修正可以同步完成, 拥有较高权限的用户有权更改权限较低用户的更改并同步更新, 而权限相同的用户可以更改不同的本体保留多个复本。在用户更改完后, 由领域专家对修改的结果进行评定, 采纳一部分用户的更改结果并将本体修正最终确定下来, 同时领域专家需要给不同用户的工作打分, 并总结用户的表现, 赋予用户不同的权限, 便于在下次本体编辑的过程中, 水平较高态度更为认真的用户获得更高的权限, 进而产生一种激励机制, 鼓励更多用户参与到领域本体构建工作。具体过程如图5所示:

图5 云环境下的领域本体结构调整

4.4 云环境下的领域本体描述

经过上述的反复调整后, 领域本体初步形成。此时需要利用本体的描述工具以及描述语言, 将概念与关系描述出来。描述语言可以选择OWL语言的多个版本, 而描述工具可以选择Protégé、OntoEdit等较为有名的本体描述工具。在已有的云平台上, 也可以调用这些描述工具的接口或利用Jena这样较为成熟的本体编程环境开发程序, 将调整后的概念格转化为形式化的本体。在这一过程中, 领域专家可以对转化的结果进行检查, 判断是否还有需要调整的地方。具体过程如图6所示:

图6 云环境下的领域本体描述

在得到最终的领域本体后, 随着语料的增加, 形式背景与概念格的变化, 最终的领域本体每隔一个周期就要进行更新, 将新鲜的术语和新添加的关系加入本体当中, 更新的周期视语料的增长速度而定。此外, 最终的领域本体也可以作为形式背景生成的语料, 反馈到本体构建之初的形式背景构造的过程, 从而使得领域本体构建成为不断自我更新完善的循环过程。

4.5 公共数字文化领域本体协作构建模式的示例

电影是公共数字文化资源领域深受广大群众欢迎的一类视频资源, 基于本文所述领域本体的协作模式, 以构建电影本体为例, 说明本体协作构建模式的操作过程:

(1) 提供原始语料阶段。在云计算环境下, 由拥有较低权限的用户通过互联网提供与电影有关的文本, 主要以不同电影的介绍、不同电影的影评为主。在拥有文本后将每段文本描述的电影作为对象, 而将自然语言处理工具处理得到的关于电影的信息作为属性, 构建形式背景。

(2) 语料分布处理阶段。当电影文本的规模较大时, 形式背景矩阵已经无法单机存储进行处理, 这时候云计算节点便发挥作用, 可使用矩阵划分的算法将形式背景划分为众多小部分, 在不同计算节点上存储不同的电影信息并定期增量更新。而当需要进行造格运算时, 再将矩阵进行压缩合并, 构造概念格并利用可视化工具绘制出Hasse图。

(3) 概念协同优化阶段。当绘制出的Hasse图成长到一定规模时, 云计算环境下的拥有较高权限的用户会对概念图进行协同优化。通过网络, 会分配给每位用户Hasse图的一个部分, 让高权限用户对自己负责的局部概念格进行调整, 删除没有描述意义的属性, 如类似“镜头”“场景”等不具有描述意义的词, 并调整概念结构, 这些可以由不同的用户和专家完成, 而调整的结果则由领域专家检验、讨论并确定最终的领域本体。

(4) 本体交付阶段。通过上述自动化的转换过程, 逐步生成了用本体语言进行描述的检验后的概念结构, 并由领域专家监督转换过程确定最终付诸使用的电影领域本体。

电影本体构建过程如图7所示:

图7 电影本体构建示例

5 结 语

本文提出的云计算环境下基于FCA的领域本体协作构建模式, 是传统的FCA方法在云计算环境下的新发展和新探索, 本模式旨在将更多的用户纳入到领域本体构建的活动中, 协同建设, 参与本体构建的各个阶段, 并通过利用云计算环境下的云存储资源、计算资源, 使得大规模的本体编辑成为可能。同时利用同步技术和增量更新算法使得云环境下的本体有更快的更新速度, 对提高公共文化数字资源的共建共享的规模和检索的效率都将提供有效的底层技术支撑。

此外, 云计算环境下领域本体构建仍有大量的问题需要研究, 权限的分配、协同工作算法的设计、本体质量的控制一系列的实践问题也需要探索, 相信更多的深入研究会使这一模式在未来走向成熟。

参考文献
[1] Furht B, Escalante A. Hand book of Cloud Computing[M]. Springer, 2010: 3. [本文引用:1]
[2] Wille R. Restructuring Lattice Theory: An Approach Based on Hierarchies of Concepts[C]. In: Proceedings of the 7th International Conference on Formal Concept Analysis (ICFCA’09). Berlin, Heidelberg: Springer-Verlag, 2009: 314-339. [本文引用:1]
[3] Kester Q. Computer Aided Investigation: Visualization and Analysis of Data from Mobile Communication Devices Using Formal Concept Analysis [C]. In: Proceedings of the 2nd CMI and GTUC International Conference on Applications of Mobile Communications in Africa: Prospects and Challenges. 2013: 1-12. [本文引用:1]
[4] Cimiano P, Hotho A, Stumme G, et al. Conceptual Knowledge Processing with Formal Concept Analysis and Ontologies[C]. In: Proceedings of the 2nd International Conference on Formal Concept Analysis. Springer, 2004: 189-207. [本文引用:1]
[5] Tao G. Using Formal Concept Analysis (FCA) for Ontology Structuring and Building[D]. Singapore: Nanyang Technological University, 2003. [本文引用:1]
[6] Haav H. A Semi-automatic Method to Ontology Design by Using FCA[C]. In: Proceedings of Concept Lattices and Their Applications. 2004. [本文引用:1]
[7] Obitko M, Snasel V, Smid J. Ontology Design with Formal Concept Analysis[C]. In: Proceedings of Concept Lattices and Their Applications. 2004: 111-119. [本文引用:1]
[8] 毕强, 滕广青. 国外形式概念分析与概念格理论应用研究的前沿进展及热点分析[J]. 现代图书情报技术, 2010(11): 17-23.
(Bi Qiang, Teng Guangqing. Analysis of the Progress and Hotspots in Applied Research of FCA and Concept Lattice Theory Aborad[J]. New Technology of Library and Information Service, 2010(11): 17-23. ) [本文引用:1] [CJCR: 1.073]
[9] 张云中, 杨萌, 徐宝祥. 基于FCA的Folksonomy用户偏好挖掘研究[J]. 现代图书情报技术, 2011(6): 72-78.
(Zhang Yunzhong, Yang Meng, Xu Baoxiang. Research on FCA-based User Profile Mining for Folksonomy[J]. New Technology of Library and Information Service, 2011(6): 72-78. ) [本文引用:1] [CJCR: 1.073]
[10] 刘萍, 高慧琴, 胡月红. 基于形式概念分析的情报学领域本体构建[J]. 图书情报知识, 2012(3): 20-26.
(Liu Ping, Gao Huiqin, Hu Yuehong. Construction of Domain Ontology in Information Science Based on Formal Concept Analysis[J]. Document, Information & Knowledge, 2012(3): 20-26. ) [本文引用:1] [CJCR: 1.169]
[11] Dean J, Ghemawat S. MapReduce: Simplified Data Processing on Large Clusters[J]. Communications of the ACM, 2008, 51(1): 107-113. [本文引用:1] [JCR: 2.511]
[12] OpenFCA. Project Home [EB/OL]. [2013-06-26]. https://code.google.com/p/openfca/. [本文引用:1]
[13] 刘萍, 胡月红. 基于FCA和关联规则的情报学本体构建[J]. 现代图书情报技术, 2012(2): 34-40.
(Liu Ping, Hu Yuehong. Development of Domain Ontology in Information Science Based on FCA and Association Rules[J]. New Technology of Library and Information Service, 2012(2): 34-40. ) [本文引用:1] [CJCR: 1.073]