“数字资源语义互联研究”专题序
毕强
吉林大学管理学院 长春 130022
摘要
关键词: 《现代图书情报技术》编辑部

网格和语义Web技术对数字图书馆知识组织系统构建的重要性已被业界所普遍关注。网格技术为整合分布、异构、自治的数字资源,获得资源透明调用的能力提供了可行性,但由于缺乏语义关系,使得网格无法达到高度的简单实用和无缝自动化的程度,更不能满足数字图书馆对信息和知识有效共享的需求。语义Web为丰富和完善数字图书馆知识组织系统语义关系,实现基于知识语义的智能应用提供了可行性。因此,数字图书馆知识组织系统语义关系的丰富和推理功能的强化,需要一个新型的技术基础,语义网格体现了网格和语义Web在数字图书馆知识组织系统构建中走向融合的趋势,体现了下一代数字图书馆知识组织系统构建的应用需求和发展方向。

目前,传统知识组织工具的本体化改造已经取得了一批重要成果,但由于现有的知识表达方法和本体工程都有其各自的优缺点,分别适用于不同的问题域,尚未确立相应的规范和标准,使得已有的理论和实践成果难以推广应用。此外,从语义网格环境下数字图书馆知识组织系统构建所要解决的核心问题来看,客观上提出了需要研究探索的关键问题:知识表达与本体工程;分布式异构系统之间语义互联与语义互操作;语义映射与查询推理。

针对这些问题,本专题在梳理和总结数字资源语义互联的相关理论、方法、模型及其应用环境的基础上,立足于语义网格环境,从数字图书馆知识组织系统构建的发展方向和应用需求出发,基于元数据、领域本体、桥本体和本体解析体系为核心要素构建语义模型,以语义模型为核心,提出了数字图书馆知识组织语义互联的应用模型。综合理论研究和应用研究,结合对医学领域的应用需求分析,设计实现了基于语义网格的、面向医学领域的语义互联原型系统(Medicine-Oriented Semantic Interconnection Simulation System,MOSISS)。主要成果体现在:(1)在界定数字图书馆知识组织系统语义互联概念的基础上,确立了通过概念语义空间的单一语义映射进行知识组织系统语义互联的研究思路,基于元数据、领域本体、桥本体和本体解析体系为核心要素构建语义模型,以语义模型为核心,提出了数字资源语义互联的应用模型。结合对医学领域的应用需求分析,设计实现基于语义网格的、面向医学领域的语义互联原型系统(MOSISS),对本项目提出的理论、方法与模型进行了实际验证,形成了比较完整的从理论、方法到应用的研究体系。

(2)通过对桥本体概念结构和不同桥关系的分析与研究,采用静态和动态相结合的方案构建桥本体,进行本体整合,从而探究解决本体异质的实现途径。利用Protégé 3.4静态构建桥本体的类、子类和属性,在EclipseSDKv3.4.2开发平台下,采用语义相似度计算动态构建桥本体的实例和属性值(其中属性值反映了来自不同本体的具有相应桥关系的概念),最终形成可共享的OWL语言描述的桥本体。

(3)基于本体的语义标注方法和过程,采用构建桥本体和领域本体的方法,以电子病历为例,介绍了面向医学领域的语义互联模拟系统中语义标注子系统的设计思想、体系结构以及功能,并探索了多领域本体在语义标注中的应用,为用户共享数据提供了一种方式。

课题组在研究中发现:语义结构的复杂性、语义类型和语义关系的动态性、空间秩序的多维性是制约数字图书馆知识组织系统有效结构化和应用的瓶颈,尤其是富有语义信息的领域本体的匮乏是项目设计之初未充分预见的,而领域本体构建和复用效率不高、通用性不强则限制了知识组织和知识服务作用的发挥。因此,提出有待进一步研究的关键问题:

(1)知识表示语言。知识表示方法不仅应具有较强的表达能力,能够充分地表达领域知识,而且要有利于推理。在语义网格知识表示的层次结构中,目前较为成熟的知识表示语言有XML、RDF/RDFS和OWL,而在OWL之上的逻辑层、证明层的相关标准的制订工作仍处于需求征询阶段,信任层还处于研究阶段。任何一种知识表示语言都有其局限性和不足之处,融合和集成知识表示的理论及多种知识表示语言技术不仅是现实需要,还是一个重要的研究领域。知识表示语言要走向通用,需要研究的主要问题有:对推理的有效支持(包括计算复杂性和可判定性等)、正规和充足的语义表示机制以及标准化等。

(2)本体工程。一个领域本体不仅所涉及的概念多、而且包含的关系错综复杂,如果集中式开发与管理,将是一项十分庞大的工程。目前领域本体的构建还处于半自动化阶段,需要领域专家的参与,受到领域专家知识储备等主观因素的影响,因此对已有本体的管理和重用,寻求高效率的构建本体以及本体的自动进化方法是有待重点研究的问题。

(3)本体映射。语义网格环境下的数字图书馆系统中存在多种异质异构的信息资源,这既包括异构数据,又包括异构服务,语义映射是建立这些异构数据的语义关联关系的重要方法。而基于复杂语义映射,如何实现分布式的语义查询处理与推理计算也是一个亟待解决的难题。设计可扩展的语义映射系统来解决不同数据源之间的语义互联关系是一个热点研究领域。本专题提出的桥本体是对跨本体进行概念关系揭示的有效方法,是集成不同数据源之间的语义互联关系的关键,因此桥本体的准确构建方法是有待进一步研究的问题。此外,本体概念之间的关系呈指数级增长,这需要对本体之间进行基于概念语义的相似度计算,而相似度算法非常复杂,尤其是中文本体概念之间相似度计算更为困难。基于概念语义的相似度适用算法研究是现实应用的需要。

(4)研究中开展实证分析。MOSISS系统目前主要用于对课题组提出的理论进行相关实验测试,从模拟系统到实际应用还有很大距离。下一步的工作是进一步开发和改进该模拟系统,并将其与目前的医院HIS系统结合起来,进行真实用户环境下的公开测试和应用。因此,加强理论与应用的结合需要给予高度的关注。

参考文献