基于元数据、领域本体、桥本体和本体解析体系为核心要素构建语义模型,提出数字图书馆知识组织语义互联的应用模型,以语义异构和结构异构的电子病历为案例,设计和部分实现面向医学领域的语义互联模拟系统,从应用层面对数字图书馆知识组织语义互联进行探讨。
The authors build a semantic model based on metadata, domain Ontology, bridge Ontology and Ontology analytical system,and then put forward a semantic interconnection application model in digital library knowledge organization. Prototype researches on the semantic heterogeneous and architecture heterogeneous electronic medical records, designs and partially implements a medicine-oriented semantic interconnection simulation system. At last, it discusses semantic interconnection in digital library knowledge organization in the application level.
语义是指“数据(符号)”所指代的概念的含义,以及这些含义之间的关系,是对数据的抽象或者更高层次的逻辑表示[ 1]。语义互联主要在语义层上连接各种资源以支持智能应用,实现的关键在于建立一个语义计算模型,该模型既适用于显式语义,又适用于和感觉、感情相关的隐含语义[ 2]。
为解决数字图书馆的语义异构问题,笔者借鉴知识工程领域的语义互联理念,提出了数字图书馆知识组织系统语义互联。数字图书馆知识组织系统语义互联是指多个层面(包含数据资源之间、用户与数据资源之间、用户与用户之间)的语义互联。数据资源之间的语义互联一般指交换格式、标记格式、元素内容结构、元素语义、编码规范和数据内容等方面的语义互联;用户与数据资源之间的语义互联是指服务(操作)级别的语义互联,即数字图书馆系统中的各种集成定制服务系统以及知识组织、使用管理、知识产权管理、使用支付等服务机制之间的互联,此外,数字图书馆本身也应尽可能地作为整个体系的公共服务模块,可以被接入、调用、配置和修改,从而支持服务模块的共享、定制和嵌套,灵活地利用这些服务机制构建新的集成系统和服务流程;用户与用户之间的语义互联是指虚拟组织、虚拟社区内部语义互联。这三个层面的语义互联都涉及知识对象、知识内容、知识结构在不同层次的语义互联,涉及到知识单元的多维性、分合性(可分解性和可组合性)、重组性和再生性等属性,涉及多种复杂因素,因此建立具有广泛意义的语义互联概念模型是当前数字图书馆知识组织系统的需求。
语义系统包括语义类型和概念之间的语义关系。语义类型和语义关系是描述概念语义知识的基础。语义类型提供了领域本体中概念分类的一致标准,而语义关系定义了语义类型之间存在的关系。概念的语义类型和语义关系可以支持概念分类和推理。语义系统模型作为媒介是对资源语义类型及语义关系进行描述和组织的一种机制[ 3]。
语义系统模型由描述资源的元数据、领域本体、桥本体以及本体解析体系4部分组成,如图1所示:
元数据进行资源的标准化描述;领域本体进行概念以及概念之间关系的语义标注;桥本体用于资源之间语义聚合;本体解析主要解决本体的具体效用发挥的方式。数字图书馆知识组织系统语义互联将语义系统模型作为单一映射点,通过单一映射完成数字图书馆用户交互层、内容管理与功能层、内容层之间的释义和互联。基于语义系统模型的数字图书馆知识组织语义互联应用模型是在基于语义系统模型的语义互联策略指导下的应用模型,有助于实现数字图书馆内容层、内容管理与功能层以及用户交互层的语义聚合,如图2所示:
数字化医疗与医疗信息化是当代医疗卫生健康领域的重要发展方向。电子病历是医疗信息化的核心内容之一,电子病历既包括静态病历信息,也包括可提供的信息服务,是以电子化方式管理的有关个人终生健康状态和医疗保健行为的信息,涉及病人信息的采集、存储、传输、处理和利用的所有过程[ 5]。电子病历可以得到必要的释义,进行知识关联。知识关联一方面有助于医学实习生、进修医生及低年资医生对医学知识深入理解;另一方面有助于分布在各地的专家利用电子病历进行疑难病症远程会诊。鉴于此,无论是从资源共享的角度,还是从知识服务的角度,电子病历都需要借助语义描述技术进行释义和知识关联。借助图书馆情报领域的相关理论和技术进行信息抽取、语义标注,实现对电子病历的忠实表达,借助语义互联技术实现医生、患者、计算机系统的无歧义理解,从而实现主动的智能医疗服务。
在数字图书馆知识组织语义互联应用模型指导下,本课程组设计了面向医学领域的语义互联模拟系统(Medicine-Oriented Semantic Interconnection Simulation System, MOSISS),实现了其中的部分功能,以验证基于语义模型的数字图书馆知识组织语义互联的可行性和可操作性,并为进一步的研究建立了实验基础。
MOSISS的主要目的是对不同医疗系统进行语义整合,如图3所示:
在逻辑上将MOSISS分为如下几层:应用层、数据层、领域本体层、桥本体层和物理层。图3中,系统1和系统2分别由同构的医疗系统构成。系统1中各结点代表各个不同的医院,这些医院的系统结构与数据结构为同质的;系统1与系统2之间是异构的;系统1与系统2之间数据共享可实现最大化利用有限的医疗资源,但需要解决不同医疗系统间的语义异构性问题。语义异构性是指在医疗信息资源中语义的变化与不一致(如同一个词在不同的医疗系统中具有不同的含义或者不同的词在不同的系统中可能表示同一个意思),这些不一致将导致在信息整合时产生语义冲突,给医疗信息的互操作带来困难[ 6]。分布在各层的需求、服务、业务流程的推理规则库、本体库、算法库、数据交换标准库、语义元数据库是解决语义异构、实现语义互联的重要基础。MOSISS各层采用映射机制,在应用层、领域本体层、桥本体层以及数据层之间进行映射和推理,语义匹配通过由元数据、领域本体、桥本体和本体解析体系为核心要素的语义模型来实现。
MOSISS遵照数字图书馆知识组织语义互联应用模型的设计思想和体系结构,该系统原型主要包括两个方面:资源的语义检索和资源的语义整合,分为4个子系统,如图4所示:
(1)本体管理子系统
该子系统包括两方面的工作:
①本体整合与映射。多领域本体的语义标注是领域本体应用过程中的瓶颈,基于桥本体进行领域本体的整合(桥本体的构建另文撰述)。在该子系统中,MOSISS进行本体整合测试,通过Protégé 3.4构建的中文糖尿病领域本体和复用的Meshonto.owl本体,以OWL文件的方式存储在计算机中。将两个不同系统构建的本体利用Java的开发工具包Jean2.5.7解析出本体的类、关系和属性,通过语义相似度计算(概念名称相似度、属性相似度、实例相似度)后,判断概念之间的桥关系,据此动态地完成桥本体的构建。
②对桥本体和领域本体进行解析(其中所使用的本体解析规则另文撰述)。将本体映射到关系数据库中,用于语义标注和语义检索查询,该子系统主要完成语义模型,语义模型是语义互联最基本的核心构件。
具体流程如图5所示:
(2)信息预处理子系统
接受不同数据结构的电子病历数据,形成统一资源空间。MOSISS的数据来源于三家临床医院的电子病历,格式分别为DOC文档、SQL Server数据库和MySQL数据库。具体流程如图6所示:
完成数据的清洗,对上传的不同数据源信息进行抽取,模拟系统对病历中的出院小结部分进行实验,基于桥本体和领域本体对出院小结中的出院诊断进行注释,产生语义元数据,并将语义元数据以及数据源地址存储在数据库中。MOSSIS中的语义标注子系统采用桥本体和领域本体相结合的标注模式,对待标注的数据进行自然语言处理,抽取特征词,与桥本体库中的概念进行语义相似度计算,匹配成功,利用桥本体中含有的多个概念对其进行标注,并从桥本体库中提出这些概念的指针,该指针指向这些概念在领域本体库中的位置;否则,与领域本体进行语义相似度计算,选择用于语义标注的本体概念;最后将标注后的电子病历和标注概念形成的语义元数据捆绑产生语义知识库。具体流程如图7所示:
(4)语义检索子系统
接受用户检索请求,通过查询解析器,对用户的请求进行语义标注,该查询解析器中的数据来自于系统建立的推理规则库、本体解析库、案例库,系统接受请求,在语义元数据库中进行查询,在统一资源空间提取原始数据,形成结果,返回给用户[ 7]。具体流程如图8所示:
数字图书馆知识组织语义互联是数字图书馆资源有效利用的重要途径,其研究和应用涉及到自然语言处理、知识工程、人工智能、语言学、心理学、图书情报学和计算机科学等多个学科领域。本文对这一问题进行了有益的探索和尝试,提出了数字图书馆知识组织语义互联的应用模型,并进行了实证。随着研究的深入,还存在许多问题尚未解决,有待于进一步的研究:
(1)高效构建领域本体。领域本体是语义互联中的重要核心元素,而领域本体的构建还处于半自动化阶段,需要领域专家的参与,受到领域专家知识储备等主观因素的影响,因此寻求高效率的本体构建方法以及本体的自动进化方法是下一步需要重点研究的问题。
(2)准确构建桥本体。桥本体是对跨本体进行概念关系揭示的有效工具,概念之间关系的准确揭示,是语义互联实现的关键,因此桥本体的准确构建方法需要进一步研究。本体概念之间的关系呈指数级增长,这需要对本体之间进行基于概念语义的相似度计算,而相似度算法非常复杂,尤其是中文本体概念之间的相似度计算更加困难。随着不同目的、不同语种构建的领域本体的快速增长,桥本体的快速、准确、自动的构建算法研究是当务之急。
(3)模拟系统的改进完善以及真实用户环境下的测试和使用问题。MOSISS系统目前主要用于本课题组内部测试和相关实验测试,从模型系统到实际应用还有很大距离。下一步的工作是进一步开发和改进该模拟系统,并将其与目前医院的HIS系统挂接起来,进行真实用户环境下的公开测试和使用。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|