数字资源语义互联研究(III)——语义标注子系统的设计与实现
牟冬梅, 范轶, 王丽伟
吉林大学公共卫生学院 长春 130021
摘要

面向医学领域的语义互联模拟系统(MOSISS)是数字资源语义互联研究的实例支撑。语义标注子系统是MOSISS的重点子系统。在基于本体的语义标注思想指导下,阐述该子系统的设计思想、体系结构以及功能,探索多领域本体在语义标注中的应用,为用户提供一种共享数据的方式。

关键词: 语义互联; 语义标注; 本体; 桥本体
中图分类号:G250
Study on Semantic Interconnection of Digital Resources (III)——Design and Realization of Semantic Annotation Subsystem
Mu Dongmei, Fan Yi, Wang Liwei
School of Public Health, Jilin University, Changchun 130021,China
Abstract

The semantic annotation subsystem is the key subsystem of Medical Oriented Semantic Interconnection Simulation System (MOSISS), which is an example of the research on semantic interconnection of digital resources. Under the instruction of Ontology-based semantic annotation, the design idea, the system structure and the function of semantic annotation subsystem are expatiated, in order to explore the application of multi-field Ontology in semantic annotation, which provides a way of sharing data for users.

Keyword: Semantic interconnection; Semantic annotation; Ontology; Bridge Ontology
1 引 言

由文献组织、信息组织向知识组织发展,成为信息资源组织发展的一个显著趋势。研究的核心问题转向概念、语义、知识表示、概念体系、语义网络、潜语义标引、本体、语义Web。特别是语义网、知识网格以及新型技术方面的突破性进展,彰显了数字信息组织理论、方法的发展与创新:

(1)从用户可理解到机器可理解;

(2)从信息描述到知识表现;

(3)从语义隐含到语义揭示;

(4)从“以概念为中心”到“以概念-关系为中心”;

(5)从知识表示到智能推理[ 1]

在这一变革期,本体技术显示出其巨大的驱动力量,目前利用本体进行数字资源语义标注进而达到语义互联和语义服务已经成为业界的研究方向之一。基于本体的语义标注又称本体标注,即利用本体中定义的概念、术语以及语义关系显示地揭示和表达数据资源的语义,即使用已经存在的本体在Web页面中插入语义信息,从而使机器可理解网页的内容。目前语义标注会涉及到多个本体,研究发现,多领域本体环境中的语义标注成为本体应用过程中的瓶颈问题,因此本文提出基于桥本体完成多领域本体的集成,以桥本体为核心建立数字图书馆知识组织语义互联的语义模型,在语义模型基础上进行语义标注,使网页具有丰富的语义信息,以期提高检索的召回率和准确率。

面向医学领域的语义互联模拟系统(MOSISS)是本课题组完成的数字资源语义互联研究的实例,其中语义标注子系统是MOSISS的重要组成部分。该子系统探索了多领域本体在语义标注中的应用问题。

2 语义模型构建

语义模型是对内容语义、语义类型及语义关系进行描述和组织的机制,它可以解析信息需求和信息资源的语义,并将两者进行匹配,从互理解的角度来提升用户检索的准确度和召回率,更好地满足用户的信息需求。语义模型是影响数字图书馆知识组织语义互联的核心要素。本文构建了以元数据、 领域本体、 桥本体和本体解析体系为组成要素的语义模型,利用语义模型实现数字资源知识组织过程中的数字资源、用户需求表达的语义解析,完成数字图书馆用户交互层、 内容管理与功能层、内容层之间的语义映射。其中,元数据进行资源的标准化描述,领域本体进行概念以及概念之间关系的语义标注,桥本体用于资源之间语义聚合,本体解析主要解决本体的具体效用发挥的方式。

2.1 MOSSIS中的领域本体构建与复用

MOSSIS的语义标注子系统中使用的本体包括以下三个:

(1)笔者所在的国家自然科学基金项目组利用斯坦福大学的本体编辑工具Protégé 3.4[ 2]构建了糖尿病本体Diabetes.owl。 Diabetes.owl中包含128个类, 19个实例, 31个对象属性, 1个数值属性。Protégé中部分类截图如图1所示:

图1 中文糖尿病本体Protégé 中类截图

(2)Protégé网站提供的开源本体,乳腺癌本体(BreastCancerOntology)MDM0.73.owl[ 3]。乳腺癌本体中有196个类, 112个实例, 22个对象属性, 3个数值属性。

(3)韩国生物医学知识工程实验室Hai-Tao Zheng构建的MeSH本体Meshonto4.owl[ 4],该本体将医学主题词表中的概念形成OWL格式的本体,其中共包含24 710个类,没有实例和属性。

2.2 桥本体构建

采用静态与动态结合的方式,通过Protégé 3.4本体编辑工具和Java语言对三个领域本体Diabetes.owl、MDM0.73.owl、Meshonto4.owl中的概念进行映射,构建桥本体BridgeOntology.owl。

图2 Meshonto4本体

以Meshonto4本体(见图2)与MDM0.73.owl本体(见图3)为例,来说明桥本体的构建。

图3 MDM0.73.owl本体

Meshontonto.owl中的类Mesh:breast_neoplasm与MDM0.73中的BMV:BreastCancer具有同义关系,因此将两概念建立同义桥,写入桥本体中ConceptBridge类BCequal子类BCequal_2实例的Has_Concept属性中breast_neoplams和BreastCancer,并将两个本体名称(以文件名称代替本体名称)Meshionto4.owl和MDM0.73.owl写入桥本体BridgeOntology.owl的Concept类中BreastCancer和Breast_Neoplams实例的Come_From属性中,表示这两个具有同义桥关系的概念分别来自于Meshionto4.owl 和MDM0.73.owl本体。

2.3 本体解析体系

将OWL本体映射为关系数据库模式形成本体解析体系,该体系并不能完全保持OWL的丰富语义和推理功能,会影响本体作用的发挥,但可以方便地进行本体存储、本体管理、本体学习、本体进化、语义抽取、语义标注、语义检索,提高数字资源知识组织的效率。

(1)桥本体解析体系

根据OWL本体的形式化描述和关系数据库模式的形式化描述以及OWL与关系数据库的对应关系[ 5],制定了桥本体映射规则:

① 以桥本体建立数据库,数据库管理系统采用SQL Server2005,取名为database_bridgeO。

② 桥本体中的10个桥关系分别为桥本体的子类,分别以这10个桥关系建立10张表,表名为table_BCequal、table_BCdifferent、table_BCisa、table_BCinstanceof、table_BCoverlap、table_BChasa、table_BCopposed、table_BCconnect、table_BRsubsume、table_BRinverse。

③ 将桥本体的属性映射为各个表的属性,属性类型为字符型;各表属性个数并不相同,主要包括三类:

1)表示具有该种桥关系的两个领域本体的名称;

2)表示具有该种桥关系的领域本体的类名称;

3)代表该类所对应表的地址。

④ 属性值分别取值为领域本体名、领域本体中类名和类对应的表名。

⑤ 不同领域本体概念之间的关系构成表中的记录。

⑥ 表中的主键为复合主键,由不同领域本体名称和不同概念名称组合而成。

同义桥关系映射实例,如表1所示:

表1 Table_BCequal同义桥关系映射实例

(2)领域本体解析体系构建

在本体到关系数据库模式映射方面,参考文献[6]进行了详尽的阐述,本文采用该映射规则,进行类、属性和实例的映射。

2.4 基于语义模型的资源语义标注流程

基于语义模型对资源进行语义标注可以看作桥本体构建的逆过程。将语义模型中的各种本体以及桥本体作为语义标注过程中的可用资源,利用本体内部已经形成的概念、属性、实例以及概念之间的关系,简化信息标注过程中对概念的识别。利用本体查找所有与文档中待标注词匹配的概念或实例集合,根据待标注词的语境构造文本向量,与本体中的概念进行相似度计算,找到与待标注词最匹配的实例。整个过程分为三步:数据预处理、语义相似度计算、标注。具体过程如图4所示:

图4 语义标注流程图

(1)数据预处理

对文档、网页和数据库中的数据资源进行预处理,如对网页进行噪音(导航栏、广告等)去除,文本编码转换,去除或转换HTML标签等,将各种异构的数据资源转换为待标注的纯文本,如图5所示。

图5 基于语义模型的数据预处理

采用中国科学院计算技术研究所汉语分词系统ICTCLAS的Java版本[ 7],在Eclipse平台上进行分词,分词使用了自建医学词表,该词表选取美国医学主题词(MeSH)中的叙词和入口词为主要词汇,词性为名词。

(2)语义相似度计算

①获取概念

对从文档、网页以及各种数据库中抽取出来的数据进行自然语言处理,选取的特征词以领域词汇表加以微调,获得将进行映射的概念。

②映射桥本体

映射采用关系数据库检索技术,因为桥本体中的概念都存储于本体解析体系的SQL Server数据库中,将获取的概念与桥本体中的各个子类的Has_Concept属性中包含的各个概念进行匹配:如匹配成功,提取Come_From属性值,查找领域本体的地址,用领域本体中的概念进行标注,即进入标注阶段;如匹配不成功,则对领域本体进行映射。对于MOSSIS中电子病历的片段数字资源,如果桥本体进行映射,可以发现电子病历中概念为BreastCancer,可以用标注MDM0.73的BreastCancer,而MDM0.73本体中的概念BreastCancer与Meshonto.owl本体的Breast_Neoplasm具有同义桥关系,则概念BreastAdenoCa、HRPAS、Breast_Ductal_Carcinoma,Male_Breast_Neoplasm均用于标注,如图6所示:

图6 桥本体与本体结合标注结果显示

从以上标注结果描述可知,利用桥本体进行语义标注,解决了单个本体标注导致的信息丢失问题;解决了多个本体标注时的信息冲突问题;利用本体桥描述标注信息,不仅为标注提供了更丰富的语义信息,而且易于维护、更新、扩充标注信息[ 8]

③映射领域本体

将获取的概念分别与三个领域本体中的概念进行匹配,匹配成功则进行语义标注;如不成功,应进行本体自动学习与进化,MOSSIS在此并未展开研究。

MOSSIS标注界面主要有两部分组成:左侧是标注界面,包括标注时间、病历号、标注数据、标注注释、标注概念,右侧是本体浏览界面,显示语义标注时使用的本体,如图7所示:

图7 MOSISS语义标注子系统——标注1

(3)标注

采用分离标注,将标注的语义内容和原始数据内容相对分离,此时对数据内容的语义描述连贯而集中,便于对标注语义的知识管理和搜索,更容易为用户或Agent处理[ 9]。标注的语义内容来自于领域本体,而非桥本体,因此在这一过程需要对桥本体中包含的桥关系进行加权,确定Has_Concept属性中包含各个概念之间的关系,准确地定位原领域本体中的概念。将电子病历中的信息进行语义标注形成语义元数据,该语义元数据存储在SQL Server数据库中,如图8所示:

图8 MOSISS语义标注子系统——语义元数据库

3 MOSSIS语义标注系统的测试

为测试语义标注效果,MOSSIS设计了语义检索子系统,界面如图9所示:

图9 MOSISS语义检索页面

测试用例为“糖尿病微血管病变”,MOSISS提供给用户的结果为包含“糖尿病眼病”、“糖尿病视网膜病变”、“糖尿病足”、“糖尿病肾病”等的病历,这些疾病都属于“糖尿病微血管病变”,可以看出MOSISS提供的不是基于关键词字面匹配的检索,而是具有语义性的,如图10所示:

4 结 语

MOSSIS系统是在数字图书馆知识组织语义互联应用模型指导下完成设计,其中语义标注是MOSSIS重要的功能子系统,该子系统不仅实现了对异构数字资源的语义标注,还探索了多领域本体在具体环境中的应用问题,对实现数据共享进行了尝试。

除了语义标注子系统已实现的功能外,系统还存在有待完善和扩展的地方,主要包括:

(1)设计文件装载模块。MOSSIS系统所支持的文件格式是已知的,即三家电子病历系统,包括Word的DOC文件、SQL Server数据库文件和My SQL数据库文件,对其他文件格式的电子病历尚不能进行数据清洗,因而无法完成语义标注。

(2)完成半自动/自动语义标注功能。半自动/自动语义标注主要有两大问题亟待解决:数字资源分词问题,尤其是对专业词汇的分词,目前国内外有一些分词系统,如何封装分词系统和专业词汇有待下一步研究;语义相似度算法问题,这不仅影响桥本体的质量,也影响语义标注的精确度,进而影响检索的准确率与召回率。

参考文献
[1] 戴维民, . 语义网信息组织技术与方法[M] . 上海: 学林出版社, 2008. [本文引用:1]
[2] Protégé[ EB/OL]. [2008-12-10]. http://protege.stanford.edu/. [本文引用:1]
[3] BreastCancer[EB/OL]. [2009-01-20]. http://acl.icnet.uk/~mw/MDM0.73.owl. [本文引用:1]
[4] MeSH Ontology in OWL Format[EB/OL]. [2008-12-10]. http://bike.snu.ac.kr/?p=102. [本文引用:1]
[5] 许卓明, 黄永菁. 从OWL本体到关系数据库模式的转换[J]. 河海大学学报: 自然科学版, 2006, 34(1): 95-99. [本文引用:1]
[6] 朱姬凤, 马宗民, 吕艳辉. OWL本体到关系数据库模式的映射[J]. 计算机科学, 2008, 35(8): 165-168, 205. [本文引用:1]
[7] ICTCLAS汉语分词系统[EB/OL]. [2008-12-10]. http://ictclas.org/. [本文引用:1]
[8] 叶育鑫. 语义Web下知识搜索及其核心技术[D]. 长春: 吉林大学, 2010. [本文引用:1]
[9] 荆涛, 左万利, 孙吉贵, . 中文网页语义标注: 由句子到RDF表示[J]. 计算机研究与发展, 2008, 45(7): 1221-1231. [本文引用:1]