主题图技术在消费者健康信息资源组织中的应用——以糖尿病为例
李英英, 王惠临
中国科学技术信息研究所 北京 100038
摘要

针对医学知识有限以及医学专业词汇与非医学专业人员用词(即消费者健康词汇)之间存在的差异,使消费者很难准确理解和检索医学健康信息的现状,利用主题图技术对消费者健康信息资源进行组织,以糖尿病为例,利用Ontopia公司开发的主题图工具进行实验,将同一概念的不同表达(即医学专业术语与消费者健康词汇)集合起来,并对医学概念之间的复杂关系进行揭示。这不仅能使消费者以他们熟悉的语言(消费者健康词汇)进行浏览和检索,还能帮助消费者对医学知识进行正确理解。

关键词: 主题图; 知识组织; 消费者健康信息学; 消费者健康词汇; 糖尿病; Ontopia
Application of Topic Maps in Consumer Health Information Resources Organization ——Illustrated by Diabetes Mellitus Information Resources
Li Yingying, Wang Huilin
Institute of Scientific & Technical Information of China, Beijing 100038, China
Abstract

Limited medical knowledge, and the gaps between special medical terminology and the vocabulary used by consumers (Consumer Health Vocabulary, CHV) may cause the problem that health consumers often have difficulty in understanding and searching these information. This paper proposes a method of organizing consumer health information resources using topic maps, and the topic maps tools designed by the Ontopia corporation are adopted to organize the consumer health information resources about diabetes mellitus as the experiment. Different expressions of the same concept can be collected and the complex relationship between medical information can be displayed, so that consumers can not only initiate a search and browse the medical knowledge structures using their familiar vocabulary(CHV), but also understand exactly the medical knowledge.

Keyword: Topic maps; Knowledge organization; Consumer health informatics; Consumer health vocabulary; Diabetes mellitus; Ontopia
1 引 言

随着互联网的普及,越来越多的人们将互联网作为获取健康信息的主要途径。然而由于目前大多数网络医学信息资源都是非结构化的,对于医学知识有限的非医学专业人员(即消费者)来说,很难进行有效和快速的检索,加上医学专业词汇与非医学专业人员用词(即消费者健康词汇)之间存在的差异[ 1],消费者只能利用自己的知识和经验进行理解和使用,造成消费者对某些专业术语的曲解,因此,也很难正确理解已获取的医学健康信息。主题图作为一种新的信息组织与知识组织技术,能够描述任意复杂的知识结构,并与对应的信息资源相连接。将主题图用于面向消费者的医学健康信息资源组织,不仅能够揭示医学概念之间的复杂关系,并以可视化形式呈现,帮助消费者对医学知识的理解,还能将同一概念的不同表达(即医学专业术语与消费者健康词汇)集合起来,实现同一检索入口,使其能以任意一种语言浏览和检索知识结构,并能检索到对应的所有信息资源。本文以糖尿病为例,提出了利用主题图进行消费者健康信息资源组织的方法,以期帮助消费者对医学健康信息的理解和检索,并利用Ontopia公司开发的主题图工具进行实现。

2 相关研究综述
2.1 主题图概述

主题图(Topic Maps, TM)作为一项新的国际标准,用于描述知识结构并将其与信息资源相连接。主题图的主要概念包括主题(Topics)、关联(Associations)、资源指引(Occurrences),简称主题图三要素(TAO)。主题图概念模型可以分为知识层和信息层[ 2]

主题图以主题为中心,借由关联的连结,将抽象的知识内容组织成一个有坐标概念的知识地图[ 3],既可以定位某一知识概念所在的资源位置,也可以表示知识概念之间的相互关系,用户可以经由一个主题,链接到与该主题有关的所有主题,符合人类联想思维模式和人类认知规律。

由于网络医学信息资源往往是分散无序地存在于互联网环境中,医学信息资源除了文本信息,还包括大量的医学影像等图片信息,而信息资源的载体往往也是多样的,如视频、音频等,主题图可以将有关某一主题的所有分散、无序以及所有载体形式的信息资源集中到一起,这为大量异构医学信息资源组织和集成的实现提供重要依据。此外,相对于全文检索等传统检索方法,主题图考虑了更多的语义信息,能够进行语义检索以及规则推理,能够很好地处理同义词和多义词问题,能够提供更复杂以及更精确的检索,有助于用户检索出真正有用的信息[ 2]。Yi[ 4]对基于主题图的检索系统的查全率和检索时间进行测试评价,认为基于主题图的信息检索系统对于关系检索的查全率较好,查询时间也较短,即用户可以快速且容易获取所需复杂信息。目前主题图已被广泛应用于知识组织、信息检索以及知识管理领域[ 5],研究领域除关注数字图书馆、教育领域、企业部门和政府部门等外,还关注咨询公司、法律公司、医疗服务机构、电子商务等领域[ 6, 7]

2.2 主题图在医学领域中的应用

现有的医疗资源大部分都是基于医学专业词表进行组织的,医学信息资源的组织研究大多还基于传统信息组织方法,利用主题图来进行医学信息资源组织的研究还较少。目前,主题图技术在国外医疗领域的应用主要有:利用主题图技术来管理医学信息和数据[ 8],将主题图用于医学知识空间的导航[ 9]、临床决策辅助系统[ 10]、知识架构[ 11]、医学教学[ 12]以及建立多语言医学信息检索系统[ 13]等。如Beier等[ 9]利用主题图建立医学知识空间的导航和交互,使不熟悉医学专业术语的用户通过图像化导航,直观、准确地选择所需主题。Stnescu等[ 12]将一部分MeSH词表转换成主题图并进行可视化,用于医学教学,使学生能够通过可视化图像浏览自己感兴趣的主题,帮助学生理解医学知识之间的语义关系,以及知识发现,从而达到更好的学习效果。Yi[ 13]利用主题图建立了关于H1N1即禽流感病毒的多语言医学信息检索系统,将美国疾病控制中心(CDC)系统中的传统分类体系转换成主题图,并建立英语与汉语、韩语之间的对照,使用户能用其中任一语言进行检索。目前国内已有人开始利用主题图建立医学领域知识库。如庄诗怡[ 14]利用主题图概念建立了一个提供分类目录式与关键字词搜寻的注意力缺失过动症中医方剂与药材知识库系统,凭借清楚、明确的分类架构体系及主题查询模组,引导使用者快速获取其所需的相关知识,以作为客观、全面的参考。

2.3 主题图组织消费者健康信息资源的优势

消费者健康信息资源是指面向消费者即普通大众的医学健康信息,而不是面向医学专业人员的专业信息。由于消费者医学知识有限,很难用准确的术语进行检索。研究发现,非医学专业人员(即消费者)使用的医学用语与医学专业人员使用的医学专业术语之间存在明显差异,而这种差异导致了消费者很难有效获取、检索和正确理解医学健康信息[ 1]。2003年,美国国立医学图书馆、哈佛大学医学院等成立了研究小组Consumer Health Vocabulary Initiativeh(ttp://consumerhealthvocab.org/),提出了建立消费者健康词表(Consumer Health Vocabulary, CHV)来解决非医学专业用词和医学专业术语之间差异的问题,并将其定义为一种将消费者使用的医学概念日常口语表达与医学专业术语之间建立联系的词表,可为消费者和专业医学信息之间建立一座桥梁。因此在信息的组织和揭示上,需要将专业医学词汇与消费者健康词汇联系起来。

主题图作为一种新的知识组织技术,吸收了传统组织方法的优势,然而并不局限于固定词表,主题图的范围(Scope)和身份标识(Subject Identity)机制允许同一概念有不同的表达形式以及对同一概念不同表达形式的合并[ 2],即可以处理同一个主题有多个名字(同义词)以及同一个名字可以有多个含义(多义词)的问题,同时除了可以描述传统组织方法提供的几种基本关系之外,还可以描述更复杂的语义关系。因此,在对医学概念进行标引时,在标引专业词汇(中文医学主题词)的同时,可以加入其对应的消费者健康词汇,使同一概念的不同表达(即医学专业术语与消费者健康词汇)集合起来,实现同一检索入口。使消费者在对医学健康信息资源进行浏览和检索时,也能使用自己的语言(即消费者健康词汇)进行浏览和检索,或者通过输入消费者健康词汇,得到对应的医学专业词汇,进行准确的检索。

3 主题图应用于消费者健康信息资源组织的技术思路

在利用主题图组织消费者健康信息资源时,首先要对消费者对医学健康信息的需求进行分析,从质量可靠的站点搜集所有相关信息资源,然后从中抽取所有主题,并进行分类和归类,接着对这些主题之间的关系进行定义,即定义关联类型。知识层建立之后,再将知识层中的主题与信息层中对应的相关信息资源进行连接,从而保证消费者能够通过主题获取相关的信息资源。由于消费者健康词汇与医学专业术语存在差异,因此在抽取主题之后,还应对主题名称增加范围,加入对应的消费者健康词汇,保证消费者能够使用自己的语言进行检索,并能通过医学专业词汇对应的消费者健康词汇理解医学专业术语以及医学概念之间的复杂关系。

由于医学信息资源数量庞大以及医学知识的巨复杂性,本文选取糖尿病为研究对象,对面向消费者的糖尿病信息资源进行组织,从而对以上方法进行实施。

4 具体实现方案及应用效果
4.1 糖尿病信息资源需求分析和资源搜集

对糖尿病信息资源的搜集前提是要对糖尿病患者以及关注糖尿病的人(统称消费者)的需求进行分析,可以通过调查问卷、电话访谈等方式,分析消费者的信息需求。在信息资源搜集时要从主办方、作者、来源、发布时间、更新日期等方面考察,保证信息的权威性以及质量。

本文选取中国公众健康网(http://www.chealth.org.cn/)、《中国糖尿病防治指南》、《中国2型糖尿病防治指南》2010年版[ 15]以及美国糖尿病协会(http://www.diabetes.org/)、美国国家糖尿病信息中心(http:// www.diabetes. niddk.nih.gov/ resources/ index.aspx)和美国食品与药物监督管理局(http://www.fda.gov/ForConsumers/default.htm#1)等网站提供的信息资源,这些网站都属于政府机构以及公益组织,具有权威性,在信息来源等方面有一定保障。

4.2 糖尿病信息资源主题图要素分析

主题图构建的第一步就是找出糖尿病信息资源中的所有概念,对这些概念进行分类,以便定义每个概念的主题类型,之后对这些概念之间的各种关系进行定义,最后对糖尿病信息资源进行分类,并定义类型,将这些概念与对应的相关信息资源进行连接。

(1)主题和主题类型(Topic and Topic Type)

对于医学知识有限的用户来说,通过揭示疾病的类型,可以了解疾病所属类型、了解更多疾病信息,以及同一类型的各种疾病。主题图可以对主题的类型进行描述和定义,通过对已收集的糖尿病相关信息资源中相关知识进行总结,提取与糖尿病有关的主题,并对这些主题进行分类,定义主题类型。糖尿病领域知识可以分为疾病、药物、症状、治疗方法、外科手术、检查指标,以及与疾病有关的化合物、生活方式、现象、年龄组、监测设备等主题。

由于疾病领域存在固有的疾病分类系统,因此,糖尿病相关疾病主题应按照每个疾病在疾病分类系统中的位置,将其上位类定义为主题类型,即每一个上位类都可以作为下位类的主题类型进行定义。如糖尿病在疾病分类系统中属于胰腺相关疾病,因此将其上位类胰腺相关疾病定义为糖尿病主题的主题类型,胰腺相关疾病属于内分泌系统疾病,因此其主题类型为内分泌系统疾病。

与疾病一样,药物同样也有固有的药物分类系统,因此,糖尿病相关药物应根据其在药物分类系统中的位置,将其上位类定义为主题类型。如伏格列波糖属于α-糖苷酶抑制剂,因此其主题类型可以定义为α-糖苷酶抑制剂。α-糖苷酶抑制剂又属于促胰岛素分泌剂,因此,其主题类型可以定义为促胰岛素分泌剂。

其他主题可以按照属性进行区分,将其属性直接作为其主题类型。在此不一一列举。

在对所有主题进行提取之后,还应对每个主题增加其对应的消费者健康词汇名称,并限制这一名称的范围,因为虽然主题图的范围机制使每个主题可以有多个不同的名称,但是主题图的命名机制要求在同一范围下每个主题只能有一个名称。由于目前消费者健康词汇仅有英文版,国内尚未开发消费者健康词汇,因此结合中国公众健康网提供的信息,将别名部分作为消费者健康词汇内容进行使用,以供实验。整理实例如表1所示:

表1 部分主题名称整理信息列表
(2)关联(Association)

通过揭示疾病的各种属性特征以及疾病之间的各种关系,可以帮助消费者对疾病病因、治疗、症状有更加清晰的认识和理解。主题图可以对关联以及关联类型进行自定义,因此可以揭示糖尿病与其他所有相关主题的关系。例如可以将1型糖尿病、2型糖尿病与药物伏格列波糖之间的关系定义为“临床用药”。通过揭示药物与疾病的关系,不仅能将某一药物能治疗的所有疾病集中起来,对药物有更清晰的认识,还可以发现非结构化信息无法揭示的信息,这对医学信息用户的认识有很大的帮助。

(3)资源指引(Occurrence)

资源指引按照主题属性可以定义资源指引类型,由于不同主题的属性不同,对于疾病,会有患病率、诊断标准、病因等属性;药物会有适应症、不良反应、用法与用量、禁忌症等属性;控制指标会有控制标准等属性,因此不同主题的资源指引类型就会不同,应该分别定义。通过对信息资源进行分析,可以将疾病主题的资源指引类型分为“概述介绍”、“定义”、“临床表现”、“诊断”、“病因”、“治疗”、“预防”、“患病率、“疾病管理与教育”等,其中“定义”和“患病率”定义为内部资源指引,直接列出具体内容,其余定义为外部资源指引,内容为相应的资源链接,通过这些URI访问相应外部资源内容。

主题图中的外部资源仅用URI代替,因此可以组织任意形式的资源,这对于形式复杂的糖尿病信息资源来说,满足了信息集成的目的,即可以将有关糖尿病主题的任意形式的信息资源集中起来,从而满足消费者的资源需求。另外,由于可以将某一主题的信息资源按照属性不同进行划分,即将有关同一属性的内容集中在一起并定义类型名称,消费者可以限制资源指引类型选择要查看某一类的信息资源。

通过以上对糖尿病的相关主题及主题类型的分析以及糖尿病相关主题之间的关系的分析,利用知识层中的主题与信息层中该主题相关信息资源的链接,将主题图的知识层和信息层连接起来,构成了完整的主题图。构建的主题图概念模型如图1所示:

图1 主题图概念模型

通过图形形状的不同,可以区分不同主题的主题类型。其中,长方形代表主题类型为疾病,六边形代表主题类型为药物,椭圆形代表主题类型为症状,菱形代表主题类型为外科手术,三角形代表主题类型为年龄组。双箭头弧线代表各主题之间的关系。

4.3 糖尿病信息资源主题图生成及可视化

在完成主题图各要素分析之后,要对主题图进行实现以及可视化。本文采用挪威Ontopia公司开发的Ontopia知识套件(Ontopia Knowledge Suite, OKS)(http://www.ontopia.net/section.jsp?id=ontopia-the-product),它包含了主题图构建所需的完整工具集,是目前功能最齐全和使用最广泛的商业开发工具,并且支持中文主题地图的创建和浏览。

使用Ontopia公司开发的主题图编辑工具Ontopoly[ 16]进行主题图编辑,由于Ontopoly不支持Scoped Name,对于消费者健康词汇的添加,需要通过手工编写XTM文档,并利用主题图浏览工具Omnigator[ 17]提供的合并功能将二者进行合并来完成。利用Ontopoly编辑之后的糖尿病相关主题类型、关联类型即本体界面如图2所示:

图2 主题类型、关联类型显示

本文编写的XTM代码采用XTM1.0标准(http://www.topicmaps.org/xtm/1.0/),对主题“1型糖尿病”定义两个名称的代码如图3所示:

图3 对主题“1型糖尿病”定义两个名称的代码

利用Ontopoly编辑的1型糖尿病信息与图3中XTM代码合并后由Omnigator显示的1型糖尿病主题界面如图4所示:

图4 “1型糖尿病”主题界面

图4右上角显示了“1型糖尿病”的类型,医学知识有限的消费者可以了解“1型糖尿病”所属的疾病类型,进而了解同一疾病类型包含的其他疾病以及这些疾病之间的关系。其次,当用户输入“1型糖尿病”或者其对应的消费者健康词汇“高安综合征”,都会被链接到“1型糖尿病”,从而获取与“1型糖尿病”相关的信息资源,或与“1型糖尿病”有关的其他主题以及他们之间的具体关系,选取更符合用户需求的主题进而获取相关信息资源。这将有助于医学知识有限、不熟悉医学专业术语的表达方式的用户更有效地获取以及理解医学健康信息资源。

通过主题图可视化工具Vizigator,用户可以通过图形可视化直观地浏览主题之间的关系,鼠标放在两个主题之间的连线上,即可以显示二者之间的具体关系名称。此外,Vizigator可以将不同类型的主题和不同类型的关联定义成不同的颜色,通过颜色不同,可以看出两个主题的主题类型不同,或者两种关联的关联类型不同,而具有相同颜色的主题,或相同颜色的连线代表了同样的主题类型或关联类型。部分主题可视化界面如图5所示:

图5 部分主题可视化界面

“长效胰岛素”和“诺和灵50R”都属于胰岛素,因此二者的主题类型都被定义为胰岛素,在可视化界面中具有相同的显示颜色,如图5(b)所示。由于本文中增加了范围限制,即在消费者健康词汇范围下的主题对应名称,因此可以选择范围,显示主题对应的消费者健康词汇名称,无范围限制即默认状态下可视化界面如图5(a)所示,在消费者健康词汇范围下的主题对应名称如图5(b)所示,通过对比发现,二者关系并没有任何变化,只是对应的主题名称发生了改变。因此用户可以以自己熟悉的词汇来了解疾病主题之间的关系。

4.4 糖尿病信息资源主题图检索

主题图建立之后,可以对主题图进行检索,测试对信息资源的组织效果。除了Vizigator提供简单的主题检索以外,Ontopia还支持主题图检索语言Tolog对主题图进行检索。通过使用主题图检索语言,可以进行任意复杂的关系检索。例如,可以对“哪些药物既可以用于治疗1型糖尿病又可以用于治疗2型糖尿病”这样的问题进行检索。本实验建立的主题图将“1型糖尿病”和治疗1型糖尿病的药物之间的关系定义为“临床用药”,因此只需要检索与“1型糖尿病”有“临床用药”关系的所有药物,以及与“2型糖尿病”有“临床用药”关系的所有药物,然后使用AND连接即可。在以上检索结果基础上,可以进行更复杂的检索,由于主题图中的每个主题都定义了主题类型,因此,只需要在以上检索结果中,加上主题类型为“促胰岛素分泌剂”的药物限制即可。检索语句如下:

select﹩medicine from

@1053(@924 : @867, ﹩medicine : @590),

@1053(@362 : @867, ﹩medicine : @590),

instance-of(﹩medicine, ﹩type),

@1147(﹩type : @1149, @1116: @874)?

检索结果如图6所示:

图6 治疗1型糖尿病和2型糖尿病的促胰岛素分泌剂检索结果页面

5 结 语

本文结合主题图的优势,通过利用主题图对消费者健康信息资源进行组织解决消费者对医学健康信息资源的理解和检索问题,并以糖尿病为例,利用主题图工具进行了实现。主题图结构能够将任意复杂关系以结构化的方式清晰地揭示出来,并进行可视化展示,有助于消费者对医学概念之间复杂关系的理解。主题图的范围和身份标识机制允许同一医学概念有不同的表达形式以及对同一概念不同表达形式的合并。笔者认为,主题图能够很好地满足面向消费者的医学健康信息资源的组织需求,解决消费者对医学健康信息资源的理解和检索问题。通过分析发现,本实验使用的Ontopia系列主题图工具有一定的局限性,因此未来考虑选择使用不同的主题图构建工具如Wandora、TM4L,选择更适合需求的工具。另外,将来可以加入更多的范围限制,比如可以对关联(Association)进行限制,针对普通大众消费者显示较简单的医学概念关系,针对专业医生显示较复杂的医学概念关系。这样就能保证在同一信息资源数据库下,提供两种不同的知识服务内容。对于资源指引(Occurrence),也可以不局限于一种语言类型资源,可以集成多种语言资源的信息。

参考文献
[1] Zeng Q T, Tse T. Exploring and Developing Consumer Health Vocabularies[J]. Journal of the American Medical Informatics Association, 2006, 131): 24-29. [本文引用:2]
[2] Pepper S. The TAO of Topic Maps[EB/OL]. [2012-10-30]. http://www.ontopia.net/topicmaps/materials/tao.html. [本文引用:3]
[3] Garshol L M. Metadata Thesauri Taxonomies Topic Maps!Making Sense of It All[J]. Journal of Information Science, 2004, 304): 378-391. [本文引用:1] [JCR: 1.238]
[4] Yi M. Information Organization and Retrieval Using a Topic Maps-based Ontology: Results of a Task-based Evaluation[J]. Journal of the American Society for Information Science and Technology, 2008, 5912): 1898-1911. [本文引用:1] [JCR: 2.005]
[5] Pepper S. Topic Maps[A]. //Bates M J, Maack M N. Encyclopedia of Library and Information Sciences[M]. The 3rd Edition. New York: CRC Press, 2010: 5247-5259. [本文引用:1]
[6] 韩永青, 陈卓群, 夏立新. 国内外主题图应用研究述评[J]. 图书情报知识, 200811): 105-109. (Han Yongqing, Chen Zhuoqun, Xia Lixin. Review of Application Research on Domestic and International Topic Maps[J]. Document, Informaiton & Knowledge, 200811): 105-109. ) [本文引用:1] [CJCR: 1.583]
[7] 刘丹. 国内主题地图研究综述[J]. 图书情报工作, 2012, 565): 62-66, 127. (Liu Dan. Review of Domestic Research and Application of Topic Maps[J]. Library and Information Service, 2012, 565): 62-66, 127. ) [本文引用:1] [CJCR: 1.193]
[8] Schweiger R, Hoelzer S, Rudolf D, et al. Linking Clinical Data Using XML Topic Maps[J]. Artificial Intelligence in Medicine, 2003, 281): 105-115. [本文引用:1] [JCR: 1.355]
[9] Beier J, Tesche T. Navigation and Interaction in Medical Knowledge Spaces Using Topic Maps[J]. International Congress Series, 2001, 1230: 384-388. [本文引用:2]
[10] Gomoi V S, Dragu D, Stoicu-Tivadar V. Clinical Decision Support Based on Topic Maps and Virtual Medical Record[C]. In: Proceedings of the 1st International Conference on Intelligent Systems and Applications(INTELLI 2012), Chamonix, France. 2012: 71-75. [本文引用:1]
[11] Strauβ M, Lemke H U. Knowledge Structure and Templates for Information Elements in Validation Procedures for CARS[J]. International Congress Series, 2003, 1256: 577-583. [本文引用:1]
[12] Stnescu L, Burdescu D, Mihai G, et al. Topic Map for Medical E-Learning[C]. In: Proceedings of the 2nd International Symposium on Intelligent Distributed Computing(IDC 2008), Catania, Italy. 2008: 305-310. [本文引用:2]
[13] Yi M. Effective Medical Resources Searching Using an Ontology-driven Medical Information Retrieval System: H1N1 Case Study[J]. The Electronic Library, 2012, 302): 248-263. [本文引用:2]
[14] 庄诗怡. 利用主题地图概念建置现代疾病中医方剂与药材知识库网路查询平台——以注意力缺失过动症为例[D]. 台湾: 亚洲大学, 2007. (Zhuang Shiyi. Structure a Knowledge Based Survey System of Traditional Chinese Medicine Literature for Attention Deficit Hyperactivity Disorder[D]. Taiwan: Asia University, 2007. ) [本文引用:1]
[15] 中华医学会糖尿病学分会. 中国2型糖尿病防治指南[M]. 2010年版. 北京: 北京大学医学出版社, 2011. (Chinese Diabetes Society. China Guideline for Type 2 Diabetes[M]. 2010 Edition. Beijing: Peking University Medical Press, 2011. ) [本文引用:1]
[16] Ontopia. Ontopoly: The Topic Map Editor, User’s Guide[EB/OL]. [2012-11-05]. http://www.ontopia.net/doc/current/ontopoly/user-guide.html. [本文引用:1]
[17] Ontopia. Omnigator : The Topic Maps Browser, User’s Guide [EB/OL]. [2012-11-05]. http://www.ontopia.net/doc/current/omnigator/userguide.html. [本文引用:1]