中国药品数据的知识表示方法研究
陈颖, 李姣, 李军莲
中国医学科学院医学信息研究所 北京 100020
摘要

为体现药品数据的语义、支持异构药品数据的有效整合,设计并实现一种基于药品概念、概念间语义关系和概念属性的中国药品数据的知识表示方法。利用该方法对传统的以关系型数据库存储和管理的药品数据进行重新描述和知识表示,实验结果表明该方法能够有效地改善药品概念标准化描述、语义关系提取与表示。最后,对该方法在卫生信息化建设中的应用前景加以展望。

关键词: 药品; 药学术语; 知识表示; 卫生信息化; 药学信息学
A Knowledge Representation Method for Pharmaceutical Products in China
Chen Ying, Li Jiao, Li Junlian
Institute of Medical Information, Chinese Academy of Medical Sciences, Beijing 100020, China
Abstract

To represent the semantics of pharmaceutical products and facilitate drug information integration, this paper develops a knowledge representation method for pharmaceutical products based on the frame work of concept, relationship and attribute. In evaluation, this method is applied to represent the drug products’ records which are initially organized in a relational database. In the case study, it shows that the method has the advances in pharmaceutical concept standardization and semantic relationship representation. At last, the perspectives of this method are discussed including its applications in health informatization and drug information dissemination online.

Keyword: Pharmaceutical product; Pharmaceutical terminology; Knowledge representation; Health informatization; Pharmaceutical informatics
1 引 言

随着卫生信息化的大力推广,有关医疗和健康的各类信息将全面走向数字化和知识化管理。药品作为诊断和治疗环节中的重要组成部分,药品信息的数字化描述和知识化表示直接关系到卫生信息化建设的各个方面。例如:医院电子病历系统中的药品消费核算和药品滥用监控、卫生事件报告系统中的药物不良反应和药物质量问题检测、普通公众利用互联网获取药品信息等。药品的知识表示已成为药品相关信息化建设中首要解决的问题。本文依据我国药品数据的特点,并借鉴国外先进经验,提出一种基于概念、概念之间语义关系和概念属性的药品知识表示方法,用以支持药品数据的管理和整合。

2 相关研究

药品信息的知识表示是一个值得关注的问题。美国在这方面做了大量工作,显著代表有Gold Standard Drug Database(GSDD)[ 1, 2] 、NDF-RT[ 3]、RxNorm[ 4]等。GSDD在结构和广度上与以往药品信息的组织方式有所不同,其结构包含多个模型,如药物产品和包装、药品价格、药物相互作用、过敏症、重复治疗、质量检查、警示标识等。先进的架构、及时准确的内容和内置的人工逻辑使GSDD可支持高级的药品智能决策。NDF-RT是美国退伍军人卫生管理局国家药品文档(National Drug File, NDF)的扩展,是一个面向概念的术语集,采用基于类别的概念层级结构。NDF-RT将NDF层级药品分类与多类目的参考模型相结合,将药品列表组织成正式的表现形式,模式化地表示药品特性,包括药品成分、化学结构、剂型、生理作用、作用机制、药代动力学以及相关疾病。RxNorm是药品通用名和商品名的规范命名系统,采用“活性成分+剂量+剂型”来表示一个临床药品名称,同时支持药品术语表和药房知识库系统之间的语义互操作,并与国家药品代码(NDCs)进行链接。RxNorm在处理药品数据及应用方面也做了很多探索[ 5, 6, 7, 8]

国内的学者对药品的知识表示开展了大量的研究。我国药品信息的表示方式主要以字典方式解释词条,例如:《中国药典》以药品活性成分为基本单元(如葛根素)描述其化学式、性状和检查等信息[ 9];《中国药学大辞典》以药学名词为基本单元(如葛根汤)描述其别称和注释[ 10];《当代药品商品名与别名辞典》以药品活性成分为基本单元(如葛根素)描述其分类、适应证、别名和商品名[ 11];国家食品药品监督管理总局(China Food and Drug Administration, CFDA)的药品数据库[ 12]以商品为基本单元(如普乐林牌葛根素注射液)描述药品的活性成分、剂型、剂量和生产厂家等信息。此外,也出现了一些对药品信息知识化表示的尝试,如中医药学语言系统(TCMLS)[ 13, 14, 15]建立了中医药本体,由语义类型和语义关系组成语义网络,可支持扩展检索、扩展知识服务。文献[16]参考《中图法》中药学的体系结构建立药学本体实现了对药学领域知识的管理,主要包括药学分支学科角度的知识(如药理学、药效学、药物制剂、药物分析等)和药品综合知识(如片剂、制剂通则、抗生素药物相互作用等)。其提取的概念主要来源于药学专业期刊、工具书和网页,并用属性来定义概念间关系。类似的工作还有文献[17,18]等。

与已有的工作相比,本文方法强调对实际药品数据的有效描述,强化了词条所代表的概念以及概念之间的语义关系,有利于不同药品信息源间的整合,有利于药品知识的标准化和规范化管理。本方法的知识表示框架(由概念、属性、关系构成)可整合不同药品资源,可扩展性强;能有效提取各类型概念,对部分概念及语义关系进行标准化,充分揭示药品数据中蕴含的信息及关系。

3 药品知识表示方法的设计
3.1 设计目标

(1)兼容性和协同性。强调药品知识表示方法可以广泛应用于多种药品数据来源的信息整合与知识关联。药学词表是重要的医学资源,目前国内外有很多优秀成果,如美国国立医学图书馆的RxNorm、Elsevier的金标准药物数据库(GSDD)、《中国药典》等。本文充分借鉴已有研究成果和实践应用,与国内外的主要药学词表在结构上或内容上保持关联,以便在未来的发展中保持稳定性和可持续性。

(2)实用性和可操作性。强调为我国药品信息的数字化和知识化管理提供可行的技术路线。本知识表示方法一方面要向国际优秀的药学词表构建实践靠拢,另一方面也要符合中国药品数据的特点和医生及患者的使用习惯,具备实用性和可操作性,切实服务于国内药学数据库、药事管理系统等多种应用的建设与需要。

(3)灵活性和可扩展性。强调方法的设计要为未来的发展预留空间。目前,中国药品数据的知识表示方法仍属于探索阶段,且药品数据的应用情况十分复杂,这都要求本文提出的方法应具有灵活性和可扩展性,为未来的发展和完善预留空间。

3.2 设计思路及方法描述

本文的研究对象是药品数据,提出的知识表示方法要能解决三个核心问题:精确地描述和确定一个具体的药品;展示和推导同一药品数据之间的关系;保留、展示不同来源药品数据的其他重要信息。为解决以上问题,设计思路是整合多个药品数据来源,抽象出药品描述中涉及的概念C,通过概念组织数据,为概念添加属性(记作AC)并构建概念间关系R,形成药品数据的语义网络,方法可表述为K={C,AC,R}。下面详细介绍方法中概念、属性和关系的构成。

(1)药品概念及其描述方式

药品概念是指药品知识表示方法中最小的基元,是对药品术语的概念化描述,记作C={c1,c2,c3…,cn}。例如:“葛根素”定义为一个概念,其概念类型为“活性成分”(Ingredient, IN),即ci∈{cx|CLASS(cx="IN")};“普乐林”定义为一个概念,其概念类型为“商品名”(Brand Name, BN),即cj∈{cx|CLASS(cx="BN")}。通过调研国内外相关药品数据资源并结合我国药品数据的特点,确定概念类型包括:活性成分(Ingredient, IN),剂型(Dosage Form, DF),生产单位(Manufactory, MAF),剂量(Strength, STH),商品名(Brand, BN),带剂型的临床药物名称(Semantic Clinical Dose Form, SCDF),带商品名的药物成分和剂量、剂型、厂家(Semantic Branded Drug Manufacturer, SBDM)。SBDM是IN、DF、MAF、STH、BN类型概念的组合,可唯一确定一个物理实体的药品。药品概念的描述如表1所示:

表1 药品知识表示中概念描述方式
其中,Mc_CUI是概念唯一标识符,用于唯一确定一个概念,如活性成分、药品商品名等;LAT用于表明药品数据的语言,目前为中文;Mc_AUI用于唯一标识一个原子,多个原子可能对应一个Mc_CUI。SAUI、 SCUI目前为空;SAB表明当前描述对象的来源词表。TTY是概念类型,用于表示当前描述对象的类型。基于前文提到的可扩展原则,通过TTY可增加新的概念类型。

(2)药品属性及其描述方式

药品属性用于描述概念、原子及关系有关的其他信息,可用于多种目的。不同来源表的属性描述可能不同,记作AC={a1,a2,a3…,an}。例如:“国药准字H10930169”定义为属性ai,其原始来源表(ORIG_SOURCE)为CFDA,其原始概念类型(ORIG_TTY)为“批准文号”,即ai∈{ax|ORIG_SOURCE(ax)="CFDA",ORIG_TTY(ax)="批准文号"}。属性描述如表2所示:

表2 药品知识表示中属性描述方式
其中,ATUI唯一标识1个属性,ATN是属性名称,ATV是属性值,SAB表明此属性名的原始来源表。属性表的结构可涵盖不同原始来源表的多种多样的属性,具有可扩展性。

(3)药品概念间语义关系及其描述方式

药品知识表示中概念间语义关系用来描述各个概念之间的关联,通过语义关系,形成概念的语义网络,进而构成药品数据的知识网络。关系是有方向性的,记作R={(c1,c2);(c2,c1)},或r1={c1,c2}, r2={c2,c1}。例如:概念c1 =“葛根素滴眼液”与概念c2=“滴眼剂”存在的关系可表示为Has-Form={葛根素滴眼液,滴眼剂},Is-Form={滴眼剂,葛根素滴眼液}。语义关系描述如表3所示:

表3 药品知识表示中语义关系描述方式
其中,Mc_CUI1、Mc_AUI1、Mc_CUI2、Mc_AUI2分别表示存在关系的两个概念或原子的唯一标识符;STYPE1、STYPE2表示关系所在列的值,如“AUI”或“CUI”;REL是关系名称,关系有方向,且是对称的;RUI用于确定概念的唯一标识符;SAB表示关系的来源表。关系同样支持可扩展。

4 药品知识表示方法的应用
4.1 实验数据

国家食品药品监督管理总局(CFDA)是国务院综合监督食品、保健品、化妆品安全管理和主管药品监管的直属机构。CFDA网站提供对国产药品、进口药品、药品生产企业等信息的查询。药品有不同的剂型、剂量,还可能对应多个商品名和生产单位,如检索“葛根素注射液”,共命中 153 条记录,以药品本位码分别为:86904240000885、86903082001203、86904693000142、86904152002960的数据为例,其对应产品名称分别为:葛根素注射液、注射用葛根素、葛根素滴眼液、注射用葛根素[ 12]。存在药品名称相同,但商品名、剂型、剂量和生产单位不同;药品活性成分相同,产品名称、商品名、剂型、生产单位都不同的现象。可见,CFDA药品数据的组织方式导致信息重复,且无法发现信息之间的关联。

选取CFDA的188 079条国产药品数据(截止到2012年11月26日)表示为K={C,AC,R}的形式,来验证本文方法的可用性。

4.2 实验流程

CFDA药品数据较为复杂,涉及较多数据处理和规范。本文分三步构建药品数据的知识表示方法,分别是概念生成、关系生成和属性生成。

(1)概念生成。是关系生成和属性生成的前提,概念生成包含4步:解析原始数据(包括确定哪些应作为概念,哪些数据需进一步分析处理等);拆分与映射(完成概念的抽取与映射);去重与归一(对不规范的术语进行规范化);组合概念(对原始来源表中没有、但必需的概念进行人工合成,如SAB=CFDA时,SBDM概念就是由“IN+BN+DF+STH+MAF”合成的新类型概念)。概念生成阶段需要相应规则的支持,如剂型检测规则、质量控制规则等,在此暂不详述。

(2)关系生成。关系的描述对象是概念。关系生成要依据概念的TTY值来确定哪些概念之间有关系及关系的类型。关系是成对的,如A的商品名是B,B是A的商品名。

(3)属性生成。包含解析原始数据,提取与去重,构建属性表。属性有两个来源:原始词表中除概念外的重要信息;依据需要增加的新信息。因为关系也存在属性,所以确定关系后,再生成属性。本文研究尚处于初步阶段,还未生成关系的属性表。

4.3 实验结果

(1)概念生成结果.

SAB=CFDA的TTY值目前有:BN(商品名)、DF(剂型)、IN(药物活性成分)、SCDF(临床药物成分和剂型)、STH(剂量)、MAF(生产单位)、SBDM(带商品名的药物成分和剂量、剂型、厂家)等,如表4所示:

表4 SAB=CFDA的药品概念表示例

为了将来能整合更多的药学词表,不同类型的TTY之间预留了充足的空间。表4只展示了SAB=CFDA的概念表,因此,Mc_CUI = Mc_AUI,当再整合其他表后,就会出现多个Mc_AUI对应一个Mc_CUI的情况,即多个不同来源表的原子对应一个概念。如SAB=CFDA,STR=麦普宁;SAB=CP,STR=麦普宁;SAB=CDNTD,STR=麦普宁,虽然Mc_CUI值相同,但Mc_AUI值不同(注:CP(Chinese Pharmacopoeia)是《中国药典》,CDNTD(Contemporary Drug’s Names and Trade names Dictionary)是《当代药品商品名与别名辞典》。)所有概念只出现一次,并可重用。如Mc_CUI=100001,STR=注射剂。当再加入新的药品数据,如其DF=注射剂,可直接用Mc_CUI =100001的概念来表达。

(2)属性生成结果

本文的知识表示方法充分继承原始来源表的属性,同时能够根据任务需要添加新的信息。对来源表重要编码(CODE)属性的继承与规范化使得该方法能支持语义互操作,并能忠实地还原和呈现原始词表的信息。

当前,来源表CFDA只有概念类型SBDM有属性,表5为TTY=SBDM,Mc_CUI=300001的概念的属性表。

表5 SAB=CFDA的药品属性表示例

(3)语义关系生成结果及可视化展示

SAB=CFDA的关系实例如图1所示。关系是成对出现的,箭头出发点是A,指向B。如SCDF的活性成分是IN,IN是SCDF的活性成分。DF(剂型)、STH(剂量)和MAF(生产单位),分别与SCDF(带剂型的临床药物名称)及SBDM(带商品名的药物成分和剂量、剂型、厂家)存在关系。IN和BN 之间存在关系,BN和SBDM存在关系,SCDF和SBDM存在关系。

图1 药品概念间语义关系可视化展示

概念及概念间关系构成一个语义网络,因此可从药品成分的一种概念类型出发,检索到此药品成分的其他各种概念类型信息,而且,通过关系的传递和推导可实现不同表达水平、同种化学成分的药品信息的交互,从而使得支持多种检索入口、语义互操作等高级应用成为可能。

5 结 语

本文方法以药品的活性成分为核心,通过概念的组合来唯一确定一个药品实体。建立了以概念为核心,以概念间关系为纽带的药品数据的语义网络,并为概念添加属性,进而实现对药品数据的知识化表示。方法的应用有利于药品数据的有效表达、共享和利用,有利于提高用药安全,增强药品生产、流通、使用中的监督管理。主要体现在以下几个方面:

(1)推进药品信息的标准化建设。该方法可促进中国药品数据的标准化、规范化表达,便于药品数据共享、交换和管理。

(2)加快卫生信息化进程。用于药品相关的卫生信息化系统中,便于命名实体查询、查询扩展,便于对药品剂型、剂量的管理,便于明确定位药品。

(3)促进安全用药。如用于药物决策系统,可防止重复治疗和误用药品;用于药品不良反应数据库,如快速定位有问题的药品商品名和生产单位等。

(4)加强药品监管。便于药品监管人员收集、整理、统计分析、评价药品信息,有效防止错漏,促使监管部门制定发布更切合实际的用药信息,提高监管效果和效率。

由于本文尚处于探索阶段,目前只收录了CFDA国产药品中的化学药品数据,对进口药品及国产药品中的其他种类药品,如生物制品和中药的处理仍在进行中。未来,一方面要整合我国多个药学领域资源,并依据不同资源的特点扩充和完善概念、属性和关系;另一方面,要深入分析本方法的应用场景,进而设计利用本方法支撑这些应用的技术方案,尽快推动其在实践中的应用和推广。

参考文献
[1] Gold Stand ard Drug Database [EB/OL]. [2013-05-21]. http://www.goldstandard.com/product/gold-standard-drug-database/. [本文引用:1]
[2] Gold Stand ard Drug Database Modules [EB/OL]. [ 2013-05-21]. http://www.goldstandard.com/gold-standard-drug-database-modules/. [本文引用:1]
[3] NDF-RT [EB/OL]. [ 2013-05-21]. http://rxnav.nlm.nih.gov/ndfrtRxNav.html. [本文引用:1]
[4] RxNorm Overview [EB/OL]. [ 2013-05-21]. http://www.nlm.nih.gov/research/umls/rxnorm/overview.html#. [本文引用:1]
[5] Nelson S J, Zeng K, Kilbourne J, et al. Normalized Names for Clinical Drugs: RxNorm at 6 Years[J]. Journal of the American Medical Informatics Association, 2011, 184): 441-448. [本文引用:1]
[6] Bodenreider O, Peters L B. A Graph-based Approach to Auditing RxNorm[J]. Journal of Biomedical Informatics, 2009, 423): 558-570. [本文引用:1] [JCR: 2.131]
[7] O’Neill S M, Bell D S. Evaluation of RxNorm for Representing Ambulatory Prescriptions[C]. In: Proceedings of the AMIA Annual Symposium. 2010: 562-566. [本文引用:1]
[8] Peters L, Kapusnik-Uner J E, Bodenreider O, et al. Methods for Managing Variation in Clinical Drug Names[C]. In: Proceedings of the AMIA Annual Symposium 2010. 2010: 637-641. [本文引用:1]
[9] 国家药典委员会. 中华人民共和国药典临床用药须知[M]. 北京: 中国医药科技出版社, 2011. (Chinese Pharmacopoeia Commission. Clinical Practice Notice of Chinese Pharmacopoeia[M]. Beijing: China Medical Science Press, 2011. ) [本文引用:1]
[10] 中国药学大辞典编委会. 中国药学大辞典[M]. 北京: 人民卫生出版社, 2010. (Chinese Pharmacy Editorial Committee. Chinese Pharmacy Dictionary[M]. Beijing: People’s Medical Publishing House, 2010. ) [本文引用:1]
[11] 中国药学会. 当代药品商品名与别名辞典[M]. 北京: 化学工业出版社, 2006. (Chinese Pharmaceutical Association. Contemporary Drug’s Names and Trade Names Dictionary[M]. Beijing: Chemical Industry Press, 2006. ) [本文引用:1]
[12] 国家食品药品监督管理总局[EB/OL]. [2013-05-21]. http://www.sfda.gov.cn/WS01/CL0412/. (China Food and Drug Administration [EB/OL]. [ 2013-05-21]. http://www.sfda.gov.cn/WS01/CL0412/. ) [本文引用:2]
[13] 曾召. 构建中医药学领域本体的实践[J]. 中华医学图书情报杂志, 2009, 184): 1-5. (Zeng Zhao. Practice in Construction of Traditional Chinese Medicine Ontology[J]. Chinese Journal of Medical Library and Information Science, 2009, 184): 1-5. ) [本文引用:1] [CJCR: 0.8253]
[14] 高博, 崔蒙, 杨硕, 等. 基于数据的中医药知识服务研究[J]. 图书情报工作, 2012, 569): 5-9. (Gao Bo, Cui Meng, Yang Shuo, et al. Knowledge Services of TCM Based on Data[J]. Library and Information Service, 2012, 569): 5-9. ) [本文引用:1] [CJCR: 1.193]
[15] 汤萌芽. 中医药本体工程及相关应用[D]. 杭州: 浙江大学, 2007. (Tang Mengya. Ontology Building for TCM and Associated Application[D]. Hangzhou: Zhejiang University, 2007. ) [本文引用:1]
[16] 王梅文. 基于本体的药学领域知识管理[J]. 中华医学图书情报杂志, 2008, 171): 4-7. (Wang Meiwen. Ontology-based Knowledge Management in Pharmacology[J]. Chinese Journal of Medical Library and Information Science, 2008, 171): 4-7. ) [本文引用:1] [CJCR: 0.8253]
[17] 张玉, 张文举, 李娜. 构建以知识服务和知识组织为基础的医药学知识库[J]. 医学信息学杂志, 2012, 312): 26-29. (Zhang Yu, Zhang Wenju, Li Na. Constructing Medicine Knowledge Database Based on Knowledge Service and Knowledge Organization[J]. Journal of Medical Information, 2012, 312): 26-29. ) [本文引用:1] [JCR: 2.061]
[18] 侯丽, 李军莲, 夏光辉. 公众健康知识服务系统的知识组织架构[J]. 中华医学图书情报杂志, 2012, 216): 8-14, 42. (Hou Li, Li Junlian, Xia Guanghui. Knowledge Organization Frame in Public Health Knowledge Service System[J]. Chinese Journal of Medical Library and Information Science, 2012, 216): 8-14, 42. ) [本文引用:1]