Advanced Search

数据分析与知识发现, 2020, 4(1): 121-130 doi: 10.11925/infotech.2096-3467.2019.0955

研究论文

面向多源词表整合的概念自动更新策略研究*

孙海霞1,2, 邓盼盼2, 李姣2, 沈柳2, 钱庆,,2

1南京大学信息管理学院 南京 210046

2中国医学科学院医学信息研究所 北京 100020

Automatic Concept Update Strategy Towards Heterogeneous Terminology Integration

Sun Haixia1,2, Deng Panpan2, Li Jiao2, Shen Liu2, Qian Qing,,2

1School of Information Management, Nanjing University, Nanjing 210093, China

2Institute of Medical Information,Chinese Academy of Medical Sciences, Beijing 100020, China

通讯作者: * 钱庆,ORCID:0000-0002-9072-586X,E-mail:qian.qing@imicams.ac.cn

收稿日期: 2019-08-20   修回日期: 2019-10-30   网络出版日期: 2020-01-25

基金资助: *本文系国家科技图书文献中心“下一代国家科技创新开放知识服务系统”先期研发任务“STKOS 自动构建与维护关键技术研究”.  XQYF0102
国家重点研发计划“精准医学本体和语义网络构建”.  2016YFC0901901
中国医学科学院医学与健康科技创新工程项目“中文临床医学术语系统构建研究”的研究成果之一.  2017-I2M-3-014

Received: 2019-08-20   Revised: 2019-10-30   Online: 2020-01-25

摘要

【目标】 提出面向KOS版本演化的整合概念更新方法,促进多源异构词表整合系统动态发展。【方法】 聚焦术语、同义词集合和优选术语三类知识单元,通过字符串精确匹配识别来源术语和优选术语变更模式;通过概念向量空间识别来源概念同义词集合变更模式;融合规则和相似度更新整合概念同义词集合和优选术语;以STKOS超级科技词表的医学类整合概念集及其重要来源MeSH和HUGO进行实验与准确性评估。【结果】 新增术语更新同义归并准确率达94.96%,变更整合概念优选术语推荐准确率达99.91%。【局限】 概念变更模式识别未考虑术语歧义性;多表同时更新时,变更概念术语归并准确率受词表部数和更新顺序影响。【结论】 本文提出的整合概念自动更新策略可用于来源KOS版本升级引发的同义互操作系统概念升级。

关键词: 同义互操作 ; 互操作维护 ; 整合概念更新 ; 知识组织体系

Abstract

[Objective] This paper proposes a method updating integrated concept for the version evolution of source Knowledge Organization Systems (KOSs), aiming to promote the dynamic development of the heterogeneous terminology integration system.[Methods] Our model focuses on terms, synonym sets and preferred terms of concepts. Firstly, we identified terms changing types and preferred terms changing modes of concepts in source KOSs by exact string matching. Then, we recognized their synonym sets changing patterns through concept vector space. Finally, we updated synonym sets and preferred terms of integrated concepts fusion rule and similarity. We also assessed the results yielded by our method using medical integration concept set of STKOS and its important sources, MeSH and HUGO.[Results] The synonymous merging rate of new term from source KOSs reached 94.96%, and the update accuracy of preferred term of changed integrated concepts reached 99.91%.[Limitations] We did not consider ambiguity of the terms and the results were affected by the number of vocabulary and update order.[Conclusions] The proposed method can be applied to update concepts of synonymous knowledge organization systems because of their source KOSs evolution.

Keywords: Synonymous Interoperability ; Interoperability Maintenance ; Integrated Concept Updating ; Knowledge Organization Systems

PDF (819KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

孙海霞, 邓盼盼, 李姣, 沈柳, 钱庆. 面向多源词表整合的概念自动更新策略研究*. 数据分析与知识发现[J], 2020, 4(1): 121-130 doi:10.11925/infotech.2096-3467.2019.0955

Sun Haixia. Automatic Concept Update Strategy Towards Heterogeneous Terminology Integration. Data Analysis and Knowledge Discovery[J], 2020, 4(1): 121-130 doi:10.11925/infotech.2096-3467.2019.0955

1 引 言

知识组织体系(Knowledge Organization Systems,KOS)互操作旨在克服不同领域、不同机构面向不同应用开发出来的知识组织系统在语种、体系结构、描述规范、存储格式、句法结构、概念颗粒度等方面的差异,实现不同系统间的知识交换、共享和重用[1],是异构平台、系统实现语义互操作的重要基础[2]。同义互操作是实现不同知识组织体系互操作的一种,其本质是以术语为基本单元, 以概念为核心,通过将不同来源词表中表征同一概念的术语归并连接在一起,形成新的同义词组或准同义词组,并推荐某一来源术语作为概念的优选表达形式(简称优选术语);基于归并后形成的概念(简称整合概念),以来源词表原有关系为依托,实现不同来源词表语义关联[3]。代表项目有美国国立医学图书馆1986年开始实施的一体化医学语言系统(Unified Medical Language System, UMLS)项目[4]和中国国家科技图书文献中心2011年牵头在理学、工学、农学和医学4个领域实施的STKOS(Scientific & Technological Knowledge Organization Systems)超级科技词表项目[3]

知识是客观事物属性与联系的反映,是客观世界在人脑中的主观映像。客观世界本身是动态发展的,且其性质及其关系的暴露往往是一个历史过程,因此知识的本质特征也是动态发展[5]。作为对知识结构进行有组织表达和阐释的语义工具,术语表、分类表、叙词表、主题词表、本体等知识组织体系只有不断更新才能及时、准确地反映知识的发展,更好地支持数据检索、数据标注、知识发现等应用。以医学领域为例,医学主题词表(Medical Subject Headings, MeSH)[6]、系统化临床术语集(Systematized Nomenclature of Medicine-Clinical Terms, SNOMEDCT)[7]、观测指标标识符逻辑命名域编码系统(Logical Observation Identifier Names and Codes, LOINC)[8]、人类基因组织基因命名表(The Human Genome Organization Gene Nomenclature, HUGO)[9]等国际权威术语系统每年均发布更新版,国内《中医药主题词表》[10]、《中文医学主题词表》[11]等也处于持续更新中。伴随着来源词表的持续维护与发展,与来源词表保持同步更新,是互操作系统保持生命力的关键因素之一。

词表维护一直是知识组织体系发展所面临的重要挑战之一。互操作系统更是如此[12]。即便仅由两部词表构成的互操作系统,一旦来源词表体量较大或版本间变化较大时,更新也是一项巨大工程,以国际疾病分类法(International Classification of Diseases,ICD)与SNOMEDCT映射为例,ICD-9到ICD-10的升级影响了约一万组映射[13]。目前KOS互操作研究主要聚焦于互操作实现方法,互操作系统维护与演化研究相对较少。UMLS Metathesaurus每年发布两个版本[14],但尚未有公开文献报道其如何进行版本更新。本研究以STKOS超级科技词表整合概念库为例,研究来源KOS版本变更时,KOS同义互操作系统中整合概念如何进行更新,提出一种基于字符串匹配、词表概念向量空间和规则的三阶段式整合概念自动更新方法。

2 相关研究

KOS互操作维护旨在保持互操作系统持续更新,与来源KOS演化保持同步。核心任务可概括为:(1)识别KOS变更,包括变更要素、变更类型等;(2)判定KOS变更对互操作系统的可能影响,决定是否需要对受影响的映射进行修改;(3)确定互操作系统更新方案,实现更新。

2.1 KOS变更识别

识别和理解KOS变更是实现KOS互操作维护的第一步,涉及变更元素识别(如类、概念、术语、属性、关系、注释)、变更类型(如新增、删除、停用、拆分、合并)、变更复杂性(单一操作变更还是复杂操作变更)、变更语义特征(如概念内涵的泛化与具化)等[15]。典型方法有日志变更分析法和对象集合比较法。日志变更分析法通过跟踪、对比连续版本之间的演化日志识别KOS变更,如PromptDiff算法[16],因现实环境下演化日志不易获取,该类方法主要用于实现KOS编制工具版本管理。对象集合比较法旨在通过对比目标版本间的对象集合变化识别KOS变更,如Hartung等[17]基于此思路构建了包含本体概念、关系、实例和映射4类对象的通用本体版本演化模型,开发了OnEX系统[18],最初该模型系统仅能识别新增、删除和停用三类单一操作变更,后综合术语匹配和规则[19],能够实现拆分、合并等复杂变更操作。

2.2 KOS变更对互操作系统影响

Gross等[20]以生物医学领域本体为例,通过构建实验映射集,分析了哪些本体变更操作会导致本体映射新增或删除,结果发现新增、删除和停用三类基本变更会导致相当比例的映射新增和删除。Dos Reis等[21,22]在此基础上,以医学领域SONMEDCT变更和SONMEDCT-ICD映射系统为例,更细粒度地从词法和语义两个层面分析概念新增、属性修改和层级关系变更三类变化对无法映射(Unmappable)、等同映射(Equivalent)、广义映射(Narrow-to-broad)、窄义映射(Broad-to-Narrow)和部分映射(Partial Overlap)变更的影响,发现映射系统中等同映射和广义映射受KOS版本变更影响较大,其中,KOS概念新增变更对映射系统影响最大;KOS关系变更对映射系统变更整体影响较小;KOS删除变更主要引起映射删除。进一步识别映射系统变更的影响因素(概念标签、同义词、定义等概念属性和兄弟、层级关系),Dinh等[22]发现此应用情境下基于词汇、句法的相似度计算方法优于语义相似度计算方法。

2.3 面向KOS变更的互操作系统更新

互操作系统更新方法可分为三类:

(1)版本修订法,基于形式逻辑推理[23]或统计推理[24,25],发现当前版本中映射冲突、无效映射,并进行修正。该类方法本质上非聚焦于KOS演化对映射维护的影响。

(2)重新计算法,即重新计算映射系统中KOS间映射关系,又分为全部重新计算和局部重新计算。前者指重新计算新版本KOS与互操作系统中其他KOS间的映射,后者指仅计算KOS变更部分概念与互操作系统中其他KOS间映射[26]。相对全部重新计算,局部重新计算能够节省大量时间和资源成本,但对于大规模且变更较大的KOS而言,工程依然巨大。

(3)面向KOS演化的自适应法,即基于KOS变更进行映射系统修正,如Tang等[27]和Martins等[28]探讨了KOS删除变更情境下映射维护策略;Dos Reis等[29]提出一种面向两个KOS组成的映射系统自动更新框架DyKOSMap,该框架由识别KOS概念变更模式和具体变更实例集合、分析映射系统映射规则、识别受影响映射并调用规则更新映射三个部分组成,映射更新操作包括映射对象变更、映射类型变更、映射对象和映射类型同时变更、映射分解、映射删除和映射不变6类。

总体来看,目前KOS变更自动发现研究主要集中在形式化较高的本体层面,对传统分类表、叙词表等KOS适用性欠缺;KOS变更对映射系统影响研究和映射系统自动维护研究较少,主要聚焦两部KOS组成的映射系统,变更类型主要以新增和删除为主,较少涉及拆分、合并等复杂变更。本研究重点关注包含多部传统类型KOS的同义互操作系统的整合概念自动更新,更新方法属于第三类面向KOS演化的自适应法,覆盖术语新增和删除、概念同义词集合拆分、合并改变和优选术语调整多种变更操作。

3 KOS同义互操作系统整合概念更新方法

3.1 技术路线

技术路线如图1所示,本研究所提面向来源KOS更新的同义互操作系统整合概念自动更新方法主要分为三个阶段:

图1

图1   基于来源词表版本演化的同义互操作系统整合概念自动更新技术路线

Fig.1   Automatic Update of Integrated Concepts in Synonymous Interoperability System According to Source Vocabularies Evolution


(1)基于字符串匹配和概念向量空间模式识别来源词表新旧版本间概念变更模式;

(2)融合规则和相似度更新或扩充与来源词表变更概念相关的整合概念同义词集合;

(3)基于规则更新变更整合概念优选术语。

3.2 来源词表新旧版本间概念变更模式识别

(1)术语变更类型识别

通过字符串精确匹配比较识别新旧版本来源词表术语变更类型:

①新增术语(New Term,NT),仅存在于新版本中的术语;

②未变化术语(Unchanged Term,UT),新、旧版本同时存在的术语;

③删除术语(Deleted Term,DT),仅存在于旧版本中的术语。

(2)同义词集合变更模式识别

基于术语变更类型判别结果,构建概念同义词集合变更向量C={t1, t2, t3 ti, ti+1tm}。其中,ti表示术语变更类型:为DT时,取值0;为NT时,取值1;为UT时,取值2。不同向量模式代表不同同义词集合变更模式:

①模式“0”: ti取值均为0,表示当前概念为删除概念,标识为Cdel

②模式“1”: ti取值均为1,表示当前概念为新增概念,标识为Cnew

③模式“2”: ti取值均为2,表示当前概念同义词集合为未变化术语组成,标识为Sut。该模式需进一步区分是否有拆分、合并和复合操作。将新版本Sut类同义词集合与旧版本Sut类同义词集合进行术语精确匹配映射,不同映射结果代表不同变更模式。

1)1:1映射。表示当前概念同义词集合为未变化同义词集合,同义词集合变更模式标识为Sunc

2)1:n映射。表示当前概念同义词集合由旧版本中多个概念同义词集合合并而成,如{m,n}和{o,p}被合并为{m,n,o,p},同义词集合变更模式标识为Sut-merge

3)n:1映射。表示当前概念同义词集合由旧版本中某概念同义词集合拆分而成,如{a,b,c,d}被拆分为{a,b}和{c,d},同义词集合变更模式标识为Sut-split

4)n:n映射。表示当前概念同义词集合为复合变更操作而成。如{x,y},{m,n}和{a,b,c,d}被更新为{x,y,a},{m,n,b}和{c,d},同义词集合变更标识为Sut-change

④模式“3”: ti取值同时出现0、1、2或其中任意两个。表示新版本概念同义词集合术语由局部拆分、合并、删除入口词、新增入口词等一种或多种变更操作变更形成,同义词集合变更模式标识为Sc

(3)优选术语变更模式识别

对概念同义词集合变更模式为2和3的概念,利用字符串精确匹配识别概念优选术语变更模式:概念优选术语未变化,表示新旧版本概念优选术语完成一致,标识为PTunc;概念优选术语发生变化,表示新旧版本概念优选术语不一致,标识为PTc。新增概念优选术语变更模式标识为PTnew

3.3 整合概念同义词集合更新

整合概念同义词集合更新直接表现为术语更新。先删除DT类术语,然后依次更新UT类术语和新增类术语。

(1)未变化术语更新

UT类术语UTi在来源词表中的概念为Csource-i,在同义互操作系统中的整合概念为Cint-i,不同Csource-i同义词集合变更标识,不同更新规则如下:

SuncSut-changeSc类:保持UTiCint同义词集合关系不变。

Sut-split类:如Cint-i同义词集合与Csource-i同义词集合一致,根据新版来源词表概念同义词集合拆分方案对Cint-i同义词集合进行拆分;否则,保持UTiCint-i同义词集合关系不变。

Sut-merge类:如Cint同义词集合与Csource-i同义词集合一致,根据新版来源词表概念同义词集合合并方案对Cint-i同义词集合进行合并;否则,保持UTiCint-i同义词集合关系不变。

(2)新增术语扩充更新

NT类术语扩充原则和假设如下:

①术语可跟随与其语义最相近的术语归入某整合概念;

②对于具体概念,概念优选术语与其同义词集合中的术语语义最相近;

③两个术语相似度越大,语义越相近[30];

④同一词表来源概念不可直接同义归并,不同来源词表概念可同义归并。

基于此原则和假设提出的NT类术语扩充算法流程图如图2所示。

图2

图2   新增术语扩充更新算法流程

Fig.2   Extension Algorithm for New Terms


以新增术语NTj为例,设其所在来源词表概念为Csource-j,Csource-j的优选术语为PTCsource-j,在整合概念扩充更新中,NTj可能跟随Csource-j未变化类同义词归入某整合概念(设为Cint-j),也可能与同义新增术语形成新整合概念Cint-new

3.4 整合概念优选术语更新

以STKOS为研究案例,整合概念优选术语更新规则借鉴STKOS超级科技词表优选术语自动推荐考虑因素:来源词表在同义互操作系统中的等级、术语类型(是否为来源概念优选术语)、术语词形(是否全大写或缩略语)。实现步骤如下:

(1)构建整合概念变更向量空间Cint={t1, t2, t3ti, ti+1tm,pt}。ti表示整合概念术语更新状态:NT类取值1;DT类取值0;UT类取值2;非来源词表类取值NULL。pt表示整合概念优选术语更新状态:DT类取值0;UT类取值2;非来源词表类取值NULL;为空时取值1,表示当前整合概念为新增,尚无优选术语。

(2)判断整合概念变更模式及其对优选术语变更影响。

模式“0”: tipt取值均为0,表示当前整合概念为删除概念,无需重新推荐优选术语。

模式“1”: tipt取值均为1,表示当前整合概念是新概念,需要推荐优选术语。

模式“2”: pt取值为2,表示当前整合概念优选术语是UT类术语,无需重新推荐优选术语。

模式“3”: ti取值不全为0,但pt取值为0,表示当前整合概念优选术语被删除,需重新推荐优选术语。

模式“4”: pt取值为NULL,表示当前整合概念优选术语已存在,无需重新推荐优选术语。

(3)整合概念优选术语更新。为模式“1”或“3”两类整合概念推荐优选术语。默认赋值概念同义词集合中所有术语优选标识PT =‘Y’,逐步赋值缩写术语、大写术语、非来源概念优选术语3类术语优选标识PT =‘N’,最后按如下规则确定唯一优选术语:

①如此时只有一个术语优选标识PT为‘Y’,推荐当前术语为整合概念优选术语。

②如此时有两个及以上术语优选标识PT为‘Y’,保留来源词表等级最高的术语PT标识不变,其他赋值“N”,并判断PT =‘Y’类术语是否唯一:是,推荐为整合概念优选术语;否,随机推荐。

③如此时术语优选标识PT均为‘N’,赋值来源词表等级最高的来源概念优选术语PT =‘Y’,并判断从PT =‘Y’类术语是否唯一:是,推荐为整合概念优选术语;否,随机推荐。

4 实验与结果

4.1 实验数据

2015版STKOS超级科技词表在理学、工学、农学和医学4个领域257部词表间建立了同义互操作[31]。本研究从2015版STKOS超级科技词表抽取医学类整合概念构建同义互操作系统整合概念测试集。抽取字段包括术语、术语来源唯一标识符、整合概念唯一标识符、整合概念优选术语标识、来源概念优选术语标识、来源词表名称、来源词表等级、术语类型、术语词形。经统计,共抽取STKOS整合概念266 048个,包含来源术语1 342 917条。

从UMLS中抽取医学主题词表MeSH2017版(不含增补概念)和HUGO基因命名表2016版为实验来源词表。MeSH与HUGO均被2015版STKOS超级科技词表整表收录,且经预分析,较于2015版STKOS超级科技词表收录的版本(分别为2012版和2011版),MeSH变化复杂,能够覆盖上述概念变更模式,HUGO变化模式简单,主要为新增和删除,具有现实代表性。经统计,2017版MeSH含有术语234 969条,概念54 684个;2016版HUGO含有术语167 648条,概念39 816个。

4.2 实验过程

(1)分别进行MeSH和HGUO概念变更模式识别,依次包括术语变更类别判别、同义词集合变更模式识别和优选术语变更模式识别。此阶段识别出来的新术语调用STKOS超级科技词表协同工作平台[32]获取术语类型和术语词形。

(2)进行整合概念同义词集合更新,依次包括删除术语、更新未变化术语和扩充新术语。基于Dinh等[22]的研究结论“字符串相似度计算方法更适合本任务情境”,实验中,术语相似度计算采用字面相似度算法。考虑不同字面相似度算法的适应性[24],单字项间术语相似度计算采用典型的Lenvenshtein编辑距离算法,多字项术语相似度计算采用Dice系数法。

(3)整合概念优选术语更新。整合概念同义词集合更新实验中,相似度阈值设为0.8。

为分析本研究所提方法是否能用于多来源词表同时升级,步骤(2)和步骤(3)阶段进行4次实验:仅MeSH升级(实验1)、仅HUGO升级(实验2)、先MeSH后HUGO升级(实验3)和先HUGO后MeSH升级(实验4)。

4.3 实验结果

(1)来源词表概念变更统计

MeSH2017版较2012版相比,新增术语29 209条,删除术语6 873条。概念同义词集合层面,完全新增概念4 341个,删除概念228个,完全一致概念44 883个,由2012版概念拆分形成的新概念135个,合并形成的新概念91个,复杂变更概念5 261个。优选术语层面变更较小,566个概念发生变化。

HUGO2016版较2011版相比,新增术语52 002条,删除术语20 383条。概念同义词集合层面,未涉及概念拆分、合并操作,主要表现为概念新增(10 186个)、删除(1 522个)和局部入口词新增和删除(12 862个)操作。17 968个概念优选术语发生变化。MeSH和HUGO版本变更统计如表1所示。

表1   MeSH和HUGO版本变更统计

Table 1  Version Change of MeSH and HUGO

新旧版本来源词表概念变化类别变更数量
MeSH 2017HUGO 2016
术语变更删除术语DT687320 383
新增术语NT29 20952 002
未变化术语UT205 760115 646
同义词集合变更模式“0”删除概念同义词集合Cdel2281 522
模式“1”完全新增概念同义词集合Cnew4 34110 186
模式“2”未变化同义词集合Sunc44 88316 766
拆分同义词集合Sut-split1350
合并同义词集合Sut-merge912
复合操作变更同义词集合Sut-change150
模式“3”变化概念同义词集合Sc5 24612 862
优选术语变更优选术语未变化PTunc49 8041 522
优选术语变化PTc56617 968
新概念优选术语PTnew4 31410 186

新窗口打开| 下载CSV


(2)整合概念变更统计

4次实验后,STKOS2015版整合概念总数分别上升为268 270个、274 079个、271 814个和276 287个。不同实验方案升级后变更整合概念情况统计如表2所示。

表2   4轮实验后整合概念变更统计

Table 2  Change of Integrated Concepts After 4 Experiments

整合概念变更类别实验1实验2实验3实验4
删除概念Cdel1271 5751 6491 693
新增概念CnewPtnew2 2729 4467 18711 704
同义词集合不变Sunc优选术语未变Ptunc388 86716 85655 03755 489
同义词集合不变Sunc优选术语改变Ptc2022
同义词集合改变Sc优选术语未变Ptunc4 43811 63816 49216 049
同义词集合改变Sc优选术语改变Ptc1141 4111 5651 521

新窗口打开| 下载CSV


整合概念变更类别判定方法同来源词表版本间概念变更模式识别。以实验1为例,升级后,删除整合概念127个,新增整合概念2 272个,38 869个整合概念同义词集合未发生变化,4 552个整合概念同义词集合发生变化,116个整合概念优选术语发生变化。

4.4 结果评价

(1)评价指标

参考通用准确率(Precision)评价指标,分别引入术语归准率和优选术语推准率两个指标。现有研究表明新增对互操作系统维护影响最大[13],故本研究采用术语归准率重点考察新增术语的同义归并准确性。新增术语归准率计算方法如公式(1)所示。

P_NT=Pre(NT)All(NT)×100%

其中,P_NT表示新增术语归准率,Pre(NT)表示同义归并正确的新增术语数,All(NT)表示所有新增术语数。

变更整合概念优选术语推准率计算如公式(2)所示。

P_Pt=Pre(Pt)All(Pt)×100%

其中,P_Pt表示变更整合概念优选术语推准率,Pre(Pt)表示优选术语推荐正确的整合概念数,All(Pt)表示所有变更整合概念数。

(2)评价数据集

因没有标准数据集,笔者邀请参与STKOS超级科技词表医学部分建设领域的专家对实验结果进行审核,根据专家审核结果计算准确率。考虑不同整合概念变更数量和类别差异较大,采用分层抽样审核评估,4次实验分别选取4组评价数据集。“同义词集合未变但优选术语变化”类因数量少,全抽样;其他三个变更类别各抽取5%的整合概念。经统计,累计抽取整合概念4 195个,新增术语数11 889条。各轮实验评价数据集抽取结果如表3所示。

表3   评价数据集抽样结果

Table 3  Numbers of Concepts and New Terms in 4 Sampled Data Sets for Evaluation

评价数据集实验1实验2实验3实验4
序号整合概念变更类别整合概念数新增术语数整合概念数新增术语数整合概念数新增术语数整合概念数新增术语数
1Cnew1145654721 5023591 3385851 942
2SuncPtc20002020
3ScPtunc2229405818618241 7638021 840
4ScPtc622702447862876244
合计3441 5271 1232 6071 2633 7291 4654 026

新窗口打开| 下载CSV


(3)评价方式

邀请三名评审专家,每名专家对4个样本集均进行审核。审核内容包括两个部分:术语归并是否正确;优选术语推荐是否正确。可接受即判断为正确,否则判断为错误。当评审结果不统一时,取值多数专家审核结果。

(4)评价结果

① 新增术语归准率

4次实验新增术语归准率评估结果如表4所示。单个词表升级的归准率分别为94.96%、94.63%,表现较佳,体现出较好的稳定性。不同概念同义词集合变更模式下的新增术语归准率均具有一定差异:新增整合概念模式下新增术语归准率均为100%,Sc类模式下新增术语归准率分为92.00%、87.33%、72.48%和85.41%,这表明算法对KOS概念变更类型有一定的敏感性。

表4   新增术语归准率评估结果

Table 4  Merging Precion of New Terms

同义词集合变更类别实验1实验2实验3实验4
Cnew100.00%100.00%100.00%100.00%
Sc92.00%87.33%72.48%85.41%
合计94.96%94.63%82.35%92.45%

新窗口打开| 下载CSV


实验3和4实验的二部词表同时升级归准率分别为82.35%和92.45%,低于实验1和实验2的归准率,表明算法准确率受升级词表部数影响。实验3和实验4呈现归准率不一致,表明算法准确率受词表升级顺序影响。

② 变更整合概念优选术语推准率

4次实验发生变更的整合概念优选术语推荐准确性评估结果如表5所示。总体来看,表现优异,分别为96.80%、99.91%、99.13%和99.45%,且词表部数和词表升级顺序未表现出对优选术语推准率的影响,体现出较强的稳定性。

表5   变更整合概念优选术语推准率

Table 5  Precion of Preferred Terms Recommendation for Changed Concepts

整合概念变更类别实验1实验2实验3实验4
CnewPtnew98.25%100.00%98.33%99.66%
SuncPtc100.00%-100.00%100.00%
ScPtunc97.30%99.83%99.88%100.00%
ScPtc50.00%100.00%94.87%92.11%
合计96.80%99.91%99.13%99.45%

新窗口打开| 下载CSV


就整合概念变更模式看,同义词集合和优选术语同时改变类下概念优选术语推准率相对低些,但是,除实验1“仅MeSH”升级外,其他三个实验的推准率也均在92%以上。进一步分析实验1的异常表现(低至50%)发现,推荐错误均由倒序术语(如“Herpesvirus 6, Human”)所致,MeSH允许概念优选术语为倒序术语,但评审专家均认为STKOS应采用正序术语(如“Human Herpesvirus 6”)作为优选术语。

(5)讨 论

以实验1为例,对升级后的整合概念进一步统计:升级前,包含MeSH术语的整合概念42 240个,升级后,包含MeSH术语的整合概念45 963个,两者的差值(3 723)大于更新产生的完全新整合概念数2 272个。这表明与来源词表同步更新能够提高同义互操作系统概念整合水平和互操作服务能力。

关于术语变更类别判断,受Dinh等[22]研究启发,本研究采用字符串精确匹配法识别来源词表术语和概念变更模式,简单通用,但缺点是无法精准识别术语语义内涵,控制术语歧义性对“未变化术语变更”识别和后续整合概念更新带来的影响。随着编码机制完善,可通过KOS语义编码辅助歧义控制。

关于新增术语扩充更新,从表4可看出实验4“先HUGO后MeSH升级”新术语归准率表现明显优于实验3“先MeSH后HUGO升级”结果,且与实验2“仅HUGO升级”归准率差值(1.92%)最小,结合表5所呈现的“变更整合概念优选术语推准率并不受词表升级部数和顺序影响”,多表同时升级应用情境下可优先升级版本变更模式简单的词表。

关于整合概念优选术语更新推荐,考虑大部分来源词表优选术语都是正序形式,本研究制定的规则尚未考虑“倒序术语不可作为整合概念优选术语”。对此,笔者认为这不影响方法的实际应用,用户可在规则集合中增加判断规则;关键是如何精准判断当前术语是倒序术语并寻找到合适的正序术语。

5 结 语

互操作已广受术语、本体、知识图谱等知识组织体系理论研究与实践的重视。对于大型术语集成互操作项目,相较于从外部非规范化知识源进行术语、概念、属性和关系抽取、更新,与来源词表保持同步更新,可更为有效地实现其可持续发展。本研究聚焦KOS同义互操作系统中整合概念如何与其来源词表概念同步更新,提出一套完整的具有可操作性的更新策略和实现路径,能够大大减少KOS同义互操作系统版本演化所需时间和资源,可为其他互操作类项目版本更新研究提供借鉴。当然,就实际问题复杂度而言,还需进一步解决歧义和版本间概念语义冲突对概念升级的影响。此外,整合概念同义词集合和优选术语维护仅是互操作系统发展基础,今后需关注属性和关系互操作更新研究。

作者贡献声明:

孙海霞:提出研究思路,设计研究方案,进行实验,起草论文;

邓盼盼:数据采集和分析;

李姣:进行实验,起草论文;

沈柳:数据采集与清洗;

钱庆:设计研究方案,论文最终版本修订。

利益冲突声明:

所有作者声明不存在利益冲突关系。

支撑数据:

支撑数据由作者自存储,E-mail:sun.haixia@imicams.ac.cn,deng.panpan@imicams.ac.cn。

[1] 孙海霞. source_data.accdb. 原始实验数据.

[2] 孙海霞. result_data.accdb. 实验结果数据.

[3] 邓盼盼. review_data.xslx. 评审数据与结果.

参考文献

司莉 .

知识组织系统的互操作及其实现

[J]. 现代图书情报技术, 2007(3):29-34.

[本文引用: 1]

( Si Li .

Interoperability and Its Implementation Among Knowledge Organization Systems

[J]. New Technology of Library and Information Service, 2007(3):29-34.)

[本文引用: 1]

宋文 .

知识组织体系语义互操作研究

[J]. 图书馆论坛, 2012,32(6):117-121.

[本文引用: 1]

( Song Wen .

Research on Interoperation of Knowledge Organization System

[J]. Library Tribune, 2012,32(6):117-121.)

[本文引用: 1]

孙坦, 刘峥 .

面向外文科技文献信息的知识组织体系建设思路

[J]. 图书与情报, 2013(1):2-7.

[本文引用: 2]

( Sun Tan, Liu Zheng .

Methodology Framework of Knowledge Organization System for Scientific & Technological Literature

[J]. Library and Information, 2013(1):2-7.)

[本文引用: 2]

Lindberg C .

The Unified Medical Language System (UMLS) of the National Library of Medicine

[J]. Journal (American Medical Record Association), 1990,61(5):40-42.

[本文引用: 1]

潘洪建 .

知识本质: 内在、开放、动态——新知识观的思考

[J]. 教育理论与实践, 2003,23(2):1-6.

[本文引用: 1]

( Pan Hongjian .

The Essence of Knowledge: Inner, Open and Dynamic—On the Outlook on Knowledge

[J]. Theory and Practice of Education, 2003,23(2):1-6.)

[本文引用: 1]

MeSH [DB/OL]. [2019-03-28]..

URL     [本文引用: 1]

SNOMEDCT International [DB/OL]. [2019-03-28]..

URL     [本文引用: 1]

LOINC[DB/OL]. [2019-03-28]..

URL     [本文引用: 1]

HGNC [DB/OL]. [2019-03-28]..

URL     [本文引用: 1]

中医药主题词表

[DB/OL]. [ 2019- 03- 28]. .

URL     [本文引用: 1]

(

Traditional Chinese Medicine Thesaurus

[DB/OL]. [ 2019- 03- 28]. )

URL     [本文引用: 1]

中文医学主题词表

[DB/OL][ 2019- 03- 28]. .

URL     [本文引用: 1]

(

Chinese Medical Subject Headings)

[DB/OL] [ 2019- 03- 28]. .)

URL     [本文引用: 1]

Saitwal H, Qing D, Jones S , et al.

Cross-terminology Mapping Challenges: A Demonstration Using Medication Terminological Systems

[J]. Journal of Biomedical Informatics, 2012,45(4):613-625.

[本文引用: 1]

Dos Reis J C, Pruski C, Da SilveiraM , et al.

Understanding Semantic Mapping Evolution by Observing Changes in Biomedical Ontologies

[J]. Journal of Biomedical Informatics, 2014,47:71-82.

[本文引用: 2]

The National Library of Medicine. UMLS [DB/OL].[2019-03-28]. .

URL     [本文引用: 1]

Da Silveira M, Dos Reis J C, Pruski C, .

Management of Dynamic Biomedical Terminologies: Current Status and Future Challenges

[J]. Yearbook of Medical Informatics, 2015,24(1):125-133.

[本文引用: 1]

Noy N F, Musen M A.

PROMPTDIFF: A Fixed-Point Algorithm for Comparing Ontology Versions

[C]//Proceedings of the 18th National Conference on Artificial Intelligence,Edmonton. 2002: 744-750.

[本文引用: 1]

Hartung M, Kirsten T, Rahm E.

Analyzing the Evolution of Life Science Ontologies and Mappings

[C]// Proceedings of the 5th International Workshop on Data Integration in the Life Sciences.Berlin: Springer, 2008: 11-27.

[本文引用: 1]

Hartung M, Kirsten T, Gross A , et al.

OnEX: Exploring Changes in Life Science Ontologies

[J]. BMC Bioinformatics, 2009, 10:Article No. 250.

[本文引用: 1]

Hartung M, Gross A, Rahm E .

COnto-Diff: Generation of Complex Evolution Mappings for Life Science Ontologies

[J]. Journal of Biomedical Informatics, 2013,46(1):15-32.

[本文引用: 1]

Gross A, Hartung M, Thor A, et al.

How do Computed Ontology Mappings Evolve? A Case Study for Life Science Ontologies

[C]// Proceedings of the 2012 Joint Workshop on Knowledge Evolution and Ontology Dynamics, Boston. 2012: 1-12.

[本文引用: 1]

Dos Reis J C, Dinh D, Da Silveira M , et al.

Recognizing Lexical and Semantic Change Patterns in Evolving Life Science Ontologies to Inform Mapping Adaptation

[J]. Artificial Intelligence in Medicine, 2015,63(3):153-170.

[本文引用: 1]

Dinh D, Dos Reis J C, Pruski C , et al.

Identifying Relevant Concept Attributes to Support Mapping Maintenance Under Ontology Evolution

[J]. Web Semantics: Science, Services and Agents on the World Wide Web, 2014,29:53-66.

[本文引用: 4]

Meilicke C, Stuckenschmidt H, Tamilin A .

Reasoning Support for Mapping Revision

[J]. Journal of Logic and Computation, 2009,19(5):807-829.

[本文引用: 1]

Castano S, Ferrara A, Lorusso D .

Mapping Validation by Probabilistic Reasoning

[C]// Proceedings of the 5th European Semantic Web Conference on the Semantic Web: Research & Applications, Canary Islands, Spain. Berlin, Heidelberg: Springer, 2008: 170-184.

[本文引用: 2]

Meyniel F, Schlunegger D, Dehaene S .

The Sense of Confidence During Probabilistic Learning: A Normative Account

[J]. PLoS Computational Biology, 2015,11(6):e1004305.

[本文引用: 1]

Khattak A M, Pervez Z, Latif K , et al.

Time Efficient Reconciliation of Mappings in Dynamic Web Ontologies

[J]. Knowledge-Based Systems, 2012,35:369-374.

[本文引用: 1]

Tang F, Tang R.

Minimizing Influence of Ontology Evolution In Ontology-based Data Access System

[C]// Proceedings of the 2010 IEEE International Conference on Progress in Informatics and Computing, Shanghai, China. 2010: 10-14.

[本文引用: 1]

Martins H, Silva N.

A User-driven and a Semantic-based Ontology Mapping Evolution Approach

[C]// Proceedings of the 11th International Conference on Enterprise Information Systems, Milan, Italy. 2009: 214-221.

[本文引用: 1]

Dos Reis J C, Pruski C, Da Silveira M , et al.

DyKOSMap: A Framework for Mapping Adaptation Between Biomedical Knowledge Organization Systems

[J]. Journal of Biomedical Informatics, 2015,55:153-173.

[本文引用: 1]

孙海霞, 成颖 .

信息集成中的字符串匹配技术研究

[J]. 现代图书情报技术, 2007(7):22-26.

[本文引用: 1]

( Sun Haixia, Cheng Ying .

Study on String-based Matching of Information Integration

[J]. New Technology of Library and Information Service, 2007(7):22-26.)

[本文引用: 1]

孙海霞, 李军莲, 华薇娜 , .

科技知识组织体系语义互操作网络协同工作平台设计与实现

[J]. 农业图书情报, 2019,31(1):23-34.

[本文引用: 1]

( Sun Haixia, Li Junlian, Hua Weina , et al.

Design and Implementation of Network Collaborative Work Platform for Semantic Interoperability of Science and Technology Knowledge Organization Systems

[J]. Agricultural Library and Information, 2019,31(1):23-34.)

[本文引用: 1]

STKOS超级科技词表协同构建与管理系统

[DB/OL]. [ 2019- 04- 28]. .

URL     [本文引用: 1]

(

The Collaborative Building and Management System for Super Scientific and Technological Thesaurus

[DB/OL]. [ 2019- 04- 28]. .)

URL     [本文引用: 1]

/

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn