面向多源词表整合的概念自动更新策略研究*
Automatic Concept Update Strategy Towards Heterogeneous Terminology Integration
通讯作者: * 钱庆,ORCID:0000-0002-9072-586X,E-mail:qian.qing@imicams.ac.cn。
收稿日期: 2019-08-20 修回日期: 2019-10-30 网络出版日期: 2020-01-25
基金资助: |
|
Received: 2019-08-20 Revised: 2019-10-30 Online: 2020-01-25
【目标】 提出面向KOS版本演化的整合概念更新方法,促进多源异构词表整合系统动态发展。【方法】 聚焦术语、同义词集合和优选术语三类知识单元,通过字符串精确匹配识别来源术语和优选术语变更模式;通过概念向量空间识别来源概念同义词集合变更模式;融合规则和相似度更新整合概念同义词集合和优选术语;以STKOS超级科技词表的医学类整合概念集及其重要来源MeSH和HUGO进行实验与准确性评估。【结果】 新增术语更新同义归并准确率达94.96%,变更整合概念优选术语推荐准确率达99.91%。【局限】 概念变更模式识别未考虑术语歧义性;多表同时更新时,变更概念术语归并准确率受词表部数和更新顺序影响。【结论】 本文提出的整合概念自动更新策略可用于来源KOS版本升级引发的同义互操作系统概念升级。
关键词:
[Objective] This paper proposes a method updating integrated concept for the version evolution of source Knowledge Organization Systems (KOSs), aiming to promote the dynamic development of the heterogeneous terminology integration system.[Methods] Our model focuses on terms, synonym sets and preferred terms of concepts. Firstly, we identified terms changing types and preferred terms changing modes of concepts in source KOSs by exact string matching. Then, we recognized their synonym sets changing patterns through concept vector space. Finally, we updated synonym sets and preferred terms of integrated concepts fusion rule and similarity. We also assessed the results yielded by our method using medical integration concept set of STKOS and its important sources, MeSH and HUGO.[Results] The synonymous merging rate of new term from source KOSs reached 94.96%, and the update accuracy of preferred term of changed integrated concepts reached 99.91%.[Limitations] We did not consider ambiguity of the terms and the results were affected by the number of vocabulary and update order.[Conclusions] The proposed method can be applied to update concepts of synonymous knowledge organization systems because of their source KOSs evolution.
Keywords:
本文引用格式
孙海霞, 邓盼盼, 李姣, 沈柳, 钱庆.
Sun Haixia.
1 引 言
知识组织体系(Knowledge Organization Systems,KOS)互操作旨在克服不同领域、不同机构面向不同应用开发出来的知识组织系统在语种、体系结构、描述规范、存储格式、句法结构、概念颗粒度等方面的差异,实现不同系统间的知识交换、共享和重用[1],是异构平台、系统实现语义互操作的重要基础[2]。同义互操作是实现不同知识组织体系互操作的一种,其本质是以术语为基本单元, 以概念为核心,通过将不同来源词表中表征同一概念的术语归并连接在一起,形成新的同义词组或准同义词组,并推荐某一来源术语作为概念的优选表达形式(简称优选术语);基于归并后形成的概念(简称整合概念),以来源词表原有关系为依托,实现不同来源词表语义关联[3]。代表项目有美国国立医学图书馆1986年开始实施的一体化医学语言系统(Unified Medical Language System, UMLS)项目[4]和中国国家科技图书文献中心2011年牵头在理学、工学、农学和医学4个领域实施的STKOS(Scientific & Technological Knowledge Organization Systems)超级科技词表项目[3]。
知识是客观事物属性与联系的反映,是客观世界在人脑中的主观映像。客观世界本身是动态发展的,且其性质及其关系的暴露往往是一个历史过程,因此知识的本质特征也是动态发展[5]。作为对知识结构进行有组织表达和阐释的语义工具,术语表、分类表、叙词表、主题词表、本体等知识组织体系只有不断更新才能及时、准确地反映知识的发展,更好地支持数据检索、数据标注、知识发现等应用。以医学领域为例,医学主题词表(Medical Subject Headings, MeSH)[6]、系统化临床术语集(Systematized Nomenclature of Medicine-Clinical Terms, SNOMEDCT)[7]、观测指标标识符逻辑命名域编码系统(Logical Observation Identifier Names and Codes, LOINC)[8]、人类基因组织基因命名表(The Human Genome Organization Gene Nomenclature, HUGO)[9]等国际权威术语系统每年均发布更新版,国内《中医药主题词表》[10]、《中文医学主题词表》[11]等也处于持续更新中。伴随着来源词表的持续维护与发展,与来源词表保持同步更新,是互操作系统保持生命力的关键因素之一。
词表维护一直是知识组织体系发展所面临的重要挑战之一。互操作系统更是如此[12]。即便仅由两部词表构成的互操作系统,一旦来源词表体量较大或版本间变化较大时,更新也是一项巨大工程,以国际疾病分类法(International Classification of Diseases,ICD)与SNOMEDCT映射为例,ICD-9到ICD-10的升级影响了约一万组映射[13]。目前KOS互操作研究主要聚焦于互操作实现方法,互操作系统维护与演化研究相对较少。UMLS Metathesaurus每年发布两个版本[14],但尚未有公开文献报道其如何进行版本更新。本研究以STKOS超级科技词表整合概念库为例,研究来源KOS版本变更时,KOS同义互操作系统中整合概念如何进行更新,提出一种基于字符串匹配、词表概念向量空间和规则的三阶段式整合概念自动更新方法。
2 相关研究
KOS互操作维护旨在保持互操作系统持续更新,与来源KOS演化保持同步。核心任务可概括为:(1)识别KOS变更,包括变更要素、变更类型等;(2)判定KOS变更对互操作系统的可能影响,决定是否需要对受影响的映射进行修改;(3)确定互操作系统更新方案,实现更新。
2.1 KOS变更识别
识别和理解KOS变更是实现KOS互操作维护的第一步,涉及变更元素识别(如类、概念、术语、属性、关系、注释)、变更类型(如新增、删除、停用、拆分、合并)、变更复杂性(单一操作变更还是复杂操作变更)、变更语义特征(如概念内涵的泛化与具化)等[15]。典型方法有日志变更分析法和对象集合比较法。日志变更分析法通过跟踪、对比连续版本之间的演化日志识别KOS变更,如PromptDiff算法[16],因现实环境下演化日志不易获取,该类方法主要用于实现KOS编制工具版本管理。对象集合比较法旨在通过对比目标版本间的对象集合变化识别KOS变更,如Hartung等[17]基于此思路构建了包含本体概念、关系、实例和映射4类对象的通用本体版本演化模型,开发了OnEX系统[18],最初该模型系统仅能识别新增、删除和停用三类单一操作变更,后综合术语匹配和规则[19],能够实现拆分、合并等复杂变更操作。
2.2 KOS变更对互操作系统影响
Gross等[20]以生物医学领域本体为例,通过构建实验映射集,分析了哪些本体变更操作会导致本体映射新增或删除,结果发现新增、删除和停用三类基本变更会导致相当比例的映射新增和删除。Dos Reis等[21,22]在此基础上,以医学领域SONMEDCT变更和SONMEDCT-ICD映射系统为例,更细粒度地从词法和语义两个层面分析概念新增、属性修改和层级关系变更三类变化对无法映射(Unmappable)、等同映射(Equivalent)、广义映射(Narrow-to-broad)、窄义映射(Broad-to-Narrow)和部分映射(Partial Overlap)变更的影响,发现映射系统中等同映射和广义映射受KOS版本变更影响较大,其中,KOS概念新增变更对映射系统影响最大;KOS关系变更对映射系统变更整体影响较小;KOS删除变更主要引起映射删除。进一步识别映射系统变更的影响因素(概念标签、同义词、定义等概念属性和兄弟、层级关系),Dinh等[22]发现此应用情境下基于词汇、句法的相似度计算方法优于语义相似度计算方法。
2.3 面向KOS变更的互操作系统更新
互操作系统更新方法可分为三类:
(2)重新计算法,即重新计算映射系统中KOS间映射关系,又分为全部重新计算和局部重新计算。前者指重新计算新版本KOS与互操作系统中其他KOS间的映射,后者指仅计算KOS变更部分概念与互操作系统中其他KOS间映射[26]。相对全部重新计算,局部重新计算能够节省大量时间和资源成本,但对于大规模且变更较大的KOS而言,工程依然巨大。
总体来看,目前KOS变更自动发现研究主要集中在形式化较高的本体层面,对传统分类表、叙词表等KOS适用性欠缺;KOS变更对映射系统影响研究和映射系统自动维护研究较少,主要聚焦两部KOS组成的映射系统,变更类型主要以新增和删除为主,较少涉及拆分、合并等复杂变更。本研究重点关注包含多部传统类型KOS的同义互操作系统的整合概念自动更新,更新方法属于第三类面向KOS演化的自适应法,覆盖术语新增和删除、概念同义词集合拆分、合并改变和优选术语调整多种变更操作。
3 KOS同义互操作系统整合概念更新方法
3.1 技术路线
技术路线如图1所示,本研究所提面向来源KOS更新的同义互操作系统整合概念自动更新方法主要分为三个阶段:
图1
图1
基于来源词表版本演化的同义互操作系统整合概念自动更新技术路线
Fig.1
Automatic Update of Integrated Concepts in Synonymous Interoperability System According to Source Vocabularies Evolution
(1)基于字符串匹配和概念向量空间模式识别来源词表新旧版本间概念变更模式;
(2)融合规则和相似度更新或扩充与来源词表变更概念相关的整合概念同义词集合;
(3)基于规则更新变更整合概念优选术语。
3.2 来源词表新旧版本间概念变更模式识别
(1)术语变更类型识别
通过字符串精确匹配比较识别新旧版本来源词表术语变更类型:
①新增术语(New Term,NT),仅存在于新版本中的术语;
②未变化术语(Unchanged Term,UT),新、旧版本同时存在的术语;
③删除术语(Deleted Term,DT),仅存在于旧版本中的术语。
(2)同义词集合变更模式识别
基于术语变更类型判别结果,构建概念同义词集合变更向量C={t1, t2, t3 … ti, ti+1 … tm}。其中,ti表示术语变更类型:为DT时,取值0;为NT时,取值1;为UT时,取值2。不同向量模式代表不同同义词集合变更模式:
①模式“0”: ti取值均为0,表示当前概念为删除概念,标识为Cdel。
②模式“1”: ti取值均为1,表示当前概念为新增概念,标识为Cnew。
③模式“2”: ti取值均为2,表示当前概念同义词集合为未变化术语组成,标识为Sut。该模式需进一步区分是否有拆分、合并和复合操作。将新版本Sut类同义词集合与旧版本Sut类同义词集合进行术语精确匹配映射,不同映射结果代表不同变更模式。
1)1:1映射。表示当前概念同义词集合为未变化同义词集合,同义词集合变更模式标识为Sunc。
2)1:n映射。表示当前概念同义词集合由旧版本中多个概念同义词集合合并而成,如{m,n}和{o,p}被合并为{m,n,o,p},同义词集合变更模式标识为Sut-merge。
3)n:1映射。表示当前概念同义词集合由旧版本中某概念同义词集合拆分而成,如{a,b,c,d}被拆分为{a,b}和{c,d},同义词集合变更模式标识为Sut-split。
4)n:n映射。表示当前概念同义词集合为复合变更操作而成。如{x,y},{m,n}和{a,b,c,d}被更新为{x,y,a},{m,n,b}和{c,d},同义词集合变更标识为Sut-change。
④模式“3”: ti取值同时出现0、1、2或其中任意两个。表示新版本概念同义词集合术语由局部拆分、合并、删除入口词、新增入口词等一种或多种变更操作变更形成,同义词集合变更模式标识为Sc。
(3)优选术语变更模式识别
对概念同义词集合变更模式为2和3的概念,利用字符串精确匹配识别概念优选术语变更模式:概念优选术语未变化,表示新旧版本概念优选术语完成一致,标识为PTunc;概念优选术语发生变化,表示新旧版本概念优选术语不一致,标识为PTc。新增概念优选术语变更模式标识为PTnew。
3.3 整合概念同义词集合更新
整合概念同义词集合更新直接表现为术语更新。先删除DT类术语,然后依次更新UT类术语和新增类术语。
(1)未变化术语更新
设UT类术语UTi在来源词表中的概念为Csource-i,在同义互操作系统中的整合概念为Cint-i,不同Csource-i同义词集合变更标识,不同更新规则如下:
①Sunc、Sut-change或Sc类:保持UTi与Cint同义词集合关系不变。
②Sut-split类:如Cint-i同义词集合与Csource-i同义词集合一致,根据新版来源词表概念同义词集合拆分方案对Cint-i同义词集合进行拆分;否则,保持UTi与Cint-i同义词集合关系不变。
③Sut-merge类:如Cint同义词集合与Csource-i同义词集合一致,根据新版来源词表概念同义词集合合并方案对Cint-i同义词集合进行合并;否则,保持UTi与Cint-i同义词集合关系不变。
(2)新增术语扩充更新
NT类术语扩充原则和假设如下:
①术语可跟随与其语义最相近的术语归入某整合概念;
②对于具体概念,概念优选术语与其同义词集合中的术语语义最相近;
③两个术语相似度越大,语义越相近[30];
④同一词表来源概念不可直接同义归并,不同来源词表概念可同义归并。
基于此原则和假设提出的NT类术语扩充算法流程图如图2所示。
图2
以新增术语NTj为例,设其所在来源词表概念为Csource-j,Csource-j的优选术语为PTCsource-j,在整合概念扩充更新中,NTj可能跟随Csource-j未变化类同义词归入某整合概念(设为Cint-j),也可能与同义新增术语形成新整合概念Cint-new。
3.4 整合概念优选术语更新
以STKOS为研究案例,整合概念优选术语更新规则借鉴STKOS超级科技词表优选术语自动推荐考虑因素:来源词表在同义互操作系统中的等级、术语类型(是否为来源概念优选术语)、术语词形(是否全大写或缩略语)。实现步骤如下:
(1)构建整合概念变更向量空间Cint={t1, t2, t3… ti, ti+1 … tm,pt}。ti表示整合概念术语更新状态:NT类取值1;DT类取值0;UT类取值2;非来源词表类取值NULL。pt表示整合概念优选术语更新状态:DT类取值0;UT类取值2;非来源词表类取值NULL;为空时取值1,表示当前整合概念为新增,尚无优选术语。
(2)判断整合概念变更模式及其对优选术语变更影响。
模式“0”: ti和pt取值均为0,表示当前整合概念为删除概念,无需重新推荐优选术语。
模式“1”: ti和pt取值均为1,表示当前整合概念是新概念,需要推荐优选术语。
模式“2”: pt取值为2,表示当前整合概念优选术语是UT类术语,无需重新推荐优选术语。
模式“3”: ti取值不全为0,但pt取值为0,表示当前整合概念优选术语被删除,需重新推荐优选术语。
模式“4”: pt取值为NULL,表示当前整合概念优选术语已存在,无需重新推荐优选术语。
(3)整合概念优选术语更新。为模式“1”或“3”两类整合概念推荐优选术语。默认赋值概念同义词集合中所有术语优选标识PT =‘Y’,逐步赋值缩写术语、大写术语、非来源概念优选术语3类术语优选标识PT =‘N’,最后按如下规则确定唯一优选术语:
①如此时只有一个术语优选标识PT为‘Y’,推荐当前术语为整合概念优选术语。
②如此时有两个及以上术语优选标识PT为‘Y’,保留来源词表等级最高的术语PT标识不变,其他赋值“N”,并判断PT =‘Y’类术语是否唯一:是,推荐为整合概念优选术语;否,随机推荐。
③如此时术语优选标识PT均为‘N’,赋值来源词表等级最高的来源概念优选术语PT =‘Y’,并判断从PT =‘Y’类术语是否唯一:是,推荐为整合概念优选术语;否,随机推荐。
4 实验与结果
4.1 实验数据
2015版STKOS超级科技词表在理学、工学、农学和医学4个领域257部词表间建立了同义互操作[31]。本研究从2015版STKOS超级科技词表抽取医学类整合概念构建同义互操作系统整合概念测试集。抽取字段包括术语、术语来源唯一标识符、整合概念唯一标识符、整合概念优选术语标识、来源概念优选术语标识、来源词表名称、来源词表等级、术语类型、术语词形。经统计,共抽取STKOS整合概念266 048个,包含来源术语1 342 917条。
从UMLS中抽取医学主题词表MeSH2017版(不含增补概念)和HUGO基因命名表2016版为实验来源词表。MeSH与HUGO均被2015版STKOS超级科技词表整表收录,且经预分析,较于2015版STKOS超级科技词表收录的版本(分别为2012版和2011版),MeSH变化复杂,能够覆盖上述概念变更模式,HUGO变化模式简单,主要为新增和删除,具有现实代表性。经统计,2017版MeSH含有术语234 969条,概念54 684个;2016版HUGO含有术语167 648条,概念39 816个。
4.2 实验过程
(1)分别进行MeSH和HGUO概念变更模式识别,依次包括术语变更类别判别、同义词集合变更模式识别和优选术语变更模式识别。此阶段识别出来的新术语调用STKOS超级科技词表协同工作平台[32]获取术语类型和术语词形。
(3)整合概念优选术语更新。整合概念同义词集合更新实验中,相似度阈值设为0.8。
为分析本研究所提方法是否能用于多来源词表同时升级,步骤(2)和步骤(3)阶段进行4次实验:仅MeSH升级(实验1)、仅HUGO升级(实验2)、先MeSH后HUGO升级(实验3)和先HUGO后MeSH升级(实验4)。
4.3 实验结果
(1)来源词表概念变更统计
MeSH2017版较2012版相比,新增术语29 209条,删除术语6 873条。概念同义词集合层面,完全新增概念4 341个,删除概念228个,完全一致概念44 883个,由2012版概念拆分形成的新概念135个,合并形成的新概念91个,复杂变更概念5 261个。优选术语层面变更较小,566个概念发生变化。
HUGO2016版较2011版相比,新增术语52 002条,删除术语20 383条。概念同义词集合层面,未涉及概念拆分、合并操作,主要表现为概念新增(10 186个)、删除(1 522个)和局部入口词新增和删除(12 862个)操作。17 968个概念优选术语发生变化。MeSH和HUGO版本变更统计如表1所示。
表1 MeSH和HUGO版本变更统计
Table 1
新旧版本来源词表概念变化类别 | 变更数量 | |||
---|---|---|---|---|
MeSH 2017 | HUGO 2016 | |||
术语变更 | 删除术语DT | 6873 | 20 383 | |
新增术语NT | 29 209 | 52 002 | ||
未变化术语UT | 205 760 | 115 646 | ||
同义词集合变更 | 模式“0” | 删除概念同义词集合Cdel | 228 | 1 522 |
模式“1” | 完全新增概念同义词集合Cnew | 4 341 | 10 186 | |
模式“2” | 未变化同义词集合Sunc | 44 883 | 16 766 | |
拆分同义词集合Sut-split | 135 | 0 | ||
合并同义词集合Sut-merge | 91 | 2 | ||
复合操作变更同义词集合Sut-change | 15 | 0 | ||
模式“3” | 变化概念同义词集合Sc | 5 246 | 12 862 | |
优选术语变更 | 优选术语未变化PTunc | 49 804 | 1 522 | |
优选术语变化PTc | 566 | 17 968 | ||
新概念优选术语PTnew | 4 314 | 10 186 |
(2)整合概念变更统计
4次实验后,STKOS2015版整合概念总数分别上升为268 270个、274 079个、271 814个和276 287个。不同实验方案升级后变更整合概念情况统计如表2所示。
表2 4轮实验后整合概念变更统计
Table 2
整合概念变更类别 | 实验1 | 实验2 | 实验3 | 实验4 | |
---|---|---|---|---|---|
删除概念Cdel | 127 | 1 575 | 1 649 | 1 693 | |
新增概念Cnew | Ptnew | 2 272 | 9 446 | 7 187 | 11 704 |
同义词集合不变Sunc | 优选术语未变Ptunc | 388 867 | 16 856 | 55 037 | 55 489 |
同义词集合不变Sunc | 优选术语改变Ptc | 2 | 0 | 2 | 2 |
同义词集合改变Sc | 优选术语未变Ptunc | 4 438 | 11 638 | 16 492 | 16 049 |
同义词集合改变Sc | 优选术语改变Ptc | 114 | 1 411 | 1 565 | 1 521 |
整合概念变更类别判定方法同来源词表版本间概念变更模式识别。以实验1为例,升级后,删除整合概念127个,新增整合概念2 272个,38 869个整合概念同义词集合未发生变化,4 552个整合概念同义词集合发生变化,116个整合概念优选术语发生变化。
4.4 结果评价
(1)评价指标
参考通用准确率(Precision)评价指标,分别引入术语归准率和优选术语推准率两个指标。现有研究表明新增对互操作系统维护影响最大[13],故本研究采用术语归准率重点考察新增术语的同义归并准确性。新增术语归准率计算方法如公式(1)所示。
其中,P_NT表示新增术语归准率,Pre(NT)表示同义归并正确的新增术语数,All(NT)表示所有新增术语数。
变更整合概念优选术语推准率计算如公式(2)所示。
其中,P_Pt表示变更整合概念优选术语推准率,Pre(Pt)表示优选术语推荐正确的整合概念数,All(Pt)表示所有变更整合概念数。
(2)评价数据集
因没有标准数据集,笔者邀请参与STKOS超级科技词表医学部分建设领域的专家对实验结果进行审核,根据专家审核结果计算准确率。考虑不同整合概念变更数量和类别差异较大,采用分层抽样审核评估,4次实验分别选取4组评价数据集。“同义词集合未变但优选术语变化”类因数量少,全抽样;其他三个变更类别各抽取5%的整合概念。经统计,累计抽取整合概念4 195个,新增术语数11 889条。各轮实验评价数据集抽取结果如表3所示。
表3 评价数据集抽样结果
Table 3
评价数据集 | 实验1 | 实验2 | 实验3 | 实验4 | ||||||
---|---|---|---|---|---|---|---|---|---|---|
序号 | 整合概念变更类别 | 整合概念数 | 新增术语数 | 整合概念数 | 新增术语数 | 整合概念数 | 新增术语数 | 整合概念数 | 新增术语数 | |
1 | Cnew | 114 | 565 | 472 | 1 502 | 359 | 1 338 | 585 | 1 942 | |
2 | Sunc | Ptc | 2 | 0 | 0 | 0 | 2 | 0 | 2 | 0 |
3 | Sc | Ptunc | 222 | 940 | 581 | 861 | 824 | 1 763 | 802 | 1 840 |
4 | Sc | Ptc | 6 | 22 | 70 | 244 | 78 | 628 | 76 | 244 |
合计 | 344 | 1 527 | 1 123 | 2 607 | 1 263 | 3 729 | 1 465 | 4 026 |
(3)评价方式
邀请三名评审专家,每名专家对4个样本集均进行审核。审核内容包括两个部分:术语归并是否正确;优选术语推荐是否正确。可接受即判断为正确,否则判断为错误。当评审结果不统一时,取值多数专家审核结果。
(4)评价结果
① 新增术语归准率
4次实验新增术语归准率评估结果如表4所示。单个词表升级的归准率分别为94.96%、94.63%,表现较佳,体现出较好的稳定性。不同概念同义词集合变更模式下的新增术语归准率均具有一定差异:新增整合概念模式下新增术语归准率均为100%,Sc类模式下新增术语归准率分为92.00%、87.33%、72.48%和85.41%,这表明算法对KOS概念变更类型有一定的敏感性。
表4 新增术语归准率评估结果
Table 4
同义词集合变更类别 | 实验1 | 实验2 | 实验3 | 实验4 |
---|---|---|---|---|
Cnew | 100.00% | 100.00% | 100.00% | 100.00% |
Sc | 92.00% | 87.33% | 72.48% | 85.41% |
合计 | 94.96% | 94.63% | 82.35% | 92.45% |
实验3和4实验的二部词表同时升级归准率分别为82.35%和92.45%,低于实验1和实验2的归准率,表明算法准确率受升级词表部数影响。实验3和实验4呈现归准率不一致,表明算法准确率受词表升级顺序影响。
② 变更整合概念优选术语推准率
4次实验发生变更的整合概念优选术语推荐准确性评估结果如表5所示。总体来看,表现优异,分别为96.80%、99.91%、99.13%和99.45%,且词表部数和词表升级顺序未表现出对优选术语推准率的影响,体现出较强的稳定性。
表5 变更整合概念优选术语推准率
Table 5
整合概念变更类别 | 实验1 | 实验2 | 实验3 | 实验4 | |
---|---|---|---|---|---|
Cnew | Ptnew | 98.25% | 100.00% | 98.33% | 99.66% |
Sunc | Ptc | 100.00% | - | 100.00% | 100.00% |
Sc | Ptunc | 97.30% | 99.83% | 99.88% | 100.00% |
Sc | Ptc | 50.00% | 100.00% | 94.87% | 92.11% |
合计 | 96.80% | 99.91% | 99.13% | 99.45% |
就整合概念变更模式看,同义词集合和优选术语同时改变类下概念优选术语推准率相对低些,但是,除实验1“仅MeSH”升级外,其他三个实验的推准率也均在92%以上。进一步分析实验1的异常表现(低至50%)发现,推荐错误均由倒序术语(如“Herpesvirus 6, Human”)所致,MeSH允许概念优选术语为倒序术语,但评审专家均认为STKOS应采用正序术语(如“Human Herpesvirus 6”)作为优选术语。
(5)讨 论
以实验1为例,对升级后的整合概念进一步统计:升级前,包含MeSH术语的整合概念42 240个,升级后,包含MeSH术语的整合概念45 963个,两者的差值(3 723)大于更新产生的完全新整合概念数2 272个。这表明与来源词表同步更新能够提高同义互操作系统概念整合水平和互操作服务能力。
关于术语变更类别判断,受Dinh等[22]研究启发,本研究采用字符串精确匹配法识别来源词表术语和概念变更模式,简单通用,但缺点是无法精准识别术语语义内涵,控制术语歧义性对“未变化术语变更”识别和后续整合概念更新带来的影响。随着编码机制完善,可通过KOS语义编码辅助歧义控制。
关于整合概念优选术语更新推荐,考虑大部分来源词表优选术语都是正序形式,本研究制定的规则尚未考虑“倒序术语不可作为整合概念优选术语”。对此,笔者认为这不影响方法的实际应用,用户可在规则集合中增加判断规则;关键是如何精准判断当前术语是倒序术语并寻找到合适的正序术语。
5 结 语
互操作已广受术语、本体、知识图谱等知识组织体系理论研究与实践的重视。对于大型术语集成互操作项目,相较于从外部非规范化知识源进行术语、概念、属性和关系抽取、更新,与来源词表保持同步更新,可更为有效地实现其可持续发展。本研究聚焦KOS同义互操作系统中整合概念如何与其来源词表概念同步更新,提出一套完整的具有可操作性的更新策略和实现路径,能够大大减少KOS同义互操作系统版本演化所需时间和资源,可为其他互操作类项目版本更新研究提供借鉴。当然,就实际问题复杂度而言,还需进一步解决歧义和版本间概念语义冲突对概念升级的影响。此外,整合概念同义词集合和优选术语维护仅是互操作系统发展基础,今后需关注属性和关系互操作更新研究。
作者贡献声明
孙海霞:提出研究思路,设计研究方案,进行实验,起草论文;
邓盼盼:数据采集和分析;
李姣:进行实验,起草论文;
沈柳:数据采集与清洗;
钱庆:设计研究方案,论文最终版本修订。
利益冲突声明
所有作者声明不存在利益冲突关系。
支撑数据
支撑数据由作者自存储,E-mail:sun.haixia@imicams.ac.cn,deng.panpan@imicams.ac.cn。
[1] 孙海霞. source_data.accdb. 原始实验数据.
[2] 孙海霞. result_data.accdb. 实验结果数据.
[3] 邓盼盼. review_data.xslx. 评审数据与结果.
参考文献
知识组织系统的互操作及其实现
[J]. ,
Interoperability and Its Implementation Among Knowledge Organization Systems
[J].
知识组织体系语义互操作研究
[J]. ,
Research on Interoperation of Knowledge Organization System
[J].
面向外文科技文献信息的知识组织体系建设思路
[J]. ,
Methodology Framework of Knowledge Organization System for Scientific & Technological Literature
[J].
The Unified Medical Language System (UMLS) of the National Library of Medicine
[J]. ,
知识本质: 内在、开放、动态——新知识观的思考
[J]. ,
The Essence of Knowledge: Inner, Open and Dynamic—On the Outlook on Knowledge
[J].
中医药主题词表
[DB/OL]. [
Traditional Chinese Medicine Thesaurus
[DB/OL]. [
中文医学主题词表
[DB/OL][
Chinese Medical Subject Headings)
[DB/OL] [
Cross-terminology Mapping Challenges: A Demonstration Using Medication Terminological Systems
[J]. ,
Understanding Semantic Mapping Evolution by Observing Changes in Biomedical Ontologies
[J]. ,
Management of Dynamic Biomedical Terminologies: Current Status and Future Challenges
[J]. ,
PROMPTDIFF: A Fixed-Point Algorithm for Comparing Ontology Versions
[C]//.
Analyzing the Evolution of Life Science Ontologies and Mappings
[C]// ,
OnEX: Exploring Changes in Life Science Ontologies
[J]. ,
COnto-Diff: Generation of Complex Evolution Mappings for Life Science Ontologies
[J]. ,
How do Computed Ontology Mappings Evolve? A Case Study for Life Science Ontologies
[C]//
Recognizing Lexical and Semantic Change Patterns in Evolving Life Science Ontologies to Inform Mapping Adaptation
[J]. ,
Identifying Relevant Concept Attributes to Support Mapping Maintenance Under Ontology Evolution
[J]. ,
Reasoning Support for Mapping Revision
[J]. ,
Mapping Validation by Probabilistic Reasoning
[C]// ,
The Sense of Confidence During Probabilistic Learning: A Normative Account
[J]. ,
Time Efficient Reconciliation of Mappings in Dynamic Web Ontologies
[J]. ,
Minimizing Influence of Ontology Evolution In Ontology-based Data Access System
[C]//
A User-driven and a Semantic-based Ontology Mapping Evolution Approach
[C]//
DyKOSMap: A Framework for Mapping Adaptation Between Biomedical Knowledge Organization Systems
[J]. ,
信息集成中的字符串匹配技术研究
[J]. ,
Study on String-based Matching of Information Integration
[J].
科技知识组织体系语义互操作网络协同工作平台设计与实现
[J]. ,
Design and Implementation of Network Collaborative Work Platform for Semantic Interoperability of Science and Technology Knowledge Organization Systems
[J].
/
〈 | 〉 |