中心度指标对语义述谓网络概念抽取的比较分析——以疾病治疗学研究为例
张晗, 刘双梅
中国医科大学医学信息学系 沈阳 110001
摘要

为比较4种节点中心度指标抽取语义述谓网络关键节点的效度,借助UMLS和SemRep构建生物医学文献的语义述谓网,借助节点概念的语义类型及概念间语义关系,定义与疾病治疗相关的语义搭配模式,并抽取出治疗相关语义述谓。分别利用点度中心度、中间中心度、接近中心度以及特征向量中心度对与疾病治疗有关的药物、治疗措施、发病部位及伴发疾病的关键节点进行抽取,并与专家所制定的人工标准进行比较。结果显示节点中心度与语义搭配模式相结合能够有效地抽取出用户所关注的关键节点,其中以点度中心度效果最佳(F-值为0.72),特征向量中心度稍次之(F-值为0.66)。

关键词: 信息抽取; 语义述谓网络; 语义搭配模式; 节点中心度
Comparative Analysis of Centrality Indices in Extracting Concepts from Semantic Predication Network——Based on Disease Treatment Research
Zhang Han, Liu Shuangmei
Department of Medical Informatics, China Medical University, Shenyang 110001, China
Abstract

The aim of the study is to compare the validity of four node centrality indices in extracting crucial nodes from semantic predication network. Depending on Unified Medical Language System (UMLS) and SemRep, this paper first constructs a semantic predication network for biomedical literature, in which nodes represent UMLS concepts and edges semantic relations between nodes. Relying on the semantic type of the concepts and the semantic relations, schemas related to disease treatment are defined and used to extract disease treatment related predications. Then four centrality indices including degree centrality, betweenness centrality, closeness centrality and eigenvector centrality are used to extract crucial concepts related to four aspects of disease treatment (therapeutic drugs, therapeutic procedures, body location of the disease and disease comorbidities). The extracted concepts are compared to a reference standard produced by domain experts. The results show that centrality combined with semantic schema can effectively extract crucial nodes of the users interest. Among four centrality indices, degree centrality performs best (F-score is 0.72) and eigenvector centrality performs secondly best (F-score is 0.66).

Keyword: Information extraction; Semantic predication network; Semantic schema; Node centrality
1 引 言

文本信息抽取(Textual Information Extraction)是从自然语言文本中自动抽取出特定的实体、实体之间的语义关系以及实体的描述属性的任务,其主要目的是从文本中抽取出特定的、用户感兴趣的信息。信息抽取早期的应用是从新闻报道中抽取出事件的详细情况,近年来在生物医学领域得到应用,如从医学文献中抽取与疾病病因、诊治有关的信息,从电子病历记录中抽取病人相关信息等,继而为开发医学文本自动摘要系统、临床问题自动应答系统、临床决策支持系统奠定了基础。

目前信息抽取研究很少对文献的内容进行深度的语用和语义分析,不能在生物医学领域实现针对特定目的的信息抽取。本文通过对医学文本进行深度的语义表达,构建一种全新的、富含语义信息的语义述谓网络,结合预定义的语义搭配模式,能够对符合研究目标的概念进行识别,然后利用网络的属性——节点中心度,对关键概念进行识别,旨在比较与评价4种节点中心度指标对信息抽取的效果。

2 研究现状介绍

目前大多数信息抽取研究利用语法结构或句法结构对概念进行识别,然后利用概念共现频率、文档频率等指标对信息进行抽取。近年来也有研究通过构建论文网络(网络节点通常为关键词或文章句,边为关键词共现强度或句子相似度),利用网络特征对关键节点进行抽取。如赵辉等[ 1]以节点的加权度、加权聚集系数及节点介数建立综合指标对文档特征概念进行抽取。LexRank系统[ 2]和Zhang等[ 3]的系统采用节点的中心度(Centrality)作为摘要句排序和抽取的标准,并比较了不同的中心度在判断节点重要性的效果,其依据是节点的中心度越高,其位置在网络中越重要。但是上述研究并不涉及对文本的深度语义理解。

对医学文本信息进行抽取需要对医学文本内容进行理解,从文档集中抽取实体、关系等信息,因此通常涉及命名实体识别、句法分析、语义关系抽取等自然语言处理技术,同时需要生物医学专业的知识库的支持。目前Unified Medical Language System(UMLS)[ 4]是医学文本处理最常用的知识库。

美国国立医学图书馆以UMLS为术语支撑开发出一系列自然语言处理工具,其中SemRep是基于UMLS和MetaMap[ 5]的生物医学文献语义表达工具。MetaMap将医学文本中的术语匹配成UMLS超级词表中的概念,同时标注出概念的语义类型。在此基础上利用SemRep识别概念间的语义关系,并从文本中抽取语义述谓(Semantic Predication),形式为:主语|谓词|宾语。其中主语及宾语为UMLS超级词表中的概念,谓词来自于UMLS语义网络中的语义关系。以PubMed文献为例,句子“An update on the efficacy of non-steroidal anti-inflammatory drugs in Alzheimer’s disease(PMID 19589092)”,经SemRep处理后生成的语义述谓为:

Anti-Inflammatory Agents, Non-Steroidal|phsu|TREATS| Alzheimer’s Disease|dsyn|

其中Anti-Inflammatory Agents, Non-Steroidal 为主语,其语义类型为药物(pharmacologic substance,phsu),TREATS 为语义关系,Alzheimer’s Disease 为宾语,其语义类型为疾病或综合症(disease or syndrome,dsyn)。

利用SemRep对医学文本进行语义表达,进而实现对文本内容理解是很多工作的基础,如Kilicoglu等[ 6]开发的Semantic MEDLINE自动摘要系统即是利用SemRep将文献集处理为语义述谓集,通过分析语义关系预设4个研究主题,经过语义过滤及频次过滤生成关于疾病治疗、药物相互作用、药物基因组学和疾病的遗传因素4方面的摘要网络图。在此基础上,Fiszman等[ 7]提出针对循证治疗学文献摘要的评价方法,Workman等[ 8]在Fiszman系统的基础上,进一步采用统计学指标,对重要的语义述谓表达进行抽取。商玥等[ 9]利用SemRep对5种疾病主题的文献集进行概念和语义关系的抽取,并利用语义关系特征抽取摘要。这些研究深入全面地对医学文本的内容进行了语义表达,并利用网络图组织并显示语义述谓集,然而在信息抽取上都没有考虑网络图的特性。

本文在以上研究的基础上,将医学文本的语义分析与网络特性(即节点的中心度)结合,利用语义分析实现对研究目的(疾病的治疗)的识别,利用节点的中心度实现关键概念的抽取,并与人工标准对比,比较不同中心度指标的抽取效果。

3 研究框架与方法

本研究的处理流程如图1所示:

图1 信息抽取流程

信息抽取步骤如下:

(1)语义述谓抽取及预处理:在PubMed上下载疾病相关文献,利用SemRep处理,抽取出其中的语义述谓,同时去除含义过于宽泛、对信息抽取无意义的概念所组成的语义述谓。

(2)网络图绘制:利用Pajek绘制语义述谓网络图。

(3)计算节点中心度:利用UCINET分别计算每个节点的点度中心度、中间中心度、接近中心度以及特征向量中心度。

(4)疾病治疗学相关语义述谓识别:利用预设的疾病治疗相关语义搭配模式对语义述谓进行过滤,筛选出与疾病治疗相关的语义述谓。

(5)概念抽取:本文信息抽取的目的是获取特定疾病的治疗学信息,目标疾病为所下载文献的主题疾病,因此继续对步骤(4)所得语义述谓进行过滤,筛选出其中概念之一为主题疾病的语义述谓,对筛选所得的语义述谓的另一非主题疾病概念按照其中心度排序,抽取出高于阈值的概念作为最终结果。

(6)评价:根据专家制定的人工标准评价抽取结果。

4 研究过程
4.1 实验数据

选取5种不同学科的疾病(阿尔兹海默病、偏头痛、消化性溃疡、心力衰竭、 黑色素瘤)作为本文的研究对象,在PubMed数据库中分别检索2000年-2009年发表的、以上述5种疾病为主要主题词的英文文献。检出文献量分别为:阿尔兹海默病 16 413篇,偏头痛4 245篇,消化性溃疡 3 693篇,心力衰竭16 358篇,黑色素瘤13 951篇。

4.2 语义抽取及过滤

利用SemRep分别处理5种疾病的文献集,抽取每篇文献题目和摘要文本中的语义述谓。

在所抽取的语义述谓中,有些主语或宾语概念的含义过于宽泛,不能为概念抽取提供有意义的信息,例如“Pharmaceutical Preparations|TREATS|Alzheimer’s disease”中的概念Pharmaceutical Preparations(药物制剂)。因此需要将这些含义过于宽泛的概念去除,其原则为如果语义述谓中的主语或宾语概念中有一个位于UMLS概念等级结构的二级及以上,则将该语义述谓删除[ 10]

4.3 语义述谓网络图的生成

利用Pajek绘制语义述谓网络图,将网络属性分别保存为三个输入文件:.net文件定义节点、连线及其颜色和频次;.vec文件定义节点的频次;.clu文件定义节点的语义类型,具体方法见文献[11]。在上述方法所绘制的网络图中,概念以节点表示,具备两个属性:大小表示概念出现的频次;颜色表示概念的语义类型。语义关系用节点间连线的标签标示,连线具备三个属性:颜色表示不同的语义类型;宽度表示所对应的语义述谓的频次;方向由主语指向宾语。以阿尔兹海默病数据集为例,从中随机抽取6条语义述谓表达如表1所示:

表1 语义述谓表达示例
所生成的语义述谓网络如图2所示:

图2 语义述谓网络示例

4.4 节点中心度指标的计算

分别计算网络图中每个节点的点度中心度、中间中心度、接近中心度和特征向量中心度,4种中心度的含义及计算公式见文献[12]和文献[13]。本文中心度的计算使用社会网络分析软件UCINET,采用无向图计算中心度方法,原因在于尽管网络图中线的方向是由主语指向宾语,但是在实际情况中,反方向的线是不存在的。如图2中TREATS的方向只能由药物指向疾病,不可能从疾病指向药物。

结果显示各疾病文献集中具有最大中心度值的节点均为各主题疾病概念。例如阿尔兹海默病数据集中,具有最高中心度值的节点为Alzheimer’s disease。这也从侧面说明了节点中心度能有效地发现网络图中的核心概念。

4.5 治疗学研究语义抽取

UMLS丰富的语义关系能够全面揭示生物医学所涉及的概念之间的各种关系,为本文的语义抽取提供可能。采用文献[10]的方法对疾病治疗学进行界定,即包括伴发疾病(Comorbidities)、发病部位(Locations)、治疗药物(Drugs)、治疗措施(Procedures)4方面内容。与之相关的语义关系分别为:COEXISTS_WITH、LOCATION_OF、TREATS和PREVENTS。

由于语义关系与不同语义类型的概念搭配时,可能表达不同的含义,例如语义关系LOCATION_OF所连接的主语的语义类型通常为人体的解剖学部位,当宾语的语义类型为化学物质时,该三元组所表达的含义为化学物质所产生/存在的部位,当宾语的语义类型为疾病时,则通常表达疾病所发生的部位。因此为了准确地体现本文研究目的,对主语及宾语的语义类型进行了规定,建立了疾病治疗学的语义抽取模式,如表2所示:

表2 疾病治疗学语义抽取模式

表2中用{}括起的部分为语义类型所归属的大类,UMLS的134个语义类型按照其含义可划分为若干类,本文采用文献[14]所划分的语义类型大类。例如{Anatomy}包括Anatomical Structure(解剖学结构)、Body Location or Region(身体部位或区域)等11种具体的解剖学语义类型。

利用表2的抽取模式对4.2节所得的语义述谓进行过滤,仅保留符合表2抽取模式的语义述谓。经语义筛选后,一些与疾病治疗无关的语义述谓,如疾病的病因研究(语义关系为CAUSES)、诊断研究(DIAGNOSES)等都被去除。

4.6 概念抽取

本文旨在抽取与用户关注的疾病(即主题疾病)治疗有关的概念,对所得的语义述谓进一步筛选,选出其中概念之一为主题疾病的语义述谓,即与主题疾病治疗有关的信息。以图2为例,经筛选后,|Donepezil|TREATS|Dementia|与|Tretinoin|TREATS|Neurodegenerative Disorders|将从网络图中删除。经筛选后所剩余的语义述谓,其主语概念和宾语概念中,必有一个是主题疾病概念。

在剩余的语义述谓中,对另一非主题疾病概念,按照其中心度的大小降序排列,截取中心度高于阈值的节点作为最终的抽取结果。阈值的计算公式为[ 10]:
阈值=平均值+标准差

5 实验结果及评价
5.1 结果评价标准的制定

为了评价信息抽取结果,请两名母语为英语的医学博士作为专家,人工制定评价标准。两名专家参考国际上广泛使用的内科学教课书(Harrison’s Principles of Internal Medicine和Current Medical Diagnosis and Treatment),结合其医学背景知识,针对各主题疾病的伴发疾病、发病部位、治疗药物及非药物治疗措施/手段4方面,分别以概念的形式列出主要答案。最终的人工标准为两名专家协商后结果的汇总。人工标准在4个方面推荐的关键概念数如表3所示:

表3 人工标准中各概念的数目

5.2 评价结果

将4种中心度所抽取的概念与人工标准所推荐的概念进行对比,计算准确率、召回率以及F-值,以评价各中心度的抽取效果。

由于本文抽取的词来自于UMLS中的概念,而人工标准的词属于自然语言,因此在对比时,需要结合医学知识进行实质意义的匹配。4种节点中心度抽取的结果如表4所示:

表4 4种中心度指标准确率、召回率和F-值

依据中心度对概念进行排序,可以发现各中心度值最高的概念均为文献集的主题疾病概念,因此4种中心度均能正确识别出文献集的核心概念主题。在对疾病治疗学相关概念的抽取上,点度中心度在5种疾病中的F-值均比较高,其次为特征向量中心度和中间中心度,而接近中心度效果最差。

本文结果表明尽管点度中心度的计算方法最简单,但在关键概念的抽取上效果最好,这与文献[3]的结论一致。文献[3]中比较了点度中心度、基于最短路径的中心度以及特征向量中心度在识别网络图中重要节点的效果,结果显示点度中心度的结果与人工标准最相近。

本文结果同时显示接近中心度(CC)的效果最差,其原因为CC对节点的中心性区分度不高。以治疗AD的药物为例,CC值介于2.477-2.485,具备同一CC值的节点很多,对节点的区分力不强,导致高于阈值的节点数量较多。尽管能在一定程度上提高召回率,但在更大程度上损失了准确率,最终导致F-值下降。这种现象的根本原因与CC的计算方法有关。

CC的计算公式如下[ 12, 13]:

在网络的规模确定后,即节点总数n是固定的,分子为恒定值, CC由分母决定。为某一节点到其他节点的距离之和,本文中的网络连通性很强, 联系紧密, 且存在绝对核心节点(即主题概念节点),因而除了少数边缘节点外,多数节点间距离差距不大,使得的值差别较小,导致大部分节点的CC差异非常小,使得CC对概念的抽取效果较差。因此在理论上,接近中心度并不适合作为判断本文关键概念的指标。这与高小强等[ 13]比较各中心度用于评价期刊的结论一致。

6 结 语

本文利用UMLS以及SemRep对医学文献进行语义学处理,构建出一种新型的富含语义信息的文献语义述谓网络,配合语义搭配模式,能够有针对地抽取出与疾病治疗相关的研究内容。利用网络的节点中心度对网络中的关键概念进行识别与抽取,点度中心度和特征向量中心度取得了较好的效果。可以看出:

(1)对文献内容的深度揭示与表达是文本挖掘的基础,本研究所构建的语义述谓网络所提供的语义信息具备更强大的文献挖掘潜力。与目前研究较多的关键词共现网络相比,由于有领域知识库的支撑,语义述谓网络能深入细致地揭示概念之间的语义关系,配合概念的语义类型,能够深度地揭示文献内容,对文献的挖掘更加灵活、强大。

(2)语义述谓网络属于复杂网络,将复杂网络分析方法与语义搭配模式结合,能够为诸如信息抽取、文本摘要、医学知识发现、知识图谱及学科研究态势分析等众多研究提供新的方法和思路。

参考文献
[1] 赵辉, 刘怀亮, 范云杰. 复杂网络理论在中文文本特征选择中的应用研究[J]. 现代图书情报技术, 20129): 23-28. (Zhao Hui, Liu Huailiang, Fan Yunjie. Study on the Application of Complex Network Theory in Chinese Text Feature Selection[J]. New Technology of Library and Information Service, 20129): 23-28. ) [本文引用:1] [CJCR: 1.073]
[2] Erkan G, Radev D R. LexRank: Graph-based Lexical Centrality as Salience in Text Summarization[J]. Journal of Artificial Intelligence Research, 2004, 221): 457-479. [本文引用:1] [JCR: 1.056]
[3] Zhang X, Cheng G, Qu Y Z. Ontology Summarization Based on RDF Sentence Graph[C]. In: Proceedings of the 16th International Conference on World Wide Web. 2007: 707-716. [本文引用:1]
[4] Unified Medical Language System (UMLS)[EB/OL]. [2013-03-11]. http://www.nlm.nih.gov/research/umls/. [本文引用:1]
[5] Aronson A R, Lang F M. An Overview of MetaMap: Historical Perspective and Recent Advances[J]. Journal of the American Medical Informatics Association, 2010, 173): 229-236. [本文引用:1]
[6] Kilicoglu H, Fiszman M, Rodriguez A, et al. Semantic MEDLINE: A Web Application to Manage the Results of PubMed Searches[C]. In: Proceedings of the 3rd International Symposium on Semantic Mining in Biomedicine. 2008: 69-76. [本文引用:1]
[7] Fiszman M, Demner-Fushman D, Kilicoglu H, et al. Automatic Summarization of MEDLINE Citations for Evidence-based Medical Treatment: A Topic-oriented Evaluation[J]. Journal of Biomedical Informatics, 2009, 425): 801-813. [本文引用:1] [JCR: 2.131]
[8] Workman E T, Hurdle J F. Dynamic Summarization of Bibliographic-based Data[J]. BMC Medical Informatics & Decision Making, 2011, 116). doi: 10. 11861472-6947-11-6. [本文引用:1] [JCR: 1.603]
[9] 商玥, 王鸿飞, 杨志豪. 利用语义关系抽取生成生物医学文摘的算法[J]. 计算机科学与探索, 2011, 511): 1027-1035. (Shang Yue, Wang Hongfei, Yang Zhihao. Automatic Summarization Algorithm for Biomedical Literature Based on Semantic Relation Extraction[J]. Journal of Frontiers of Computer Science & Technology, 2011, 511): 1027-1035. ) [本文引用:1] [CJCR: 0.3901]
[10] Zhang H, Fiszman M, Shin D, et al. Degree Centrality for Semantic Abstraction Summarization of Theraputic Studies[J]. Journal of Biomedical Informatics, 2011, 445): 830-838. [本文引用:2] [JCR: 2.131]
[11] de Nooy W, Mrvar A, Batagelj V. Appendix 1: Getting Started with Pajek[A]. //Exploratory Social Network Analysis with Pajek[M]. New York: Cambridge University Press, 2010. [本文引用:1]
[12] Freeman L C. Centrality in Social Networks: Conceptual Clarification[J]. Social Networks, 1979, 13): 215-239. [本文引用:1]
[13] 高小强, 赵星, 陶乃航. 网络中心度用于期刊引文评价的有效性研究[J]. 大学图书馆学报, 2009, 275): 61-64. (Gao Xiaoqiang, Zhao Xing, Tao Naihang. Validity of Journals Citation Evaluation with Centrality Indexes of Networks[J]. Journal of Academic Libraries, 2009, 275): 61-64. ) [本文引用:2] [CJCR: 3.739]
[14] McCray A T, Burgun A, Bodenreider O. Aggregating UMLS Semantic Types for Reducing Conceptual Complexity[J]. Studies in Health Technology and Informatics, 2001, 841): 216-220. [本文引用:1]