Advanced Search

数据分析与知识发现, 2020, 4(6): 118-128 doi: 10.11925/infotech.2096-3467.2019.1156

研究论文

在线医疗社区中面向医生的协同标注研究*

叶佳鑫1, 熊回香,,1, 童兆莉1,2, 孟秋晴1

1华中师范大学信息管理学院 武汉 430079

2湖北交通职业技术学院 武汉 430079

Collaborative Tagging for Doctors in Online Medical Community

Ye Jiaxin1, Xiong Huixiang,,1, Tong Zhaoli1,2, Meng Qiuqing1

1School of Information Management, Central China Normal University, Wuhan 430079, China

2Hubei Communication Technical College, Wuhan 430079, China

通讯作者: 熊回香,ORCID:0000-0001-9956-3396,E-mail:hxxiong@mail.ccnu.edu.cn

收稿日期: 2019-10-22   网络出版日期: 2020-06-25

基金资助: *本文系华中师范大学中央高校基本科研业务费人文社会科学类重大项目“基于语义网的在线健康信息的挖掘与推荐研究”.  CCNU19Z02004
华中师范大学优秀博士学位论文培育计划项目的研究成果之一.  2019YBZZ096

Received: 2019-10-22   Online: 2020-06-25

摘要

【目的】 通过挖掘文本特征寻找某医生的相似医生,以相似医生的特征为基础对医生进行标注,丰富对医生特征的描述。【方法】 利用Word2Vec词向量模型对医生的咨询文本、文章标题与咨询范围进行向量表示,在此基础上挖掘相似医生;进而分析挖掘的相似医生的特征,对标注的目标医生进行协同标注。【结果】 基于咨询文本、文章标题与咨询范围的医生标注结果,准确率分别为0.667、0.252与0.708,混合不同文本进行标注的准确率为1.000。【局限】 对文本语义特征的挖掘不够深入,以单一文本进行标注的准确率与召回率有待提高。【结论】 基于咨询文本产生的标签与患者即时需求较为紧密,基于文章标题产生的标签与医生兴趣具有较强联系,基于咨询范围与混合不同文本所得标签具有较高的准确率,从文本挖掘出发进行医生的协同标注能在一定程度上推荐合适的标签。

关键词: Word2Vec ; 协同标注 ; 医生标注 ; 标签推荐

Abstract

[Objective] This paper tries to find similar doctors and improve the descriptions of their characteristics. [Methods] We generated vector representation for each doctor’s consulting texts, article titles and service scopes with the Word2Vec model, which helped us identify similar doctors. Then, we analyzed their common characteristics and collaboratively tag these doctors. [Results] The accuracy of tagging results based on doctor’s consulting texts, article titles and services were 0.667, 0.252 and 0.708, respectively. The accuracy of tagging results based on mixed texts was 1.000. [Limitations] The performance of single-text based tagging needs to be improved. [Conclusions] Tags based on consultation texts are closely related to the immediate needs of patients, while tags based on article titles are strongly related to doctor’s interests. Tags obtained from their services and mixed texts are more accurate.

Keywords: Word2Vec ; Collaborative Tagging ; Physician Tagging ; Tag Recommendations

PDF (854KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

叶佳鑫, 熊回香, 童兆莉, 孟秋晴. 在线医疗社区中面向医生的协同标注研究*. 数据分析与知识发现[J], 2020, 4(6): 118-128 doi:10.11925/infotech.2096-3467.2019.1156

Ye Jiaxin. Collaborative Tagging for Doctors in Online Medical Community. Data Analysis and Knowledge Discovery[J], 2020, 4(6): 118-128 doi:10.11925/infotech.2096-3467.2019.1156

1 引言

随着互联网与医疗的不断结合,在线医疗逐渐成为一种被人们广泛采用的就医模式[1]。目前,在线医疗主要依托于在线医疗平台(如HIN、CDC、好大夫在线、春雨医生等)进行,平台为患者提供网络咨询、电话咨询、预约挂号与私人医生等医疗服务功能,患者浏览相关信息后即可根据自身的需求在平台上找到相应的医生寻求诊疗服务。在寻找医生时,患者往往会通过参考医生的职称、擅长、地区等信息选择符合其需求的医生[2-3]。在医生的各种信息中,用来描述医生特征的标签无疑是最具参考价值的信息之一。由于在线医疗平台的特殊性,医生标签通常由患者参照平台上已有的一些规范化词语标注产生,区别于其他网络平台上的标签,医生标签除了可简洁地描述医生特征外,还能在一定程度上帮助患者了解医生擅长的诊疗范围与其他患者对医生的评价。

标签由于其标注简单与便于理解等特点,已成为Web2.0时代最具实用性的资源描述与检索工具之一,在各种检索系统中发挥着重要的作用[4]。以标签为基础的推荐系统已在电子商务、图书与电影等领域得到较为广泛的应用,各种基于标签的资源推荐方法已经较为成熟,具有良好的应用前景[5,6,7]。而对于医疗领域,国外已经有相关学者就标签与医疗的结合展开研究,例如应用标签帮助患者了解医疗资源[8],以标签帮助患者快速地理解医疗诊断信息[9],利用标签辅助医疗决策等[10]。在国内,将标签与医疗领域相结合的研究还存在较大提升空间,在广度与深度上都有待加强。标签稀疏是制约相关应用深入的一个关键因素,在线医疗平台中医生尤其是新注册医生常存在标签稀疏问题,为更好地促进标签在医疗领域的应用,有必要寻找合适的医生标注方法。

综上所述,为推动以标签为基础的各种技术方法在医疗领域的应用,进一步促进有关医疗资源描述、推荐等相关研究的发展,本文以医疗活动中的一个重要主体——医生为研究对象,通过Word2Vec词向量模型对与医生相关的文本如咨询文本(患者咨询医生的文本)、文章标题(医生在平台上发布文章的题目)与咨询范围(医生对自身咨询范围的描述)进行特征表示,在此基础上得到与其相似的医生,通过分析相似医生的信息进一步对目标医生进行协同标注。在进行医生协同标注的过程中,分别基于不同的文本对医生进行标注,并对比不同标注方式产生的标注结果,分析各种标注方法的效果及其适用性,最后得到能较好地刻画医生特征的标签,以便患者能通过标签更好地选择医生。

2 医生标注及相关技术

2.1 标注及医生标注

标注通常指用户自发地对资源添加标签的行为,该行为一般受到用户知识背景与认知模式的影响,用户在接触到与资源相关的信息后会结合自我认知对信息进行加工处理,若用户将处理后的信息以关键词的形式输出,则该关键词可以理解为用户为该资源标注的标签[11]。医生标注可以理解为患者在接受到与医生有关的相关信息后,通过对信息的理解与加工处理,并输出相应的标签来描述医生特征的一种行为。本文主要研究如何自动地对医生进行标注。

2.2 协同标注

协同通常是通过协调两个或两个以上的不同个体,协同一致地完成某目标的过程。基于协同与标注的概念,协同标注可以理解为,通过整合不同个体对标注目标的认知或标注结果完成对资源的标注[12]。按整合阶段的不同,协同标注可以分为:

(1)标注前的整合,即在进行标注前将不同个体对资源的认知进行整合,通过整体认知直接生成标注结果;

(2)标注后的整合,即在个体分别完成对资源的标注后,通过对不同个体的标注结果进行整合得到最终的标注结果[13,14,15,16]

本文主要采用标注后的整合对医生进行标注,即协同与标注目标医生相似的其他医生,整合其基于不同文本得到的标注结果对目标医生进行标注。

2.3 Word2Vec词向量模型

Word2Vec主要用于将文本信息由非结构化形式转化为向量化形式[17]。Word2Vec实质上是一种基于词嵌入的算法,可以将所有的词向量化,从而利用向量的方法度量词与词之间的关系。此外,作为一种自然语言处理工具,Word2Vec最大的特点之一是以上下文信息为基础实现词的特征约简,从而解决维度灾难的问题[18]。按照训练词向量的方式不同,Word2Vec可分为CBOW与Skip-Gram模型。相较而言,CBOW模型在处理小型语料时效果更好,而Skip-Gram模型则更适用于处理大型语料[19,20]

3 数据来源与协同标注框架描述

3.1 数据收集

“好大夫在线”是国内知名的在线医疗平台之一,截至2018年底,“好大夫在线”已收录全国各地共9 379家正规医院所属58万名医生的信息,具有数量丰富的医疗信息资源[21]。本文从“好大夫在线”上选择“糖尿病”、“乙肝”、“哮喘”、“肺炎”、“不孕不育”、“小儿腹泻”、“气胸”与“高血压”共8个较为常见的疾病门类中的医生作为研究对象,获取医生的相关数据,从每个门类中各采集100名医生的相关数据,共采集到800位医生的相关数据[22]。具体数据包括:

(1)咨询文本。采集每位医生的咨询文本数量为3~10条(大部分医生的咨询文本数量为10条),共采集到7 970条咨询文本;

(2)文章标题。采集每位医生的文章数量为0~10篇(有些医生未发布文章),共采集到4 476篇文章的标题;

(3)咨询范围。采集每位医生描述自己咨询范围的文档,共采集到800条文档;

(4)患者投票。患者投票可以理解为一种由患者产生的用来描述医生特征的标签,在患者与医生完成医疗交互后,若患者对医生的服务较为满意,则可以以投票的形式在特定疾病门类(如咳嗽、高血压等)上为该医生投票,即患者对医生进行一次标注,在“好大夫在线”上,患者投票会按照投票的总次数排序,即收到患者投票数最多的疾病排序在前。本文收集的患者投票为排序最靠前的0~5个门类投票,共采集到3 461个相关投票。

收集到的部分医生数据如表1所示。

表1   800位医生文本数据示例

Table 1  Sample Data of 800 Doctors

(注:Null表示医生无该数据。)

新窗口打开| 下载CSV


3.2 数据预处理

观察表1的数据,发现有些医生的文章数量为0篇。为探究基于不同文本的医生标注效果,在医生标注研究中将文章数量为0的医生剔除,剔除后剩余596位医生。对于这596位医生分别将其第一条咨询文本、第一篇文章的标题与咨询范围作为医生的训练文本,其中第一条咨询文本是最近咨询过该医生的患者咨询,代表医生近期处理的疾病问题;第一篇文章通常是医生置顶的文章,代表医生较为关注的信息;咨询范围则是医生对自身诊断范围的界定。596位医生的训练文本如表2所示。

表2   596位医生的训练文本示例

Table 2  Sample Training Texts of 596 Doctors

新窗口打开| 下载CSV


在得到596位医生的训练文本后,因后续研究中需要用到患者投票,故对596位医生的患者投票频次进行分析。首先进行去重处理,共得到关于204类疾病的投票;继而统计每类疾病关联的医生数,将204类的投票按照关联的医生数从多到少进行排序,并计算每类投票的出现概率(即:出现次数/596)。患者投票的序号、频次与出现概率如表3所示;为更清晰地观测其出现频次,绘制投票频次分布的折线图,如图1所示。

表3   596位医生的患者投票

Table 3  Vote Data of 596 Doctors from Patient

对比项肺癌肺部结节肺部疾病肺炎糖尿病不孕不育呼吸衰竭
序号123456204
频次1191121089289841
概率0.2000.1880.1810.1540.1490.1410.002

新窗口打开| 下载CSV


图1

图1   204类疾病投票频次折线图(示意)

Fig.1   The Vote Frequency Line Chart of 204 Diseases


表3图1可以看出,204类疾病投票的频次分布大致上符合长尾分布,即少数投票的出现频次较高,而大多数投票的出现频次较低,投票的出现频次可以体现出对应门类疾病的热度,也从侧面反映出该投票被患者用来标注医生的概率。

3.3 标注框架描述

本文构建的医生标注框架包含数据收集与预处理模块、Word2Vec词向量训练模块、基于文本的相似医生挖掘模块、基于不同文本的医生标注模块、混合不同文本的医生标注模块与数据更新模块,如图2所示。

图2

图2   协同标注模型框架

Fig.2   Collaborative Tagging Model


将收集的数据分为医生的咨询文本、文章标题、咨询范围与患者投票。对于收集到的咨询文本、文章标题与咨询范围进行分词等预处理工作后,以Word2Vec模型进行训练;对于患者投票则直接用Word2Vec模型训练,得到文本中词的向量,随后对词的向量取均值得到医生关于咨询文本、文章与咨询范围的句向量表示。以得到的文本句向量表示为基础,分别挖掘基于咨询文本、文章标题与咨询范围的相似医生,若挖掘到相似医生,则以相似医生对应的投票情况对目标医生进行协同标注。最后,将为医生标注的标签推荐给目标医生或相关患者即完成了医生标注工作,同时推动了在线医疗平台上数据的更新。

4 基于Word2Vec的协同标注

利用Word2Vec模型训练文本,实现基于文本的相似医生挖掘与医生标注等工作需要训练的文本为800位医生的咨询文本、文章标题、咨询范围与患者投票,语料较小,因此选择更适用于处理小型语料的CBOW模型进行训练。

4.1 Word2Vec模型训练

利用Python的Gensim工具包对表1中800位医生的数据进行训练,在训练时选择CBOW模型,词向量维度一般设置在100~300之间,考虑到训练语料规模较小,本文将维度设置为100。在训练前,建立患者词典,将表3中的患者投票作为固定语词加入患者词典,对表1中的语料以结巴分词器进行分词处理,随后进行词向量模型训练,得到语料中所有语词的词向量。部分语词的词向量如表4所示。

表4   部分语词的词向量

Table 4  The Word Vector of Patial Words

新窗口打开| 下载CSV


利用得到的词向量模型将咨询文本、文章标题与咨询范围中的词转换为向量表示,并对词向量取平均值进行整合即可得到对应文本的句向量[23]。利用词向量取平均值并整合的方法分别得到表2中596位医生分别基于咨询文本、文章标题与咨询范围的向量表示,以表2中第1位医生为例,其文章标题在分词后得到“如何”、“预防”、“肺癌”、“术后”、“复发”与“?”共6个词,其中“如何”与“?”的语义信息较低通常被作为停用词处理,为避免这些词对文本语义造成影响,在计算文本向量时参考哈尔滨工业大学停用词表对文本进行去除停用词处理。则第1位医生的文章标题向量为“预防”、“肺癌”、“术后”、“复发”4个词的向量均值即(-0.213,-0.261,0.629, -1.420,…,-0.237)。

4.2 基于文本的相似医生挖掘

在得到咨询文本、文章标题与咨询范围的向量表示后可以通过计算文本向量间的余弦相似度得到医生基于咨询文本、文章标题与咨询范围的相似度,从而挖掘基于文本的相似医生。为确保样本的一般性,从表2中选取出10位专长存在一定差异、且具有5个患者投票的医生作为测试医生,最终选取医生序号为10、13、21、24、28、29、33、35、38与63。利用文本向量相似度挖掘的方式分别为测试医生挖掘出与其在咨询文本、文章标题与咨询范围上相似度最高的其他10位医生作为协同标注的相似医生。测试医生10及其相似医生的相关数据如表5所示。

表5   测试医生10及其相似医生

Table 5  Test Doctor and His Similar Doctor

新窗口打开| 下载CSV


4.3 协同标注过程

医生协同标注工作主要分为以下步骤:

(1)判断是否挖掘到适合进行协同标注的相似医生。在为10位测试医生挖掘到基于不同文本的相似医生后,需衡量测试医生与相似医生间的相似度,确保以相似医生的信息为测试医生进行标注能得到较为准确的结果。经实验发现当相似度在0.970以上时文本间具有较强相似性,因此,需要判断相似医生与测试医生间相似度是否达到0.970,同时考虑到相似医生数量对标注效果的影响(相似医生数较少可能导致标注的信息不足,相似医生数较多可能导致信息过载),设定若与测试医生间的相似度在0.970以上的医生数不足5个则需重新选择文本挖掘相似医生,若与测试医生间的相似度在0.970以上的医生数在5~10个之间则选择所有满足相似度标准的医生用于协同标注,若与测试医生间的相似度在0.970以上的医生数在10个以上则选择相似度最高的10个医生用于协同标注。

(2)相似医生的投票整合。若挖掘到合适的相似医生,下一步则需要对相似医生的投票进行整合,统计相似医生的投票共有多少种类,以及每类投票涉及到相似医生中的多少位,将其记为投票的出现频次。

(3)投票的筛选。在对投票进行整合与统计后,进一步判断每种投票的出现是否具有较大的偶然性。从图1可以看出投票的分布呈长尾分布,即有些投票的出现频次过高。为更好地利用热门投票进行标注,有必要对其出现概率进行分析[24,25]。本文设定若在相似医生的投票中,某类投票出现频次达到2,并且出现概率达到其出现在596位医生投票中出现概率(后文称为原出现概率)的2倍及以上,则该投票适用于进行医生标注。出现频次对投票的偶然性进行了预防,出现概率则可用于对热门投票进行控制。

(4)基于不同文本的协同标注。在选择出适用于进行医生标注的投票后,即可将这些投票作为标签来标注医生,分别选择基于不同文本的合适投票,将其作为标签对医生进行标注,实现基于不同文本的医生标注。

(5)混合不同文本的协同标注。在按照不同文本对医生进行标注后,为进一步提高标注准确率,确保标签质量,可以对基于不同文本的标注结果进行整合。具体来说,当一类投票在两种以上的文本中同时满足筛选标准,则说明该类投票同时与多种文本相匹配,选用该类投票对医生进行标注可以有效提高标注的准确性。

4.4 基于不同文本的医生标注

按照协同标注过程,首先判断为测试医生挖掘到的相似医生数量是否足够进行协同标注,与测试医生间相似度达到0.970及以上的相似医生数如表6所示。

表6   符合标注标准的医生数

Table 6  The Number of Doctors Meeting the Tagging Criteria

新窗口打开| 下载CSV


表6可以看出,对各测试医生是否适合基于咨询文本、文章标题与咨询范围进行协同标注,若挖掘到的相似医生数量不足则不能基于该文本对医生进行标注(在实际操作过程中可以通过替换文本为医生挖掘相似医生,本文因篇幅限制并未替换文本进行相似医生的挖掘)。

判断各类型文本是否适用于医生标注后,分别基于不同文本对测试医生进行标注,整合相似医生的标签。以测试医生10为例,基于咨询范围与测试医生10相似度达到标准的8位医生的标签出现频次及概率如表7所示。

表7   测试医生10的相似医生投票(基于咨询范围)

Table 7  Similar Doctor Vote for Test Doctor

投票出现频次出现概率原出现概率原出现概率×2
糖尿病40.5000.1490.298
高血压30.3750.1340.268
甲亢30.3750.1290.258
甲减30.3750.1120.224
内分泌疾病20.2500.0200.040
不孕不育10.1250.1410.282
乙肝10.1250.1340.268
试管婴儿10.1250.1190.238
感染10.1250.0150.030

新窗口打开| 下载CSV


对于测试医生10,“糖尿病”、“高血压”、“甲亢”、“甲减”、“内分泌疾病”共5种投票满足出现频次不小于2,且其出现概率达到原出现概率的2倍,因此这5种投票可以作为基于咨询范围的标签为测试医生10进行标注。按此方法基于不同文本为所有测试医生进行标注,结果如表8所示。

表8   基于不同文本的医生标注结果

Table 8  Doctor Tagging Based on Different Texts

(注:Null表示未用对应类型文本为该测试医生进行标注。)

新窗口打开| 下载CSV


4.5 混合不同文本的医生标注

得到基于不同文本的医生标注结果后,为进一步提高标注的准确率可以对基于不同文本得到的标注结果进行混合。从表8可以看出对于测试医生10、24、29与33,因为两种及以上的标注结果不存在,所以不能直接进行混合标注,需要替换相应文本重新挖掘相似医生后再进行混合标注;而对于测试医生13、21、28、35、38与63来说,已经用两种及以上的文本为其标注,在此基础上可直接进行混合标注,本文仅展示这些医生的混合标注过程。例如,对于测试医生13来说,可以混合咨询文本与文章标题两种文本对其进行标注,基于咨询文本为其标注时筛选出“咳嗽”、“高血压”、“冠心病”、“心脏病”、“肺炎”、“慢阻肺”、“房颤”与“月经失调”,基于文章标题为其标注时筛选出“高血压”、“糖尿病”、“冠心病”、“甲亢”、“房颤”、“心脏病”、“甲减”、“甲状腺疾病”与“心衰”,可以发现“高血压”、“冠心病”、“心脏病”与“房颤”4种投票在两类文本中都被筛选为适合标注的投票,因此这4种投票可以作为混合咨询文本与文章的标签对测试医生13进行标注。混合不同文本的标注结果如表9所示。

表9   混合不同文本的医生标注结果

Table 9  Doctor Tagging of Mixed Different Texts

测试医生标签
13高血压;冠心病;心脏病;房颤
21Null
28肺炎;咳嗽;哮喘;支气管炎;支气管扩张
35糖尿病;甲亢;甲减;甲状腺疾病
38Null
63哮喘;过敏

(注:Null表示混合不同文本为该测试医生标注的标签数量为0。)

新窗口打开| 下载CSV


对于测试医生21与38,虽然基于不同文本标注时为其产生了标签,但在利用混合标注方法时标签数为0,这说明按不同文本为医生标注的标签间相关性较低,即按照混合方法进行标注时没有选出同时适用于两种以上文本的投票,因此若要按混合标注方法对其进行标注也需要重新选择相应文本挖掘相似医生;对于测试医生13、28、35与63,利用混合标注也为其标注了标签,本文仅对这4位医生的标注结果进行分析,比较基于不同文本与混合不同文本的标注效果。

4.6 标注结果评估

本文采用召回率、准确率及F值对标注效果进行评估。

(1)召回率。对于10个测试医生,在采集数据时已为其各采集5个投票,召回率=标注的标签与原有投票相同数/5。

(2)准确率。在采集数据时仅为各测试医生采集5个投票,因此为了控制准确率,利用得到的词向量计算标注的标签与医生原有投票间的相似度,若标注标签与医生原有的5个投票中的某一个投票间相似度大于0.900,则认为该标注标签准确,准确率=准确标签数/标注标签总数。

(3)F值。F值=2×召回率×准确率/(召回率+准确率)。

对于10位测试医生的标注效果评估如表10所示。

表10   标注效果评估

Table 10  Evaluation of Tagging Effect

(注:Null表示该测试医生并未用对应类型文本进行标注。)

新窗口打开| 下载CSV


4.7 实验结果分析

表10所示,基于文章标题的标注效果较差,其召回率、准确率与F值都较低,根据对测试医生文章的分析,发现医生所发布的文章存在与其日常诊断范围相关性较弱或普遍性太强而不够专指等问题。例如,医生38发布的文章标题“ESTS会后随笔之外科与SABR”,为该医生参加国际医学会议ESTS后的随笔,与其日常诊断的疾病间相关性较低,以此寻找相似医生并进行协同标注所产生的标签不太符合实际;医生63发布的文章标题“不是所有的口唇肿都是唇炎查过敏原的注意事项…”,其日常诊断范围是“过敏”与“哮喘”等,文章与医生日常诊断的疾病间相关性较弱,且其中含有大量的描述性用语,降低了关键词的重要性,因此以该文章寻找相似医生并进行协同标注的效果也不太理想。此外,通过挖掘文章标题的语义信息寻找相似医生相较于基于咨询文本与咨询范围更为困难,这是因为文章标题中蕴含的语义信息较为丰富,对其进行人工标注或训练学习等步骤后才能更好地利用。

基于咨询文本的标注效果明显优于基于文章标题的标注效果,通过对相应的咨询文本进行分析,可以发现咨询文本因为是患者对医生发起的提问,所以其与医生日常的诊断范围通常会有较强的相关性,但是由于患者对疾病认识程度的不同或因患者自身存在的特殊性,其产生的咨询文本有时也会存在难以反映医生特征的问题。例如,医生13对应的咨询文本“睡眠不好,情绪不稳门诊患者目前:暂时没开”,该患者的提问只是对自身问题的简要描述且过于宽泛,因此用该文本寻找相似医生进行协调标注的效果较差;医生21对应的咨询文本“烟台肺栓塞患者诊后咨询烟台毓璜顶医院呼吸…”,该患者的提问中包含的与其疾病相关性较高的词只有“肺栓”,在文本中信息量占比较低,且该疾病的普遍性也较低,因此用该文本进行标注难以达到预期效果。

基于咨询范围的标注在三种基于单一文本的标注中效果最好,依据对咨询范围的分析,可以发现咨询范围是由医生自行撰写,与医生的诊断范围具有较高的相关性,因此通过其寻找相似医生并进行协调标注通常具有较好的效果,但医生较少对其咨询范围进行修改,故咨询范围也有可能与医生某一时间段内的诊断范围存在一定偏差。例如,医生29的咨询范围为“擅长各种肺炎、支气管炎等呼吸道感染性疾病,支气管哮喘…”,而其目前诊断较多的疾病为“小儿哮喘”与“小儿肺炎”等,咨询范围与医生目前诊断的疾病间相关性较低,影响到标注效果。

相较于基于单一文本进行标注,混合不同文本进行标注能有效提高标注的准确率,这是因为咨询文本通常体现患者的即时需求,文章主要体现医生的即时兴趣,咨询范围则体现医生对自身的认知,基于不同文本对医生进行标注体现了交叉验证的思想,若一个标签同时贴合患者的即时需求与医生对自身的描述,则该标签有较大概率与医生目前的诊断范围存在显著相关性。混合不同文本标注存在的问题则是标注的召回率较低,即较少有标签能同时满足多种限定条件。

本文采用的4种标注方式可以适用于不同的情景,基于咨询文本的标注主要是从患者需求角度出发,通过该类文本标注的标签通常与医生目前诊断的疾病间具有较强相关性;基于文章标题的标注则是从医生的兴趣出发进行标注,通过该类文本标注的标签虽然与医生的日常诊断范围存在较大差异,但能反映出医生所关注的领域信息,可以用于为医生推荐资源;基于咨询范围的标注从医生对自身的认识出发,因此用此类文本标注的标签准确率较高,但因医生较少对其修改,随着医生诊断方向的变化,标注的标签有时难以体现出医生目前的诊断范围;混合不同文本的标注考虑了多种因素,故标注的准确率较高,但标注的标签数量较少,因此该标注方法适用于帮助患者准确地认识医生,但对医生特征描述的全面性有待加强。

5 结语

本文提出一种基于Word2Vec的协同医生标注方法,旨在通过文本挖掘为医生寻找相似医生,借助相似医生的信息对目标医生进行协同标注,从而优化对医生特征的描述,使得患者能够更好地了解医生特征,同时也丰富了在线医疗平台中标签的数量。与其他领域不同,在医疗领域中,对信息的准确性具有较高要求,因此,本文提出多种医生标注方式,从而使得医生标注能够更好地满足实际需求。分别基于咨询文本、文章标题与咨询范围为医生挖掘相似医生,进行医生的协同标注,在标注时提出基于不同文本与混合不同文本的医生标注方法,面向不同的情景,可以选择利用不同的文本对目标医生进行标注,从而提高标注标签的质量。此外,以“好大夫在线”上的相关数据进行实证分析,对协同医生标注方法进行测试与验证,证明了本文方法的可行性与有效性。本文的不足之处在于,在为医生进行标注时,并未对医生的相关文本进行较为深入的分析,即没有提取出文本中最能表示医生特征的信息,未来将使用相关数据分析与挖掘方法对医生的相关文本进行详细分析,进一步提升医生标注的效果。

作者贡献声明

叶佳鑫:提出研究思路,设计研究方案,采集与处理数据,撰写与修订论文;

熊回香:论文选题,提出论文修改意见;

童兆莉:进行实验;

孟秋晴:论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据:

支撑数据由作者自存储,E-mail:jxye@mails.ccnu.edu.cn。

[1] 叶佳鑫,熊回香.YSBZSJ.rar. 图1图2表1-表3表5-表10的生成数据以及原始数据.

参考文献

孙国强, 由丽孪, 陈思, .

互联网+医疗模式的初步探索

[J]. 中国数字医学, 2015,10(6):15-18.

[本文引用: 1]

( Sun Guoqiang, You Liluan, Chen Si, et al.

Preliminary Exploration of Internet + Medical Model

[J]. China Digital Medicine, 2015,10(6):15-18.)

[本文引用: 1]

高山, 刘炜, 崔勇, .

一种融合多种用户行为的协同过滤推荐算法

[J]. 计算机科学, 2016,43(9):227-231.

[本文引用: 1]

( Gao Shan, Liu Wei, Cui Yong, et al.

Collaborative Filtering Algorithm Integrating Multiple User Behaviors

[J]. Computer Science, 2016,43(9):227-231.)

[本文引用: 1]

Huang Z X, Lu X D, Duan H L, et al.

Collaboration-based Medical Knowledge Recommendation

[J]. Artificial Intelligence in Medicine, 2012,55(1):13-24.

DOI:10.1016/j.artmed.2011.10.002      URL     [本文引用: 1]

Purpose: Clinicians rely on a large amount of medical knowledge when performing clinical work. In clinical environment, clinical organizations must exploit effective methods of seeking and recommending appropriate medical knowledge in order to help clinicians perform their work.
Method: Aiming at supporting medical knowledge search more accurately and realistically, this paper proposes a collaboration-based medical knowledge recommendation approach. In particular, the proposed approach generates clinician trust profile based on the measure of trust factors implicitly from clinicians past rating behaviors on knowledge items. And then the generated clinician trust profile is incorporated into collaborative filtering techniques to improve the quality of medical knowledge recommendation, to solve the information-overload problem by suggesting knowledge items of interest to clinicians.
Results: Two case studies are conducted at Zhejiang Huzhou Central Hospital of China. One case study is about the drug recommendation hold in the endocrinology department of the hospital. The experimental dataset records 16 clinicians' drug prescribing tracks in six months. This case study shows a proof-of-concept of the proposed approach. The other case study addresses the problem of radiological computed tomography (CT)-scan report recommendation. In particular, 30 pieces of CT-scan examinational reports about cerebral hemorrhage patients are collected from electronic medical record systems of the hospital, and are evaluated and rated by 19 radiologists of the radiology department and 7 clinicians of the neurology department, respectively. This case study provides some confidence the proposed approach will scale up.
Conclusion: The experimental results show that the proposed approach performs well in recommending medical knowledge items of interest to clinicians, which indicates that the proposed approach is feasible in clinical practice. (C) 2011 Elsevier B.V.

Jelassi M N, Yahia S B, Nguifo E M.

Towards More Targeted Recommendations in Folksonomies

[J]. Social Network Analysis and Mining, 2015, 5(1): Article No. 68.

DOI:10.1007/s13278-015-0307-8      URL     [本文引用: 1]

Bertram R, Schrimpf G, Stamm-Wilbrandt H.

System and Method for Item Recommendations: USA, US8700448B2

[P]. 2014-04-15.

[本文引用: 1]

熊回香, 杨雪萍.

社会化标注系统中的个性化信息推荐研究

[J]. 情报学报, 2016,35(5):549-560.

[本文引用: 1]

( Xiong Huixiang, Yang Xueping.

Personalized Information Recommendation Research Based on Combined Condition in Folksonomies

[J]. Journal of the China Society for Scientific and Technical Information, 2016,35(5):549-560.)

[本文引用: 1]

李枫林, 陈德鑫, 梁少星.

基于语义关联和情景感知的个性化推荐方法研究

[J]. 情报杂志, 2015,34(10):189-195.

[本文引用: 1]

( Li Fenglin, Chen Dexin, Liang Shaoxing.

Research on Personalized Recommendation Method Based on Semantic Association and Context Awareness

[J]. Journal of Intelligence, 2015,34(10):189-195.)

[本文引用: 1]

Chawda V L, Mahalle V S.

Learning to Recommend Descriptive Tags for Health Seekers Using Deep Learning

[C]//Proceedings of the 2017 International Conference on Inventive Systems and Control (ICISC). IEEE, 2017: 1-7.

[本文引用: 1]

Qassimi S, Abdelwahed E H, Hafidi M, et al.

A Graph-Based Model for Tag Recommendations in Clinical Decision Support System

[C]//Proceedings of the 8th International Conference on Model and Data Engineering. Springer, 2018: 292-300.

[本文引用: 1]

Qassimi S, Abdelwahed E H, Hafidi M, et al.

The Role of Recommender System of Tags in Clinical Decision Support

[C]// Proceedings of the 2018 International Conference on Advanced Intelligent Systems for Sustainable Development. Springer, 2018: 273-285.

[本文引用: 1]

魏建良, 朱庆华.

社会化标注理论研究综述

[J]. 中国图书馆学报, 2009,35(6):88-96.

[本文引用: 1]

( Wei Jianliang, Zhu Qinghua.

A Review of the Study of Social Tagging Theory

[J]. Journal of Library Science in China, 2009,35(6):88-96.)

[本文引用: 1]

向菲, 彭昱欣, 邰杨芳.

一种基于协同过滤的图书资源标签推荐方法研究

[J]. 图书馆学研究, 2018(15):46-52.

[本文引用: 1]

( Xiang Fei, Peng Yuxin, Tai Yangfang.

Research on a Book Resource Tag Recommendation Method Based on the Collaborative Filtering

[J]. Research on Library Science, 2018(15):46-52.)

[本文引用: 1]

成全.

基于协同标注的科研社区知识融合机制研究

[J]. 情报理论与实践, 2011,34(8):20-25.

[本文引用: 1]

( Cheng Quan.

Research on the Mechanism of Knowledge Integration in Research-oriented Community Based on Collaborative Annotation

[J]. Information Studies: Theory & Application, 2011,34(8):20-25.)

[本文引用: 1]

祝锡永, 周益辉, 李晟.

语义Web环境中基于本体推理的协同标注

[J]. 浙江理工大学学报, 2012,29(4):555-559.

[本文引用: 1]

( Zhu Xiyong, Zhou Yihui, Li Sheng.

Collaborative Annotation Based on Ontology Reasoning in Semantic Web Environment

[J]. Journal of Zhejiang Sci-Tech University, 2012,29(4):555-559.)

[本文引用: 1]

杜红乐, 滕少华, 张燕.

协同标注的直推式支持向量机算法

[J]. 小型微型计算机系统, 2016,37(11):2443-2447.

URL     [本文引用: 1]

在直推式支持向量机中,迭代过程中样本标注错误会导致错误传递,影响下一次迭代中样本标注准确度,使得错误不断的被积累,造成最终分类超平面的偏移,另外在传统单个分类器下,提高样本标注准确度与提高算法训练速度之间是矛盾的,无法得到兼顾.针对此,本文把投票机制和协同思想引入到直推式支持向量机中,提出一种协同标注的直推式支持向量机算法,利用多个分类器的投票结果对样本进行标注,提高样本标注的准确度,利用多个分类器进行协同训练提高算法的训练速度.最后实验结果表明,所提出算法能够利用投票机制和协同思想提高最终分类器的分类精度和算法的训练速度.

( Du Hongle, Teng Shaohua, Zhang Yan.

Transductive Support Vector Machine Based on Cooperative Labeling

[J]. Journal of Chinese Computer Systems, 2016,37(11):2443-2447.)

URL     [本文引用: 1]

在直推式支持向量机中,迭代过程中样本标注错误会导致错误传递,影响下一次迭代中样本标注准确度,使得错误不断的被积累,造成最终分类超平面的偏移,另外在传统单个分类器下,提高样本标注准确度与提高算法训练速度之间是矛盾的,无法得到兼顾.针对此,本文把投票机制和协同思想引入到直推式支持向量机中,提出一种协同标注的直推式支持向量机算法,利用多个分类器的投票结果对样本进行标注,提高样本标注的准确度,利用多个分类器进行协同训练提高算法的训练速度.最后实验结果表明,所提出算法能够利用投票机制和协同思想提高最终分类器的分类精度和算法的训练速度.

杜红乐, 张燕.

基于聚类和协同标注的TSVM算法

[J]. 河南科学, 2017,35(1):22-27.

[本文引用: 1]

( Du Hongle, Zhang Yan.

Transductive Support Vector Machine Algorithm Based on Cluster and Cooperative Labeling

[J]. Henan Science, 2017,35(1):22-27.)

[本文引用: 1]

Mikolov T, Sutskever I, Chen K, et al.

Distributed Representations of Words and Phrases and Their Compositionality

[C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. 2013,2:3111-3119.

[本文引用: 1]

熊富林, 邓怡豪, 唐晓晟.

Word2Vec的核心架构及其应用

[J]. 南京师范大学学报: 工程技术版, 2015,15(1):43-48.

[本文引用: 1]

( Xiong Fulin, Deng Yihao, Tang Xiaosheng.

The Architecture of Word2Vec and Its Applications

[J]. Journal of Nanjing Normal University: Engineering and Technology Edition, 2015,15(1):43-48.)

[本文引用: 1]

Zhu Y, Yan E, Wang F.

Semantic Relatedness and Similarity of Biomedical Terms: Examining the Effects of Recency, Size, and Section of Biomedical Publications on the Performance of Word2Vec

[J]. BMC Medical Informatics and Decision Making, 2017, 17: Article No. 95.

DOI:10.1186/1472-6947-12-95      URL     PMID:22947211      [本文引用: 1]

BACKGROUND: Decisions concerning drug safety and efficacy are generally based on pivotal evidence provided by clinical trials. Unfortunately, finding the relevant clinical trials is difficult and their results are only available in text-based reports. Systematic reviews aim to provide a comprehensive overview of the evidence in a specific area, but may not provide the data required for decision making. METHODS: We review and analyze the existing information systems and standards for aggregate level clinical trials information from the perspective of systematic review and evidence-based decision making. RESULTS: The technology currently used has major shortcomings, which cause deficiencies in the transfer, traceability and availability of clinical trials information. Specifically, data available to decision makers is insufficiently structured, and consequently the decisions cannot be properly traced back to the underlying evidence. Regulatory submission, trial publication, trial registration, and systematic review produce unstructured datasets that are insufficient for supporting evidence-based decision making. CONCLUSIONS: The current situation is a hindrance to policy decision makers as it prevents fully transparent decision making and the development of more advanced decision support systems. Addressing the identified deficiencies would enable more efficient, informed, and transparent evidence-based medical decision making.

Xu C, Liu D.

Chinese Text Summarization Algorithm Based on Word2Vec

[C]//Proceedings of the 2018 International Conference on Control Engineering and Artificial Intelligence. IOP Publishing, 2018,976:012006.

[本文引用: 1]

好大夫在线简介

[EB/OL]. [2019-07-24]. https://www.haodf.com/info/aboutus.php.

URL     [本文引用: 1]

(

An Introduction of “Hao Daifu”

[EB/OL]. [2019-07-24]. https://www.haodf.com/info/aboutus.php. )

URL     [本文引用: 1]

好大夫在线

[EB/OL]. [2019-07-03]. https://www.haodf.com/.

URL     [本文引用: 1]

(

Hao Daifu

[EB/OL]. [2019-07-03]. https://www.haodf.com/. )

URL     [本文引用: 1]

李心蕾, 王昊, 刘小敏, .

面向微博短文本分类的文本向量化方法比较研究

[J]. 数据分析与知识发现, 2018,2(8):41-50.

[本文引用: 1]

( Li Xinlei, Wang Hao, Liu Xiaomin, et al.

Comparing Text Vector Generators for Weibo Short Text Classification

[J]. Data Analysis and Knowledge Discovery, 2018,2(8):41-50.)

[本文引用: 1]

陈梅梅, 薛康杰.

基于改进张量分解模型的个性化推荐算法研究

[J]. 数据分析与知识发现, 2017,1(3):38-45.

[本文引用: 1]

( Chen Meimei, Xue Kangjie.

Personalized Recommendation Algorithm Based on Modified Tensor Decomposition Model

[J]. Data Analysis and Knowledge Discovery, 2017,1(3):38-45.)

[本文引用: 1]

徐文青, 双林平.

融合热门度因子基于标签的个性化图书推荐算法

[J]. 图书情报研究, 2015,8(3):82-86.

[本文引用: 1]

( Xu Wenqing, Shuang Linping.

Personalized Tag-based Book Recommendation Algorithm Combined with the Factor of Popularity

[J]. Library and Information Studies, 2015,8(3):82-86.)

[本文引用: 1]

/

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn