Advanced Search

数据分析与知识发现, 2020, 4(2/3): 153-164 doi: 10.11925/infotech.2096-3467.2019.0633

专辑

一种融合患者咨询文本与决策机理的医生推荐算法*

叶佳鑫, 熊回香,,, 蒋武轩

华中师范大学信息管理学院 武汉 430079

A Physician Recommendation Algorithm Integrating Inquiries and Decisions of Patients

Ye Jiaxin, Xiong Huixiang,,, Jiang Wuxuan

School of Information Management, Central China Normal University, Wuhan 430079, China

通讯作者: 熊回香,ORCID:0000-0001-9956-3396,E-mail:hxxiong@mail.ccnu.edu.cn

收稿日期: 2019-06-10   修回日期: 2019-07-31   网络出版日期: 2020-02-25

基金资助: *本文系华中师范大学中央高校基本科研业务费(人文社科类)重大项目“基于语义网的在线健康信息的挖掘与推荐研究”.  CCNU19Z02004
华中师范大学优秀博士学位论文培育计划项目的研究成果之一.  2019YBZZ096

Received: 2019-06-10   Revised: 2019-07-31   Online: 2020-02-25

摘要

【目的】 研究患者选择医生时的决策机理,构建融合患者决策机理的医生推荐方法,提升医生推荐的效果。【方法】 利用Word2Vec训练词向量模型计算患者与医生间基于文本的相似度,得到基于咨询文本的医生评分。以因子分析为基础,分析影响患者选择医生时的决策因素,得到基于患者决策机理的医生评分,融合两种评分实现医生推荐。【结果】 以“好大夫在线”上的相关数据为例对所提医生推荐算法进行实证研究,在进行医生推荐时同时考虑了患者与医生间的文本相似度与患者的决策因素,推荐的医生更为符合患者实际需求。【局限】 患者的历史决策行为有待进一步分析,在推荐时主要是面向单一患者进行推荐,时间成本较高。【结论】 本文所提方法适用于进行医生的精准推荐,能有效满足患者需求。

关键词: 医生推荐 ; 决策机理 ; Word2Vec ; 在线医疗平台

Abstract

[Objective] This paper investigates the decision-making mechanism of patients choosing doctors, aiming to build a better physician recommendation system.[Methods] First, we used Word2Vec to train the word vector model, and calculated the similarity between patients and doctors. Then, we analyzed the decision-making behaviors of patients choosing doctors. Finally, we combined the scores of doctors based on their similarity with patient needs and the latter’s decision mechanism to generate a recommended list.[Results] We conducted an empirical study with data from “Hao Daifu (Great Doctors)”. The proposed algorithm could help patients find doctors meeting their needs.[Limitations] The patient’s decision-making history needs to be analyzed. Our recommendation algorithm is for a single patient, which is costly.[Conclusions] The proposed method could recommend appropriate doctors meeting patient’s needs.

Keywords: Doctor Recommended ; Decision Mechanism ; Word2Vec ; Online Medical Platform

PDF (771KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

叶佳鑫, 熊回香, 蒋武轩. 一种融合患者咨询文本与决策机理的医生推荐算法*. 数据分析与知识发现[J], 2020, 4(2/3): 153-164 doi:10.11925/infotech.2096-3467.2019.0633

Ye Jiaxin. A Physician Recommendation Algorithm Integrating Inquiries and Decisions of Patients. Data Analysis and Knowledge Discovery[J], 2020, 4(2/3): 153-164 doi:10.11925/infotech.2096-3467.2019.0633

1 引 言

互联网的发展推动了医疗模式的变革,互联网与医疗的结合是优化传统医疗模式的需要,是创新医疗服务新模式的基石[1]。国务院办公厅于2018年发布“关于促进‘互联网+医疗健康’发展的意见”,提出“健全‘互联网+医疗健康’服务体系”、“完善‘互联网+医疗健康’支撑体系”等具体要求[2]。在“互联网+医疗健康”的发展过程中,建立一个功能完善、使用便捷的在线医疗平台满足患者与医护人员之间的交流无疑具有重大的现实意义。早期,在线医疗平台上的患者往往会通过关键词查询的方式寻找医生及医疗资源[3,4]。而随着网络平台上信息数量的逐渐增长,传统查询方式越来越难以满足平台上患者的实际需求,查询结果常常会存在内容不全面、偏离患者预期需求等问题,难以按照患者的实际需求为其推荐相应的医生与其他医疗资源。

为更好地满足患者需求,为患者推荐能满足其实际需要的医生,本文提出一种综合考虑患者咨询文本与患者决策机理的医生推荐算法。考虑到影响患者决策的一般因素(信用、服务、时间、评论等)[5,6,7,8,9],以及患者选择医疗资源时的参考因素(诊断费用、医生职称、好评、感谢信等)[10],选取患者咨询文本、医生职称、诊断费用、总访问量、注册时间等多项数据进行医生推荐算法研究。利用患者当前咨询文本表示患者兴趣特征,用医生历史诊断过的患者咨询文本表示医生特征,以Word2Vec训练词向量模型,并利用词向量模型从文本中提取患者与医生的特征计算医患间的相似度,以此作为基于咨询文本的医生评分;结合因子分析方法分析患者选择医生时的决策机理,得到决策机理的医生评分;最后,将两个评分进行整合得到医生的最终评分,并依据评分向患者推荐符合其实际需求的医生。

2 研究现状

近年,相关研究已开始尝试将推荐技术应用于医生及其他医疗资源的推荐。Huang等使用层次分析法对医生的接待、预约等数据进行分析并建立医生绩效相关的特征模型,分析患者就诊时选择的部门与医院并建立患者特征模型,将患者模型与医生模型进行匹配实现医生推荐[11];Jiang等提出一种混合推荐框架,计算患者咨询文本与医生特征的相似度,衡量医生水平,并对两者进行整合,结合层次分析法为患者寻找与其疾病及偏好相关的医生[12];徐守坤等为实现医疗资源的合理分配,提出一种融合语义本体技术与推理规则的医生推荐算法[13];李勇等将基于内容的推荐算法与协同过滤算法进行混合并用于医疗资源推荐,推荐准确度较高[14];Tian等提出一种以对抗神经网络为基础的医生推荐模型,结合卷积神经网络与多层神经网络预测医生与患者间的相似性从而进行推荐[15]

目前方法主要是通过挖掘医生的相关绩效指标与患者的咨询文本实现推荐,这些方法在推荐时虽然实现了患者与医生在疾病特征上的匹配,但也存在对患者实际需求考虑不充分的问题,未深入分析患者的医生选择行为。而由于患者选择医生的行为存在一定的复杂性与多样性,直接使用传统的推荐算法会出现医生与用户需求匹配度不高的问题。通过分析用户选择医生时的行为(如在线咨询、预约挂号等)对传统算法进行改进,是提升医生推荐效果的途径之一[16]。但目前研究在进行医生推荐时较少考虑患者选择医生时的决策因素,而为患者推荐的医生既应考虑到医生擅长的疾病范围,又应考虑到患者选择医生时的其他参考因素[17,18],即为了向患者推荐切实符合其需求的医生,很有必要对患者选择医生时的决策机理进行分析。

3 推荐框架描述

本文构建的医生推荐模型框架包含数据收集与预处理模块、基于患者咨询文本的医生评分模块、基于患者决策机理的医生评分模块与医生推荐模块等部分,具体如图1所示。

图1

图1   医生推荐模型框架

Fig.1   Doctor Recommendation Framework


将收集的数据分为患者咨询文本与医生基本数据,对于收集到的患者咨询文本,在对其进行分词、去停用词等预处理工作后,以Word2Vec模型对其进行训练,得到咨询文本中每个词的向量,然后从每个患者的咨询文本中提取患者特征,从医生历史诊断过的患者咨询文本中提取医生特征,计算医患间的特征相似度进行基于咨询文本的医生评分。对于收集到的医生基本数据,在对其进行数据清洗、数据规范化等预处理后,以其为基础进行因子分析,在因子分析的基础上分析不同因子对患者决策的影响,进行基于决策机理的医生评分。最后综合基于咨询文本与决策机理的医生评分,进行医生个性化推荐。

4 数据来源与处理

4.1 数据收集

笔者从“好大夫在线”上选择较为热门的疾病门类“支气管炎”,获取医生相关数据,最后共采集到305位医生的相关数据,具体数据项包括:姓名、职称、对应患者数(与医生相关且采集到咨询文本的患者数)、诊断费用、总访问量、总文章数、总患者数(医生在平台上总共接诊的患者人数)、诊后报道数、感谢信数、心意礼物数、注册时间、患者对话数、医生对话数,如表1所示。为每位医生采集对应的患者数量为0-30名,总共采集到3 125位患者的相关咨询文本,患者咨询文本如表2所示。

表1   医生基本信息数据集(① https://www.haodf.com/jibing/zhiqiguanyan.htm.)(共305位)

Table 1  Basic Doctor Data(305 in Total)

姓名职称对应
患者数
(人)
诊断
费用
(元)
总访
问量
(次)
总文章数(篇)总患者数(人)诊后
报道数
(人)
感谢
信数
(个)
心意
礼物数
(个)
注册
时间(年)
患者
对话数
(个)
医生
对话数
(个)
左晟副主任21206 3411112110162018369153
朱奇志副主任164050 939260019201331189
朱蓬燕主治81546 75726823395201716866
朱保主治010263 45602 3482 1687723320161 875623
周忠辉副主任182039 117181677312018266116
周云芝主任8801 118 74571 1671349432009374151
周文胜主任193099 496217810014132017315104
安建峰副主任6601 301 69902 7781 602741642009463203

(注:诊断费用为“好大夫在线”的图文问诊费用;注册时间仅显示注册年,但后续计算中会具体到注册日。数据采集时间为2019-05-12。)

新窗口打开| 下载CSV


表2   患者咨询文本数据集(共3 125个)

Table 2  Patient Consultation Text Data (3 125 in Total)

医生姓名文本序号咨询文本
左晟1吸烟后胸闷,感觉有东西压迫,呼吸较费力,一天一包烟左右,一旦不抽烟症状会有所减轻,一抽烟就有胸闷,持续了大约三天了,症状之前没有发生过,去年10月左右检查过心电图,今年2月也拍过胸片……
左晟2半个月之前感冒咳嗽,之前咳嗽有痰,吃了药,还挂了头孢,虽然现在没痰了,但是咳嗽一直没好全,现在早上和晚上睡都不咳,就是中午到下午这段时间干咳无痰,有时候张口说话就忍不住想咳嗽……
左晟3不咳嗽,就是早晨感觉胸口有痰,使劲刻出来,是浓黄色,有时是褐色,中午和晚上吃过饭,自己主动把他刻出来,是白色比较稀。鼻涕是浓白涕,难擤出来,出来都一小块,一小块……
安建峰3 125诊后治疗和康复相关问题

新窗口打开| 下载CSV


4.2 数据预处理

对于表1中的数据,为从患者咨询文本中提取医生相关特征,剔除对应患者数在5名以下的医生,最终得到201位医生的相关数据,数据集中有一位医生缺失诊断费用数据,也将其剔除,最后保留200位医生的相关数据。同时,为更好地分析用户决策机理,需要对部分数据进行加工处理,具体如下。

(1)统计医生注册时间到数据采集时间的天数作为医生注册天数;

(2)利用总访问量、总患者数与注册天数计算出平均每天访问量与平均每天患者数,用以表示医生的平均热度;

(3)以医生对话数除以患者对话数得到医患对话比用以表示医生的对话活跃度;

(4)医生的职称从高到低分为主任医师、副主任医师、主治医师与住院医师,将其转换为数字表示,主任医师为3,副主任医师为2,主治医师、住院医师为1(因主治医师、住院医师数量较少故将其都转换为1)。处理后的医生基本信息数据集如表3所示。

表3   医生基本信息集(共200位)

Table 3  Basic Doctor Information(200 in Total)

姓名职称诊断费用(元)总访问量
(次)
总文章数(篇)总患者数(人)诊后报道数(人)感谢信数(个)心意礼物数(个)注册天数(天)平均每天
患者数(人)
平均每天
访问量(次)
医患
对话比
左晟2206 3411112110163730.32417.0000.415
朱奇志24050 9392600192 1100.02824.1420.286
朱蓬燕11546 757268233958420.09755.5310.393
周忠辉22039 117181677313320.503117.8220.436
周云芝3801 118 74571 1671349433 4960.334320.0070.404
周文胜33099 496217810014137530.236132.1330.330
周凤丽240406 16331 017542362013 8410.265105.7440.429
安建峰2601 301 69902 7781 602741643 6880.753352.9550.438

新窗口打开| 下载CSV


对于表3中的医生,首先分析其在表2中对应的患者咨询文本,发现每位患者的咨询文本数都在10以上,为避免患者咨询文本间字符数相差过大而对后续基于词向量的相似度计算造成影响,将所有患者的咨询文本进行截取,截取最靠前的文本(靠前的文本通常与患者需求关系较大),每个文本取前25个字符(计1个汉字或1个符号为1个字符,若文本字符数不足25则取整条文本)。每位医生对应患者数为5-30,200位医生共对应2 830位患者,得到2 830条字符数在10-25之间的咨询文本(据统计,2 830条咨询文本中长度最短的文本字符数为10)。此外,在截取字符时发现患者经常以日期开头,而日期表示的患者需求特征较少,故在截取前将其作为停用词去除(去除1-9等数字),患者咨询文本数据集如表4所示。

表4   患者咨询文本数据集(共2 830个)

Table 4  Patient Consultation Text Data (2 830 in Total)

医生姓名文本序号咨询文本
左晟1吸烟后胸闷,感觉有东西压迫,呼吸较费力,一天一包烟
左晟2半个之前感冒咳嗽,之前咳嗽有痰,吃了药,还挂了头孢
左晟3不咳嗽,就是早晨感觉胸口有痰,使劲刻出来,是浓黄色
左晟4几年前查出有轻微的肺结核,医生说没事,去单位体检的
左晟5咳嗽好长时间了,春节前一次感冒引起的咳嗽一直到现在
陈安琪2 830头晕恶心眼痛困乏颈椎不舒服

新窗口打开| 下载CSV


本文的推荐算法需要用到Word2Vec词向量模型,词向量模型的效果与所选训练语料具有较大关系,将常用的维基百科语料与“好大夫在线”的文本作为语料进行对比,发现将“好大夫在线”的文本作为本研究的语料进行词向量模型训练具有较好的效果。因此,选取“好大夫在线”的文本作为语料进行词向量模型训练,语料为305位医生所对应的3 125条患者咨询文本。同时,考虑到对咨询文本进行字数截取后,咨询文本中的词语会发生一定变化,故将截取后的2 830位患者的咨询文本也作为训练文本,最后共得到5 955条文本作为词向量训练语料。

5 基于患者咨询文本的医生评分

本文基于咨询文本分析患者及医生的相似度,在进行相似度计算时主要以Word2Vec为基础。Word2Vec本质上是一种基于词嵌入的算法,以上下文信息为基础将词转换为低维的实数向量,将以万为单位的词特征约简到几百至几十维度,解决了维度灾难问题,并且能使得语义相似的词具有相似的向量表达,以其为基础计算词之间的相似度能取得不错的效果[19,20]

Word2Vec主要分为CBOW(Continuous Bag-of-Word)模型与Skip-Gram模型,其中,CBOW模型以给定的上下文为基础预测目标词的信息;Skip-Gram则通过输入一个词,预测出现在其上下文的词。相对而言,CBOW模型适合处理小型语料,而Skip-Gram模型则在大型语料中具有更好的表现[21,22]。由于所用训练集采集自“好大夫在线”,语料较小,故本次实验采用CBOW模型。

5.1 Word2Vec模型训练

利用Python的Gensim工具包对语料进行训练,在训练时选择CBOW模型,考虑到本文训练语料规模较小,将词向量维度设置为100。使用Jieba分词器对训练语料进行分词处理,随后进行词向量模型训练,得到语料中所有词的词向量,如表5所示。

表5   训练词语的词向量

Table 5  Word Vector of Training Words

词语

维度
1234100
V咳嗽-1.0330.2850.8210.422-0.400
V发烧0.310-0.5684.438-0.498-0.423
V发炎0.188-1.073-0.4160.496-1.078
V支气管0.1241.828-0.3810.888-1.179
V感冒1.294-1.8271.5920.642-3.470

新窗口打开| 下载CSV


在训练得到Word2Vec词向量模型后,选择“咳嗽”、“发烧”、“发炎”与“支气管”4个具有较强代表性的词语作为测试词,计算测试词与其他词语间的相似度对词向量效果进行评价,与所选评测词相似度较高的词语如表6所示。

表6   基于词向量模型的词语相似度

Table 6  Word Similarity Based on Word Vector Model

测试词

词语
词语1相似度词语2相似度词语3相似度
咳嗽干咳0.8640.732流鼻涕0.660
发烧退0.796低烧0.795高烧0.765
发炎扁桃体0.856化脓0.879流涕0.743
支气管扩张0.843管壁0.769肺气肿0.749

新窗口打开| 下载CSV


可以看出,训练得到的词向量模型具有不错的效果,以“咳嗽”为例,与其相似度最高的词语分别为“干咳”、“咳”与“流鼻涕”。利用训练得到的模型计算词之间的相似度较为符合预期结果,可以作为后续研究的基础。

5.2 医生与患者特征表示

(1) 医生特征表示

对于表3中的每位医生,其对应的患者数都在5位以上,且每位医生对应的患者数量不一定相同。为对患者数量进行一致化处理,为每位医生都选取5位时间排序靠前的患者,共选取5×200位患者,从患者的历史咨询文本中提取医生特征。具体方法是,在对5位患者的咨询文本进行分词处理的基础上,利用得到的词向量模型将咨询文本中的词转换为向量表示,并对词向量取平均值进行整合得到咨询文本的句向量[23],用句向量表示医生特征,每个医生对应5个句向量,如表7所示。

表7   医生特征表示示例(共200位)

Table 7  Doctor Characteristic(200 in Total)

医生姓名文本序号句向量
左晟1(V吸烟+V+V胸闷+…+V)/文本词数
2(V半个+V之前+V感冒+…+V头孢)/文本词数
3(V+V咳嗽+V早餐+…+V黄色)/文本词数
4(V几年+V查出+V轻微+…+V)/文本词数
5(V咳嗽+V好长时间+V春节+…+V现在)/文本词数
陈安琪1(V感觉+V感冒+V+…+V)/文本词数
2(V有次+V感觉+V左腹+…+V)/文本词数
3(V之前+V检查+V血糖+…+V)/文本词数
4(V+V失眠+V入睡+…+V)/文本词数
5(V怀孕+V+V今天+…+V)/文本词数

新窗口打开| 下载CSV


(2) 患者特征表示

在得到200位医生的特征表示后,从200位医生中分别选出职称为3、2、1的医生各10位,共选取30位医生,并为这30位医生各选取一位当前选择其咨询的患者,采集每位患者的当前咨询文本,共选出30位患者作为测试患者,利用得到的词向量模型对咨询文本中的词进行向量转换,整合得到句向量,用句向量表示测试患者特征,如表8所示。

表8   测试患者数据集示例(共30位)

Table 8  Testing Patient Data(30 in Total)

测试患者序号医生姓名职称句向量
1欧阳文献3(V验血+V常规+V巨细胞+…+V定量)/文本词数
2周云芝3(V平时+V+V吹风+…+V刺激性)/文本词数
3周文胜3(V医生+V您好+V半个+…+V)/文本词数
4赵琪2(V第一次+V咳血+V治疗+…+V详细资料)/文本词数
30秦少文1(V婆婆+V慢性+V支气管炎+…+V咳嗽)/文本词数

新窗口打开| 下载CSV


5.3 医生评分计算

利用咨询文本得到医生及测试患者的特征表示后,计算医生及测试患者之间的文本相似度得到基于咨询文本的医生评分。每一位医生与测试患者间的相似度计算如公式(1)所示。

sim(Dn,Um)=sim(Oni,Om)++sim(On5,Om)5

其中, sim(Dn,Um)表示医生n与测试患者m间的相似度, Oni表示医生n对应的第i个咨询文本向量, Om表示患者m的咨询文本向量,每个医生的特征用其对应的5个咨询文本的词向量来表示,则医生与测试患者间的相似度等于其对应的每个咨询文本与测试患者的咨询文本间相似度的均值,简称为医患相似度。在计算相似度时按照医生的职称高低从3到1对医生进行排序与编号,利用公式(1)得到医患相似度如表9所示。

表9   医生与测试患者间相似度示例

Table 9  Similarity Between Doctor and Testing Patient

医生姓名医生序号医生对应文本测试
患者1
测试
患者2
测试
患者30
欧阳文献110.5900.0610.272
20.5370.2210.262
30.4660.4790.089
40.6920.0780.044
50.6550.4470.364
均值0.5880.2570.206
陈安琪20010.2510.6610.389
20.4930.4200.205
30.7270.2610.245
40.2620.6300.314
50.3690.5350.480
均值0.4200.5000.327

新窗口打开| 下载CSV


表9显示了医生对应文本与测试患者文本间相似度,该相似度的均值为医患相似度,例如医生“欧阳文献”与测试患者1间的相似度为0.588。在得到医患相似度后,为对医患间关系进行更好的展示,按每个医生与测试患者间的相似度大小对医生进行相似度排序并打分,200个医生排序后得分编号为1-200,按相似度大小对医生进行打分,与测试患者间相似度最大的医生编号为1,其得分为199,与测试患者间相似度最小的医生编号为200,其得分为0。为便于计算,对基于相似度的医生得分进行归一化处理,如公式(2)所示。

X'=(X-Xmin)(Xmax-Xmin)

其中, X'为经归一化处理后的 X值, XmaxXmin分别为序列中得分的最大值与最小值,对基于相似度的医生评分调整中 Xmax统一为199, Xmin统一为0。经过归一化处理后的医生评分结果如表10所示。

表10   基于咨询文本的医生评分示例

Table 10  Doctor’s Score Based on Consultation Text

测试患者1测试患者2测试患者30
医生序号医生得分医生序号医生得分医生序号医生得分
151.0001161.0001861.000
480.9951680.995110.995
1580.9901650.9901140.990
890.9851030.985300.985
10.980110.980690.980
770.975740.975790.975
1960.9701460.970870.970
30.965710.965160.965
610.960650.9601100.960
1160.0001580.0001570.000

新窗口打开| 下载CSV


表10中加粗数据表明患者在“好大夫在线”上实际选择的医生。为清晰地展示患者实际选择的医生所得评分,将表10中的数据提取部分进行展示,结果如表11所示。表11显示了测试患者及其实际选择的医生间基于患者咨询文本的得分情况,其中“患者序号”对应表8中的测试患者序号,“医生序号”对应表9中的医生序号,“得分排序”为测试患者实际选择的医生在基于咨询文本的医生评分中的排序序号,“得分”为经过转换后的基于患者咨询文本的医生-测试患者得分。

表11   测试患者选择的医生得分

Table 11  Score of Doctor Selected by the Testing Patient

患者序号医生序号医生得分排序得分患者序号医生序号医生得分排序得分
1011张铭正11.00022周云芝590.709
1296朱奇志11.00016101赵海金650.678
15100赵晓刚11.0001397周忠辉680.663
17102张彦亮20.995910张念志730.638
11欧阳文献50.98066张伟870.568
30183秦少文160.92544赵琪890.558
19104张鸿180.91588张齐武940.533
55张炜310.84928181涂波970.518
26179温鹏330.83929182邵川1060.472
18103张晓阳420.79433周文胜1160.422
1195左晟470.76927180王红星1260.372
21174朱蓬燕520.7441498钟爱虹1370.317
22175仲敏520.74424177张凤1370.317
77张斯为530.73923176张永明1520.241
25178徐汝洪580.71420105张方1670.166

新窗口打开| 下载CSV


5.4 测试结果分析

表11可以看出,在基于咨询文本的医生评分中,30位测试患者实际所选择的医生中有三位得分为1,即按照咨询文本进行推荐时这三位医生会被首先推荐,此外在30位测试患者中共有16位患者选择的医生得分在0.700以上,说明按照咨询文本进行推荐时这些医生在推荐序列中排序靠前。为对基于患者咨询文本的医生评分结果进行详细分析,从表11中选出患者序号为10的患者数据进行展示,相关数据如表12所示。

表12   测试患者10相关数据

Table 12  Data of Testing Patient No.10

患者10
咨询文本
推荐
医生
医生对应患者对应患者咨询文本
两个宝宝咳嗽打喷嚏鼻塞吐奶吃奶胃口不好张铭正对应患者1宝宝睡着咳嗽怎么回事起来玩耍不咳嗽
对应患者2婴儿咳嗽口臭原因药能好得快
对应患者3宝宝咳嗽厉害十天希望早点得到好治疗
对应患者4咳嗽喘喘得挺厉害抗生素过敏
对应患者5反复咳嗽流鼻涕不发烧

新窗口打开| 下载CSV


表12中显示了测试患者10的咨询文本,以及按照与其相似度评分得分最高的医生姓名、医生对应的患者及其咨询文本。测试患者10的咨询文本与医生“张铭正”所对应的患者文本间具有很强的关联性,即都与“宝宝”、“咳嗽”等相关,基于咨询文本进行医生评分具有不错的效果。但是,表11中也有部分测试患者所选医生得分较低,这说明仅按照文本相似度进行医生推荐与患者实际就诊时的决策机理存在一定差异,即患者可能会考虑其他因素选择医生,下文将对影响患者决策的因素进行分析,从而适当改进医生评分结果,并完成医生推荐。

6 基于决策机理的医生评分

在基于咨询文本医生评分的基础上,以因子分析为基础对患者选择医生时的决策机理进行分析,并对医生评分。因子分析是一种将多个变量转换为少数几个不相关的综合指标的统计方法,可以理解为一种将可能存在相关关系的变量进行特征提取并形成综合变量的方法[24]

本文利用因子分析挖掘影响患者选择医生的因素间的相关关系,通过因子分析将关联较强的因子进行合并,形成各主因子,分析不同主因子对患者决策的影响,并以患者决策机理对医生进行评分。

6.1 决策因子分类

利用SPSS 20.0统计分析软件对表3中的数据集进行因子分析,考虑到“总患者数”表示的是选择医生的总人数,在一定程度上反映患者决策后的结果,因此将“总患者数”作为因变量,其他变量作为自变量,对自变量进行因子分析。同时,为明确各因子的关系,对因子载荷矩阵进行因子旋转,在进行矩阵旋转时为提取特征量较大的因子,设置仅提取系数绝对值不小于0.5的数值。得到旋转后的矩阵如表13所示。

表13   旋转后因子载荷矩阵

Table 13  Rotated Factor Load Matrix

因子

主因子
1234
平均每天访问量0.894
总访问量0.884
总文章数0.733
平均每天患者数0.6550.644
诊后报道数0.867
感谢信数0.808
心意礼物数0.791
注册天数0.767
职称0.691
诊断费用0.523
医患对话比0.861

(注:对于因子分析的结果,用KMO和Bartlett进行检验,得到KMO的值为0.702,大于0.600的可接受水平;Bartlett检验中,显著性值p=0.000<0.050,表明所选样本数据适用于因子分析。)

新窗口打开| 下载CSV


11个因子共生成了4个主因子,其中除“平均每天患者数”外其余因子都只在某一个主因子中占有较大特征比重,对于“平均每天患者数”考虑到其与因变量“总患者数”间具有较大相关性,将其加入多个主因子可能会造成某一因素的过度考量,因此仅保留其系数较大的一项,即仅保留其在主因子1中的影响系数。此外,通过分析表13中的数据,发现“诊断费用”与主因子3存在正相关关系,即“诊断费用”升高时会提升主因子3的数值,考虑到患者在选择医生有较大可能选择“诊断费用”较低的医生,故在4个主因子外加入“负诊断费用”因子来描述“诊断费用”降低时的情况(“负诊断费用”取值与“诊断费用”相反),用于进一步分析“费用”对患者决策的影响。

最后共得到5个主因子,对于主因子中的每个因子按其系数大小来分配其在主因子中的影响权重,并使得主因子中各组成因子的权值和为1,进行权值分配后的因子矩阵如表14所示。

表14   因子权值矩阵

Table 14  Factor Weight Matrix

主因子因子-权值
主因子1平均每天访问量-0.282;总访问量-0.279;总文章数-0.232;平均每天患者数-0.207
主因子2诊后报道数-0.351;感谢信数-0.328;心意礼物数-0.321
主因子3注册天数-0.387;职称-0.349;诊断费用-0.264
主因子4医患对话比-1
主因子5负诊断费用-1

新窗口打开| 下载CSV


6.2 医生评分计算

在对决策因子进行分类后,利用所得的5个主因子对医生进行打分。分析表3中的各项数据发现在“诊断费用”上具有较多相同数据,对“诊断费用”上的相同数据归并处理,将费用分为6-10、11-30、31-70、71-150、150-250及250以上6个等级。随后,分别按医生在各单因子的数值从大到小对医生进行排序与打分,200个医生排序后编号为1-200,在各项因子上数值最大的医生序号为1,其在该因子上的得分为1,在各项因子上数值最小的医生序号为200,其在该因子上的得分为0。为便于计算,按公式(2)对各因子上的医生得分进行归一化处理,并对医生在各因子上的得分进行整合,结果如表15所示。

表15   基于各因子的医生得分

Table 15  Score of Doctor Based on Factors

因子医生平均每天访问量总访
问量
总文
章数
诊断
费用
负诊断费用
欧阳文献0.7290.6930.0130.6000.400
周云芝0.5430.6830.0080.6000.400
周文胜0.3220.1910.0020.2000.800
赵琪0.6780.7940.0350.2000.800
张炜0.8940.9100.0760.6000.400
陈安琪0.1710.0550.0050.0001.000

新窗口打开| 下载CSV


表15显示了基于各因子的医生得分情况,各因子之间可能存在一定的相关性,相关性较强的因子之间会从相似方面对患者决策造成影响,因此,在得到基于各因子的得分后将其与表14中的因子间权值矩阵进行整合,从而得到归并相似因子的医生得分。考虑因子在各主因子中所占权重以及基于各因子的医生得分得到基于各主因子的医生得分,即将表14表15中的数据进行矩阵相乘后得到医生得分,结果如表16所示。

表16   基于各主因子的医生得分

Table 16  Score of Doctor Based on Main Factor

医生主因子1主因子2主因子3主因子4主因子5
欧阳文献0.7010.8950.6730.2210.400
周云芝0.5050.3850.7970.5630.400
周文胜0.2450.3210.4560.1710.800
赵琪0.7400.2790.7540.9300.800
张炜0.8550.6180.8940.5230.400
陈安琪0.1980.0510.0040.9901.000

新窗口打开| 下载CSV


7 医生推荐及结果分析

7.1 医生推荐

得到基于咨询文本与决策机理的医生评分后,将两者进行整合,据此结果进行医生推荐。为更好地验证整合之后医生推荐的有效性,选择表11中对应医生得分较低的测试患者(24、23、20)验证本文的推荐算法,为更加清晰地展示相关数据,从表16中提取出测试患者24、23、20对应的医生在各主因子上的得分情况,如表17所示。

表17   测试患者对应医生的决策得分

Table 17  Decision Score of Doctor of Testing Patient

测试患者-医生主因子1主因子2主因子3主因子4主因子5
24-张凤0.4720.6740.0560.2160.800
23-张永明0.5430.6270.1980.4520.400
20-张方0.4970.5680.4840.6230.600

新窗口打开| 下载CSV


加粗项表示医生在该主因子上得分最高。本文选择医生得分最高的因子代表患者决策时的心理从而进行医生推荐,以“患者24-张凤”为例,“张凤”在主因子5上得分最高,表明患者在实际选择医生时很有可能将主因子5作为主要决策因素。因此,在为测试患者24进行医生推荐时将基于主因子5的医生得分作为基于决策机理的得分,将其与基于咨询文本的医生得分进行整合得到最终得分,从而进行医生推荐,得分整合方法如公式(3)所示。

Score=αScoreContext+βScoreDecision

其中,Score表示整合后的得分, ScoreContextScoreDecision分别表示基于咨询文本与基于决策机理的医生得分, αβ则分别表示ScoreContextScoreDecision在整合后得分中所占的权重, αβ和为1。

考虑到推荐医生时首先应考虑患者在疾病上的需求与医生擅长领域的相似性,故设置 α=0.7, β=0.3。对于测试患者24、23、20分别将基于咨询文本的得分与基于主因子5、主因子2与主因子4的得分融合进行医生评分,按评分高低实现医生推荐,结果如表18所示。

表18   医生推荐结果

Table 18  Results of Doctor Recommendation

测试患者序号基于患者咨询文本融合患者咨询文本与决策机理
对应医生得分排序第一医生对应医生得分排序第一医生
240.317张铭正0.462张铭正
230.241贾钰华0.357史锁芳
200.166朱奇志0.303赵晓刚

新窗口打开| 下载CSV


7.2 推荐结果分析

表18可以看出,相较于基于咨询文本的得分,融合决策机理后测试患者的对应医生其得分都得到一定提高。这是因为在融合决策机理得分后,在对应主因子上得分靠前的医生融合后的总得分得到一定提高,故为测试患者推荐的医生排序情况都发生了一定变化。例如,为测试患者23、测试患者20推荐的医生中排序第一的医生发生了变化,而为测试患者24推荐的医生中排序第一的医生没有变化,这是因为测试患者24所对应的医生“张铭正”在融合主因子5上得分为1,故融合后其得分在200位医生中保持最高。

测试患者20对应的基于患者咨询文本与融合决策机理后排序第一医生的基本情况如表19所示。

表19   测试患者20推荐医生情况

Table 19  Situation of Recommended Doctor of Testing Patient 20

患者20咨询文本推荐模型医生医生对应患者对应患者咨询文本
没有症状入职。体检拍胸片发现阴影基于患者咨询文本朱奇志对应患者1医生您好两半之前医院做保乳手术术后
对应患者2检查见双肺纹理增粗模糊伴多发小叶中心结节
对应患者3在备孕期中间感冒咳嗽厉害拍胸片想咨询
对应患者4朱老师您好我份北医三院发现左肺上叶磨玻璃结节差
对应患者5肺部有个环形三份肺炎做气管镜
医患对话比0.286
融合患者咨询文本与
决策机理
赵晓刚对应患者1腰痛干咳门诊拍肾彩超做尿常规血常规
对应患者2后背左侧疼拍肺CT医生诊断还没发展肺癌
对应患者3近期有时候睡觉会咳嗽睡醒痰比较上个号做血象
对应患者4您好赵医生我于瑞金医院体检发现右上肺.MM磨
对应患者5二十天前感冒咳嗽痰化痰止咳处理后胸闷干咳
医患对话比0.466

新窗口打开| 下载CSV


为测试患者20推荐的医生“朱奇志”、“赵晓刚”所对应的患者文本均与测试患者20的咨询文本间具有较强的相似性,即都与“拍片”具有较强的关联。此外,可以发现在融合主因子4“医患对话比”后,“赵晓刚”成为推荐列表中排序第一的医生,其相较于“朱奇志”在“医患对话比”这一决策因素上具有较高得分,将其作为排序第一的医生推荐给测试患者20,一方面保证了在文本特征上医患间具有一定的相似度,另一方面也考虑了患者在决策时考量的其他因素,提升了医生推荐的效果与质量。

8 结 语

为向患者推荐更为满足其实际需求的医生资源,本文提出一种融合咨询文本与患者决策机理的医生推荐算法。在经过Word2Vec训练后得到词向量模型,利用模型计算文本相似度得到基于咨询文本的医生评分,通过因子分析对患者选择医生时的主要决策因子进行相关性分析,合并相关性较强的因子,并在合并时考虑各因子的重要程度,随后通过整合其他因子进行基于患者机理的医生评分。通过将基于咨询文本的医生得分与基于决策机理的医生得分进行整合,得到最终的医生得分,并按得分完成医生推荐。通过采集在线医疗平台“好大夫在线”上的相关数据,对所提医生推荐算法进行实证分析,证明了所提算法的有效性。该算法的意义在于,为患者进行医生推荐时,一方面能实现患者疾病与医生擅长领域的匹配,另一方面也考虑了患者选择医生时各种其他因素,提升了医生推荐的实用性。

本文的不足之处在于利用该算法进行推荐时需事先对患者之前的医生选择行为进行分析;此外,在进行医生推荐时是为单个患者进行推荐,时间成本较高,未来可以考虑对患者进行聚类,以提高推荐效率。

作者贡献声明:

叶佳鑫:提出研究思路,设计研究方案,数据采集与处理,论文撰写与修订;

熊回香:提出研究方向,论文最终版本修订;

蒋武轩:论文最终版本修订。

利益冲突声明:

所有作者声明不存在利益冲突关系。

支撑数据:

支撑数据由作者自存储,E-mail:526212876@qq.com。

[1] 叶佳鑫,熊回香,蒋武轩.医生数据.xlsx.医生相关数据.

[2] 叶佳鑫,熊回香,蒋武轩.患者数据.xlsx.测试患者数据.

[3] 叶佳鑫,熊回香,蒋武轩.训练文本.xlsx.Word2vec训练文本.

[4] 叶佳鑫,熊回香,蒋武轩.医生得分1.xlsx.基于词向量相似度的医生得分.

[5] 叶佳鑫,熊回香,蒋武轩.医生得分2.xlsx.基于决策因素的医生得分.

[6] 叶佳鑫,熊回香,蒋武轩.医生推荐.xlsx.医生推荐结果.

参考文献

孙国强, 由丽孪, 陈思 , .

互联网+医疗模式的初步探索

[J]. 中国数字医学, 2015,10(6):15-18.

[本文引用: 1]

( Sun Guoqiang, You Liluan, Chen Si , et al.

Preliminary Exploration of Internet+Medical Model

[J]. China Digital Medicine, 2015, 10(6):15-18).

[本文引用: 1]

国务院办公厅关于促进“互联网+医疗健康”发展的意见

[EB/OL]. [ 2019- 06- 02]. http://www.gov.cn/zhengce/content/2018-04/28/content_5286645.htm.

URL     [本文引用: 1]

(

Opinions of the General Office of the State Council on Promoting the Development of “Internet+Medical Health”

[EB/OL]. [ 2019- 06- 02]. http://www.gov.cn/zhengce/content/2018-04/28/content_5286645.htm.)

URL     [本文引用: 1]

Liu F, Yu C, Meng W , et al.

Effective Keyword Search in Relational Databases

[C]// Proceedings of the 2006 ACM SIGMOD International Conference on Management of Data. ACM, 2006: 563-574.

[本文引用: 1]

朱凡微, 吴明晖, 金苍宏 , .

基于关键字的数据库搜索研究综述

[J]. 计算机应用研究, 2008,25(11):3238-3242.

[本文引用: 1]

( Zhu Fanwei, Wu Minghui, Jin Canghong , et al.

Survey of Keyword-Based Search over Databases

[J]. Application Research of Computers, 2008,25(11):3238-3242.)

[本文引用: 1]

李宗伟, 张艳辉, 栾东庆 .

哪些因素影响消费者的在线购买决策?——顾客感知价值的驱动作用

[J]. 管理评论, 2017,29(8):136-146.

[本文引用: 1]

( Li Zongwei, Zhang Yanhui, Luan Dongqing .

What Factors Influence Consumers’ Online Purchasing Decisions?——Customer Perceived Value Drivers

[J]. Management Review, 2017,29(8):136-146.)

[本文引用: 1]

Lay-Yee K L, Kok-Siew H, Yin-Fah B C .

Factors Affecting Smartphone Purchase Decision Among Malaysian Generation Y

[J]. International Journal of Asian Social Science, 2013,3(12):2426-2440.

[本文引用: 1]

Sujata J, Yatin J, Abhijit C , et al.

Factors Affecting Smartphone Purchase Among Indian Youth: A Descriptive Analysis

[J]. Indian Journal of Science and Technology, 2016,9(15):1-10.

[本文引用: 1]

Choi N .

Factors Affecting Undergraduates’ Selection of Online Library Resources in Academic Tasks

[J]. Library Hi Tech, 2015,33(2):272-291.

[本文引用: 1]

吴江, 周露莎 .

网络健康信息服务用户购买决策的影响因素研究

[J]. 情报学报, 2017,36(10):1058-1065.

[本文引用: 1]

( Wu Jiang, Zhou Lusha .

Study of Factors That Influence Users’ Purchasing Decision of Health Information Services

[J]. Journal of the China Society for Scientific and Technical Information, 2017,36(10):1058-1065.)

[本文引用: 1]

查先进, 李力, 严亚兰 , .

数字图书馆环境下信息有用性和信息获取影响因素研究——信息获取自我效能的调节效果

[J]. 情报学报, 2017,36(7):669-681.

[本文引用: 1]

( Zha Xianjin, Li Li, Yan Yalan , et al.

Research on Impacting Factors of Information Usefulness and Information Acquisition in the Context of Digital Libraries: The Moderating Effect of Self-efficacy in Acquiring Information

[J]. Journal of the China Society for Scientific and Technical Information, 2017,36(7):669-681.)

[本文引用: 1]

Huang Y F, Liu P, Pan Q , et al.

A Doctor Recommendation Algorithm Based on Doctor Performances and Patient Preferences

[C]// Proceedings of the 2012 International Conference on Wavelet Active Media Technology and Information Processing (ICWAMTIP). IEEE, 2012: 92-95.

[本文引用: 1]

Jiang H, Xu W .

How to Find Your Appropriate Doctor: An Integrated Recommendation Framework in Big Data Context

[C]// Proceedings of the 2014 IEEE Symposium on Computational Intelligence in Healthcare and E-Health (CICARE). IEEE, 2014: 154-158.

[本文引用: 1]

徐守坤, 吴伟伟 .

基于语义的医疗资源均衡推荐算法

[J]. 计算机工程, 2015,41(9):74-79.

[本文引用: 1]

( Xu Shoukun, Wu Weiwei .

Balance Recommendation Algorithm for Medical Resources Based on Semantic

[J]. Computer Engineering, 2015,41(9):74-79.)

[本文引用: 1]

李勇, 黄俊 .

信息通信

[J].信息通信, 2018(2):67-70.

[本文引用: 1]

( Li Yong, Huang Jun .

A Search of Personalized Doctor Recommendation Algorithm

[J]. Information & Communications,2018(2):67-70.)

[本文引用: 1]

Tian B, Zhang Y, Chen X , et al.

DRGAN: A GAN-Based Framework for Doctor Recommendation in Chinese On-Line QA Communities

[C]// Proceedings of the 2019 International Conference on Database Systems for Advanced Applications. Springer, 2019: 444-447.

[本文引用: 1]

林鑫, 桑运鑫, 龙存钰 .

基于用户决策机理的个性化推荐

[J]. 图书情报工作, 2019,63(2):99-106.

[本文引用: 1]

( Lin Xin, Sang Yunxin, Long Cunyu .

Personalized Recommendation Based on User Decision-making Mechanism

[J]. Library and Information Service, 2019,63(2):99-106.)

[本文引用: 1]

高山, 刘炜, 崔勇 , .

一种融合多种用户行为的协同过滤推荐算法

[J]. 计算机科学, 2016,43(9):227-231.

[本文引用: 1]

( Gao Shan, Liu Wei, Cui Yong , et al.

Collaborative Filtering Algorithm Integrating Multiple User Behaviors

[J]. Computer Science, 2016,43(9):227-231.)

[本文引用: 1]

Huang Z X, Lu X D, Duan H L , et al.

Collaboration-based Medical Knowledge Recommendation

[J]. Artificial Intelligence in Medicine, 2012,55(1):13-24.

[本文引用: 1]

Mikolov T, Sutskever I, Chen K , et al.

Distributed Representations of Words and Phrases and Their Compositionality

[C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. 2013,2:3111-3119.

[本文引用: 1]

熊富林, 邓怡豪, 唐晓晟 .

Word2vec的核心架构及其应用

[J]. 南京师范大学学报:工程技术版, 2015,15(1):43-48.

[本文引用: 1]

( Xiong Fulin, Deng Yihao, Tang Xiaosheng .

The Architecture of Word2vec and Its Applications

[J]. Journal of Nanjing Normal University: Engineering and Technology Edition, 2015,15(1):43-48.)

[本文引用: 1]

Zhu Y, Yan E, Wang F .

Semantic Relatedness and Similarity of Biomedical Terms: Examining the Effects of Recency, Size, and Section of Biomedical Publications on the Performance of Word2vec

[J]. BMC Medical Informatics and Decision Making, 2017,17(1): Article No. 95.

[本文引用: 1]

Xu C, Liu D .

Chinese Text Summarization Algorithm Based on Word2vec

[J]. Journal of Physics: Conference Series, 2018,976:012006.

[本文引用: 1]

李心蕾, 王昊, 刘小敏 , .

面向微博短文本分类的文本向量化方法比较研究

[J]. 数据分析与知识发现, 2018,2(8):41-50.

[本文引用: 1]

( Li Xinlei, Wang Hao, Liu Xiaomin , et al.

Comparing Text Vector Generators for Weibo Short Text Classification

[J]. Data Analysis and Knowledge Discovery, 2018,2(8):41-50.)

[本文引用: 1]

刘芊, 蓝国赈 .

科技信息

[J].科技信息, 2008(36):102-103,105.

[本文引用: 1]

( Liu Qian, Lan Guozhen .

Factor Analysis and Empirical Analysis Based on SPSS

[J]. Scientific Information, 2008(36):102-103,105.)

[本文引用: 1]

/

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn