一种融合患者咨询文本与决策机理的医生推荐算法*

doi:10.11925/infotech.2096-3467.2019.0633

一种融合患者咨询文本与决策机理的医生推荐算法^*

叶佳鑫, 熊回香^,^,, 蒋武轩

华中师范大学信息管理学院武汉 430079

A Physician Recommendation Algorithm Integrating Inquiries and Decisions of Patients

Ye Jiaxin, Xiong Huixiang^,^,, Jiang Wuxuan

School of Information Management, Central China Normal University, Wuhan 430079, China

通讯作者: 熊回香,ORCID：0000-0001-9956-3396,E-mail：hxxiong@mail.ccnu.edu.cn。

收稿日期: 2019-06-10 修回日期: 2019-07-31 网络出版日期: 2020-02-25

基金资助:

*本文系华中师范大学中央高校基本科研业务费(人文社科类)重大项目“基于语义网的在线健康信息的挖掘与推荐研究”. CCNU19Z02004
华中师范大学优秀博士学位论文培育计划项目的研究成果之一. 2019YBZZ096

Received: 2019-06-10 Revised: 2019-07-31 Online: 2020-02-25

摘要

【目的】 研究患者选择医生时的决策机理,构建融合患者决策机理的医生推荐方法,提升医生推荐的效果。【方法】 利用Word2Vec训练词向量模型计算患者与医生间基于文本的相似度,得到基于咨询文本的医生评分。以因子分析为基础,分析影响患者选择医生时的决策因素,得到基于患者决策机理的医生评分,融合两种评分实现医生推荐。【结果】 以“好大夫在线”上的相关数据为例对所提医生推荐算法进行实证研究,在进行医生推荐时同时考虑了患者与医生间的文本相似度与患者的决策因素,推荐的医生更为符合患者实际需求。【局限】 患者的历史决策行为有待进一步分析,在推荐时主要是面向单一患者进行推荐,时间成本较高。【结论】 本文所提方法适用于进行医生的精准推荐,能有效满足患者需求。

关键词： 医生推荐 ; 决策机理 ; Word2Vec ; 在线医疗平台

Abstract

[Objective] This paper investigates the decision-making mechanism of patients choosing doctors, aiming to build a better physician recommendation system.[Methods] First, we used Word2Vec to train the word vector model, and calculated the similarity between patients and doctors. Then, we analyzed the decision-making behaviors of patients choosing doctors. Finally, we combined the scores of doctors based on their similarity with patient needs and the latter’s decision mechanism to generate a recommended list.[Results] We conducted an empirical study with data from “Hao Daifu (Great Doctors)”. The proposed algorithm could help patients find doctors meeting their needs.[Limitations] The patient’s decision-making history needs to be analyzed. Our recommendation algorithm is for a single patient, which is costly.[Conclusions] The proposed method could recommend appropriate doctors meeting patient’s needs.

Keywords： Doctor Recommended ; Decision Mechanism ; Word2Vec ; Online Medical Platform

PDF (771KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

叶佳鑫, 熊回香, 蒋武轩. 一种融合患者咨询文本与决策机理的医生推荐算法^*. 数据分析与知识发现[J], 2020, 4(2/3): 153-164 doi:10.11925/infotech.2096-3467.2019.0633

Ye Jiaxin. A Physician Recommendation Algorithm Integrating Inquiries and Decisions of Patients. Data Analysis and Knowledge Discovery[J], 2020, 4(2/3): 153-164 doi:10.11925/infotech.2096-3467.2019.0633

1 引言

互联网的发展推动了医疗模式的变革,互联网与医疗的结合是优化传统医疗模式的需要,是创新医疗服务新模式的基石^[1]。国务院办公厅于2018年发布“关于促进‘互联网+医疗健康’发展的意见”,提出“健全‘互联网+医疗健康’服务体系”、“完善‘互联网+医疗健康’支撑体系”等具体要求^[2]。在“互联网+医疗健康”的发展过程中,建立一个功能完善、使用便捷的在线医疗平台满足患者与医护人员之间的交流无疑具有重大的现实意义。早期,在线医疗平台上的患者往往会通过关键词查询的方式寻找医生及医疗资源^[3,4]。而随着网络平台上信息数量的逐渐增长,传统查询方式越来越难以满足平台上患者的实际需求,查询结果常常会存在内容不全面、偏离患者预期需求等问题,难以按照患者的实际需求为其推荐相应的医生与其他医疗资源。

为更好地满足患者需求,为患者推荐能满足其实际需要的医生,本文提出一种综合考虑患者咨询文本与患者决策机理的医生推荐算法。考虑到影响患者决策的一般因素（信用、服务、时间、评论等）^[5,6,7,8,9],以及患者选择医疗资源时的参考因素（诊断费用、医生职称、好评、感谢信等）^[10],选取患者咨询文本、医生职称、诊断费用、总访问量、注册时间等多项数据进行医生推荐算法研究。利用患者当前咨询文本表示患者兴趣特征,用医生历史诊断过的患者咨询文本表示医生特征,以Word2Vec训练词向量模型,并利用词向量模型从文本中提取患者与医生的特征计算医患间的相似度,以此作为基于咨询文本的医生评分;结合因子分析方法分析患者选择医生时的决策机理,得到决策机理的医生评分;最后,将两个评分进行整合得到医生的最终评分,并依据评分向患者推荐符合其实际需求的医生。

2 研究现状

近年,相关研究已开始尝试将推荐技术应用于医生及其他医疗资源的推荐。Huang等使用层次分析法对医生的接待、预约等数据进行分析并建立医生绩效相关的特征模型,分析患者就诊时选择的部门与医院并建立患者特征模型,将患者模型与医生模型进行匹配实现医生推荐^[11];Jiang等提出一种混合推荐框架,计算患者咨询文本与医生特征的相似度,衡量医生水平,并对两者进行整合,结合层次分析法为患者寻找与其疾病及偏好相关的医生^[12];徐守坤等为实现医疗资源的合理分配,提出一种融合语义本体技术与推理规则的医生推荐算法^[13];李勇等将基于内容的推荐算法与协同过滤算法进行混合并用于医疗资源推荐,推荐准确度较高^[14];Tian等提出一种以对抗神经网络为基础的医生推荐模型,结合卷积神经网络与多层神经网络预测医生与患者间的相似性从而进行推荐^[15]。

目前方法主要是通过挖掘医生的相关绩效指标与患者的咨询文本实现推荐,这些方法在推荐时虽然实现了患者与医生在疾病特征上的匹配,但也存在对患者实际需求考虑不充分的问题,未深入分析患者的医生选择行为。而由于患者选择医生的行为存在一定的复杂性与多样性,直接使用传统的推荐算法会出现医生与用户需求匹配度不高的问题。通过分析用户选择医生时的行为（如在线咨询、预约挂号等）对传统算法进行改进,是提升医生推荐效果的途径之一^[16]。但目前研究在进行医生推荐时较少考虑患者选择医生时的决策因素,而为患者推荐的医生既应考虑到医生擅长的疾病范围,又应考虑到患者选择医生时的其他参考因素^[17,18],即为了向患者推荐切实符合其需求的医生,很有必要对患者选择医生时的决策机理进行分析。

3 推荐框架描述

本文构建的医生推荐模型框架包含数据收集与预处理模块、基于患者咨询文本的医生评分模块、基于患者决策机理的医生评分模块与医生推荐模块等部分,具体如图1所示。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 医生推荐模型框架

Fig.1 Doctor Recommendation Framework

将收集的数据分为患者咨询文本与医生基本数据,对于收集到的患者咨询文本,在对其进行分词、去停用词等预处理工作后,以Word2Vec模型对其进行训练,得到咨询文本中每个词的向量,然后从每个患者的咨询文本中提取患者特征,从医生历史诊断过的患者咨询文本中提取医生特征,计算医患间的特征相似度进行基于咨询文本的医生评分。对于收集到的医生基本数据,在对其进行数据清洗、数据规范化等预处理后,以其为基础进行因子分析,在因子分析的基础上分析不同因子对患者决策的影响,进行基于决策机理的医生评分。最后综合基于咨询文本与决策机理的医生评分,进行医生个性化推荐。

4 数据来源与处理

4.1 数据收集

笔者从“好大夫在线”上选择较为热门的疾病门类“支气管炎”,获取医生相关数据,最后共采集到305位医生的相关数据,具体数据项包括：姓名、职称、对应患者数（与医生相关且采集到咨询文本的患者数）、诊断费用、总访问量、总文章数、总患者数（医生在平台上总共接诊的患者人数）、诊后报道数、感谢信数、心意礼物数、注册时间、患者对话数、医生对话数,如表1所示。为每位医生采集对应的患者数量为0-30名,总共采集到3 125位患者的相关咨询文本,患者咨询文本如表2所示。

表1 医生基本信息数据集^①(① https://www.haodf.com/jibing/zhiqiguanyan.htm.)（共305位）

Table 1 Basic Doctor Data（305 in Total）

姓名	职称	对应患者数（人）	诊断费用（元）	总访问量（次）	总文章数（篇）	总患者数（人）	诊后报道数（人）	感谢信数（个）	心意礼物数（个）	注册时间（年）	患者对话数（个）	医生对话数（个）
左晟	副主任	21	20	6 341	11	121	10	1	6	2018	369	153
朱奇志	副主任	16	40	50 939	2	60	0	1	9	2013	311	89
朱蓬燕	主治	8	15	46 757	26	82	33	9	5	2017	168	66
朱保	主治	0	10	263 456	0	2 348	2 168	77	233	2016	1 875	623
周忠辉	副主任	18	20	39 117	18	167	7	3	1	2018	266	116
周云芝	主任	8	80	1 118 745	7	1 167	134	9	43	2009	374	151
周文胜	主任	19	30	99 496	2	178	100	14	13	2017	315	104
…	…	…	…	…	…	…	…	…	…	…	…	…
安建峰	副主任	6	60	1 301 699	0	2 778	1 602	74	164	2009	463	203

（注：诊断费用为“好大夫在线”的图文问诊费用;注册时间仅显示注册年,但后续计算中会具体到注册日。数据采集时间为2019-05-12。）

新窗口打开| 下载CSV

表2 患者咨询文本数据集（共3 125个）

Table 2 Patient Consultation Text Data （3 125 in Total）

医生姓名	文本序号	咨询文本
左晟	1	吸烟后胸闷,感觉有东西压迫,呼吸较费力,一天一包烟左右,一旦不抽烟症状会有所减轻,一抽烟就有胸闷,持续了大约三天了,症状之前没有发生过,去年10月左右检查过心电图,今年2月也拍过胸片……
左晟	2	半个月之前感冒咳嗽,之前咳嗽有痰,吃了药,还挂了头孢,虽然现在没痰了,但是咳嗽一直没好全,现在早上和晚上睡都不咳,就是中午到下午这段时间干咳无痰,有时候张口说话就忍不住想咳嗽……
左晟	3	不咳嗽,就是早晨感觉胸口有痰,使劲刻出来,是浓黄色,有时是褐色,中午和晚上吃过饭,自己主动把他刻出来,是白色比较稀。鼻涕是浓白涕,难擤出来,出来都一小块,一小块……
…	…	…
安建峰	3 125	诊后治疗和康复相关问题

新窗口打开| 下载CSV

4.2 数据预处理

对于表1中的数据,为从患者咨询文本中提取医生相关特征,剔除对应患者数在5名以下的医生,最终得到201位医生的相关数据,数据集中有一位医生缺失诊断费用数据,也将其剔除,最后保留200位医生的相关数据。同时,为更好地分析用户决策机理,需要对部分数据进行加工处理,具体如下。

（1）统计医生注册时间到数据采集时间的天数作为医生注册天数;

（2）利用总访问量、总患者数与注册天数计算出平均每天访问量与平均每天患者数,用以表示医生的平均热度;

（3）以医生对话数除以患者对话数得到医患对话比用以表示医生的对话活跃度;

（4）医生的职称从高到低分为主任医师、副主任医师、主治医师与住院医师,将其转换为数字表示,主任医师为3,副主任医师为2,主治医师、住院医师为1（因主治医师、住院医师数量较少故将其都转换为1）。处理后的医生基本信息数据集如表3所示。

表3 医生基本信息集（共200位）

Table 3 Basic Doctor Information（200 in Total）

姓名	职称	诊断费用（元）	总访问量（次）	总文章数（篇）	总患者数（人）	诊后报道数（人）	感谢信数（个）	心意礼物数（个）	注册天数（天）	平均每天患者数（人）	平均每天访问量（次）	医患对话比
左晟	2	20	6 341	11	121	10	1	6	373	0.324	17.000	0.415
朱奇志	2	40	50 939	2	60	0	1	9	2 110	0.028	24.142	0.286
朱蓬燕	1	15	46 757	26	82	33	9	5	842	0.097	55.531	0.393
周忠辉	2	20	39 117	18	167	7	3	1	332	0.503	117.822	0.436
周云芝	3	80	1 118 745	7	1 167	134	9	43	3 496	0.334	320.007	0.404
周文胜	3	30	99 496	2	178	100	14	13	753	0.236	132.133	0.330
周凤丽	2	40	406 163	3	1 017	542	36	201	3 841	0.265	105.744	0.429
…	…	…	…	…	…	…	…	…	…	…	…	…
安建峰	2	60	1 301 699	0	2 778	1 602	74	164	3 688	0.753	352.955	0.438

新窗口打开| 下载CSV

对于表3中的医生,首先分析其在表2中对应的患者咨询文本,发现每位患者的咨询文本数都在10以上,为避免患者咨询文本间字符数相差过大而对后续基于词向量的相似度计算造成影响,将所有患者的咨询文本进行截取,截取最靠前的文本（靠前的文本通常与患者需求关系较大）,每个文本取前25个字符（计1个汉字或1个符号为1个字符,若文本字符数不足25则取整条文本）。每位医生对应患者数为5-30,200位医生共对应2 830位患者,得到2 830条字符数在10-25之间的咨询文本（据统计,2 830条咨询文本中长度最短的文本字符数为10）。此外,在截取字符时发现患者经常以日期开头,而日期表示的患者需求特征较少,故在截取前将其作为停用词去除（去除1-9等数字）,患者咨询文本数据集如表4所示。

表4 患者咨询文本数据集（共2 830个）

Table 4 Patient Consultation Text Data （2 830 in Total）

医生姓名	文本序号	咨询文本
左晟	1	吸烟后胸闷,感觉有东西压迫,呼吸较费力,一天一包烟
左晟	2	半个之前感冒咳嗽,之前咳嗽有痰,吃了药,还挂了头孢
左晟	3	不咳嗽,就是早晨感觉胸口有痰,使劲刻出来,是浓黄色
左晟	4	几年前查出有轻微的肺结核,医生说没事,去单位体检的
左晟	5	咳嗽好长时间了,春节前一次感冒引起的咳嗽一直到现在
…	…	…
陈安琪	2 830	头晕恶心眼痛困乏颈椎不舒服

新窗口打开| 下载CSV

本文的推荐算法需要用到Word2Vec词向量模型,词向量模型的效果与所选训练语料具有较大关系,将常用的维基百科语料与“好大夫在线”的文本作为语料进行对比,发现将“好大夫在线”的文本作为本研究的语料进行词向量模型训练具有较好的效果。因此,选取“好大夫在线”的文本作为语料进行词向量模型训练,语料为305位医生所对应的3 125条患者咨询文本。同时,考虑到对咨询文本进行字数截取后,咨询文本中的词语会发生一定变化,故将截取后的2 830位患者的咨询文本也作为训练文本,最后共得到5 955条文本作为词向量训练语料。

5 基于患者咨询文本的医生评分

本文基于咨询文本分析患者及医生的相似度,在进行相似度计算时主要以Word2Vec为基础。Word2Vec本质上是一种基于词嵌入的算法,以上下文信息为基础将词转换为低维的实数向量,将以万为单位的词特征约简到几百至几十维度,解决了维度灾难问题,并且能使得语义相似的词具有相似的向量表达,以其为基础计算词之间的相似度能取得不错的效果^[19,20]。

Word2Vec主要分为CBOW（Continuous Bag-of-Word）模型与Skip-Gram模型,其中,CBOW模型以给定的上下文为基础预测目标词的信息;Skip-Gram则通过输入一个词,预测出现在其上下文的词。相对而言,CBOW模型适合处理小型语料,而Skip-Gram模型则在大型语料中具有更好的表现^[21,22]。由于所用训练集采集自“好大夫在线”,语料较小,故本次实验采用CBOW模型。

5.1 Word2Vec模型训练

利用Python的Gensim工具包对语料进行训练,在训练时选择CBOW模型,考虑到本文训练语料规模较小,将词向量维度设置为100。使用Jieba分词器对训练语料进行分词处理,随后进行词向量模型训练,得到语料中所有词的词向量,如表5所示。

表5 训练词语的词向量

Table 5 Word Vector of Training Words

词语维度	1	2	3	4	…	100
V_咳嗽	-1.033	0.285	0.821	0.422	…	-0.400
V_发烧	0.310	-0.568	4.438	-0.498	…	-0.423
V_发炎	0.188	-1.073	-0.416	0.496	…	-1.078
V_支气管	0.124	1.828	-0.381	0.888	…	-1.179
…	…	…	…	…	…	…
V_感冒	1.294	-1.827	1.592	0.642	…	-3.470

新窗口打开| 下载CSV

在训练得到Word2Vec词向量模型后,选择“咳嗽”、“发烧”、“发炎”与“支气管”4个具有较强代表性的词语作为测试词,计算测试词与其他词语间的相似度对词向量效果进行评价,与所选评测词相似度较高的词语如表6所示。

表6 基于词向量模型的词语相似度

Table 6 Word Similarity Based on Word Vector Model

测试词词语	词语1	相似度	词语2	相似度	词语3	相似度	…
咳嗽	干咳	0.864	咳	0.732	流鼻涕	0.660	…
发烧	退	0.796	低烧	0.795	高烧	0.765	…
发炎	扁桃体	0.856	化脓	0.879	流涕	0.743	…
支气管	扩张	0.843	管壁	0.769	肺气肿	0.749	…

新窗口打开| 下载CSV

可以看出,训练得到的词向量模型具有不错的效果,以“咳嗽”为例,与其相似度最高的词语分别为“干咳”、“咳”与“流鼻涕”。利用训练得到的模型计算词之间的相似度较为符合预期结果,可以作为后续研究的基础。

5.2 医生与患者特征表示

（1）医生特征表示

对于表3中的每位医生,其对应的患者数都在5位以上,且每位医生对应的患者数量不一定相同。为对患者数量进行一致化处理,为每位医生都选取5位时间排序靠前的患者,共选取5×200位患者,从患者的历史咨询文本中提取医生特征。具体方法是,在对5位患者的咨询文本进行分词处理的基础上,利用得到的词向量模型将咨询文本中的词转换为向量表示,并对词向量取平均值进行整合得到咨询文本的句向量^[23],用句向量表示医生特征,每个医生对应5个句向量,如表7所示。

表7 医生特征表示示例（共200位）

Table 7 Doctor Characteristic（200 in Total）

医生姓名	文本序号	句向量
左晟	1	（V_吸烟+V_后+V_胸闷+…+V_烟）/文本词数
	2	（V_半个+V_之前+V_感冒+…+V_头孢）/文本词数
	3	（V_不+V_咳嗽+V_早餐+…+V_黄色）/文本词数
	4	（V_几年+V_查出+V_轻微+…+V_的）/文本词数
	5	（V_咳嗽+V_好长时间+V_春节+…+V_现在）/文本词数
…	…	…
陈安琪	1	（V_感觉+V_感冒+V_不+…+V_下）/文本词数
	2	（V_有次+V_感觉+V_左腹+…+V_需）/文本词数
	3	（V_之前+V_检查+V_血糖+…+V_迅）/文本词数
	4	（V_我+V_失眠+V_入睡+…+V_豪）/文本词数
	5	（V_怀孕+V_中+V_今天+…+V_还）/文本词数

新窗口打开| 下载CSV

（2）患者特征表示

在得到200位医生的特征表示后,从200位医生中分别选出职称为3、2、1的医生各10位,共选取30位医生,并为这30位医生各选取一位当前选择其咨询的患者,采集每位患者的当前咨询文本,共选出30位患者作为测试患者,利用得到的词向量模型对咨询文本中的词进行向量转换,整合得到句向量,用句向量表示测试患者特征,如表8所示。

表8 测试患者数据集示例（共30位）

Table 8 Testing Patient Data（30 in Total）

测试患者序号	医生姓名	职称	句向量
1	欧阳文献	3	（V_验血+V_常规+V_巨细胞+…+V_定量）/文本词数
2	周云芝	3	（V_平时+V_喘+V_吹风+…+V_刺激性）/文本词数
3	周文胜	3	（V_医生+V_您好+V_半个+…+V_后）/文本词数
4	赵琪	2	（V_第一次+V_咳血+V_治疗+…+V_详细资料）/文本词数
…	…	…	…
30	秦少文	1	（V_婆婆+V_慢性+V_支气管炎+…+V_咳嗽）/文本词数

新窗口打开| 下载CSV

5.3 医生评分计算

利用咨询文本得到医生及测试患者的特征表示后,计算医生及测试患者之间的文本相似度得到基于咨询文本的医生评分。每一位医生与测试患者间的相似度计算如公式（1）所示。

（1）

sim (D_{n}, U_{m}) = \frac{sim (O_{ni}, O_{m}) + \dots + sim (O_{n 5}, O_{m})}{5}

其中, $sim (D_{n}, U_{m})$ 表示医生n与测试患者m间的相似度, $O_{ni}$ 表示医生n对应的第i个咨询文本向量, $O_{m}$ 表示患者m的咨询文本向量,每个医生的特征用其对应的5个咨询文本的词向量来表示,则医生与测试患者间的相似度等于其对应的每个咨询文本与测试患者的咨询文本间相似度的均值,简称为医患相似度。在计算相似度时按照医生的职称高低从3到1对医生进行排序与编号,利用公式（1）得到医患相似度如表9所示。

表9 医生与测试患者间相似度示例

Table 9 Similarity Between Doctor and Testing Patient

医生姓名	医生序号	医生对应文本	测试患者1	测试患者2	…	测试患者30
欧阳文献	1	1	0.590	0.061	…	0.272
		2	0.537	0.221	…	0.262
		3	0.466	0.479	…	0.089
		4	0.692	0.078	…	0.044
		5	0.655	0.447	…	0.364
		均值	0.588	0.257	…	0.206
…	…	…	…	…	…	…
陈安琪	200	1	0.251	0.661	…	0.389
		2	0.493	0.420	…	0.205
		3	0.727	0.261	…	0.245
		4	0.262	0.630	…	0.314
		5	0.369	0.535	…	0.480
		均值	0.420	0.500	…	0.327

新窗口打开| 下载CSV

表9显示了医生对应文本与测试患者文本间相似度,该相似度的均值为医患相似度,例如医生“欧阳文献”与测试患者1间的相似度为0.588。在得到医患相似度后,为对医患间关系进行更好的展示,按每个医生与测试患者间的相似度大小对医生进行相似度排序并打分,200个医生排序后得分编号为1-200,按相似度大小对医生进行打分,与测试患者间相似度最大的医生编号为1,其得分为199,与测试患者间相似度最小的医生编号为200,其得分为0。为便于计算,对基于相似度的医生得分进行归一化处理,如公式（2）所示。

（2）

X' = \frac{(X - X_{\min})}{(X_{\max} - X_{\min})}

其中, $X'$ 为经归一化处理后的 $X$ 值, $X_{\max}$ 、 $X_{\min}$ 分别为序列中得分的最大值与最小值,对基于相似度的医生评分调整中 $X_{\max}$ 统一为199, $X_{\min}$ 统一为0。经过归一化处理后的医生评分结果如表10所示。

表10 基于咨询文本的医生评分示例

Table 10 Doctor’s Score Based on Consultation Text

测试患者1		测试患者2		…	测试患者30
医生序号	医生得分	医生序号	医生得分	…	医生序号	医生得分
15	1.000	116	1.000	…	186	1.000
48	0.995	168	0.995	…	11	0.995
158	0.990	165	0.990	…	114	0.990
89	0.985	103	0.985	…	30	0.985
1	0.980	11	0.980	…	69	0.980
77	0.975	74	0.975	…	79	0.975
196	0.970	146	0.970	…	87	0.970
3	0.965	71	0.965	…	16	0.965
61	0.960	65	0.960	…	110	0.960
…	…	…	…	…	…	…
116	0.000	158	0.000	…	157	0.000

新窗口打开| 下载CSV

表10中加粗数据表明患者在“好大夫在线”上实际选择的医生。为清晰地展示患者实际选择的医生所得评分,将表10中的数据提取部分进行展示,结果如表11所示。表11显示了测试患者及其实际选择的医生间基于患者咨询文本的得分情况,其中“患者序号”对应表8中的测试患者序号,“医生序号”对应表9中的医生序号,“得分排序”为测试患者实际选择的医生在基于咨询文本的医生评分中的排序序号,“得分”为经过转换后的基于患者咨询文本的医生-测试患者得分。

表11 测试患者选择的医生得分

Table 11 Score of Doctor Selected by the Testing Patient

患者序号	医生序号	医生	得分排序	得分	患者序号	医生序号	医生	得分排序	得分
10	11	张铭正	1	1.000	2	2	周云芝	59	0.709
12	96	朱奇志	1	1.000	16	101	赵海金	65	0.678
15	100	赵晓刚	1	1.000	13	97	周忠辉	68	0.663
17	102	张彦亮	2	0.995	9	10	张念志	73	0.638
1	1	欧阳文献	5	0.980	6	6	张伟	87	0.568
30	183	秦少文	16	0.925	4	4	赵琪	89	0.558
19	104	张鸿	18	0.915	8	8	张齐武	94	0.533
5	5	张炜	31	0.849	28	181	涂波	97	0.518
26	179	温鹏	33	0.839	29	182	邵川	106	0.472
18	103	张晓阳	42	0.794	3	3	周文胜	116	0.422
11	95	左晟	47	0.769	27	180	王红星	126	0.372
21	174	朱蓬燕	52	0.744	14	98	钟爱虹	137	0.317
22	175	仲敏	52	0.744	24	177	张凤	137	0.317
7	7	张斯为	53	0.739	23	176	张永明	152	0.241
25	178	徐汝洪	58	0.714	20	105	张方	167	0.166

新窗口打开| 下载CSV

5.4 测试结果分析

从表11可以看出,在基于咨询文本的医生评分中,30位测试患者实际所选择的医生中有三位得分为1,即按照咨询文本进行推荐时这三位医生会被首先推荐,此外在30位测试患者中共有16位患者选择的医生得分在0.700以上,说明按照咨询文本进行推荐时这些医生在推荐序列中排序靠前。为对基于患者咨询文本的医生评分结果进行详细分析,从表11中选出患者序号为10的患者数据进行展示,相关数据如表12所示。

表12 测试患者10相关数据

Table 12 Data of Testing Patient No.10

患者10 咨询文本	推荐医生	医生对应患者	对应患者咨询文本
两个宝宝咳嗽打喷嚏鼻塞吐奶吃奶胃口不好	张铭正	对应患者1	宝宝睡着咳嗽怎么回事起来玩耍不咳嗽
		对应患者2	婴儿咳嗽口臭原因药能好得快
		对应患者3	宝宝咳嗽厉害十天希望早点得到好治疗
		对应患者4	咳嗽喘喘得挺厉害抗生素过敏
		对应患者5	反复咳嗽流鼻涕不发烧

新窗口打开| 下载CSV

表12中显示了测试患者10的咨询文本,以及按照与其相似度评分得分最高的医生姓名、医生对应的患者及其咨询文本。测试患者10的咨询文本与医生“张铭正”所对应的患者文本间具有很强的关联性,即都与“宝宝”、“咳嗽”等相关,基于咨询文本进行医生评分具有不错的效果。但是,表11中也有部分测试患者所选医生得分较低,这说明仅按照文本相似度进行医生推荐与患者实际就诊时的决策机理存在一定差异,即患者可能会考虑其他因素选择医生,下文将对影响患者决策的因素进行分析,从而适当改进医生评分结果,并完成医生推荐。

6 基于决策机理的医生评分

在基于咨询文本医生评分的基础上,以因子分析为基础对患者选择医生时的决策机理进行分析,并对医生评分。因子分析是一种将多个变量转换为少数几个不相关的综合指标的统计方法,可以理解为一种将可能存在相关关系的变量进行特征提取并形成综合变量的方法^[24]。

本文利用因子分析挖掘影响患者选择医生的因素间的相关关系,通过因子分析将关联较强的因子进行合并,形成各主因子,分析不同主因子对患者决策的影响,并以患者决策机理对医生进行评分。

6.1 决策因子分类

利用SPSS 20.0统计分析软件对表3中的数据集进行因子分析,考虑到“总患者数”表示的是选择医生的总人数,在一定程度上反映患者决策后的结果,因此将“总患者数”作为因变量,其他变量作为自变量,对自变量进行因子分析。同时,为明确各因子的关系,对因子载荷矩阵进行因子旋转,在进行矩阵旋转时为提取特征量较大的因子,设置仅提取系数绝对值不小于0.5的数值。得到旋转后的矩阵如表13所示。

表13 旋转后因子载荷矩阵

Table 13 Rotated Factor Load Matrix

因子主因子	1	2	3	4
平均每天访问量	0.894
总访问量	0.884
总文章数	0.733
平均每天患者数	0.655	0.644
诊后报道数		0.867
感谢信数		0.808
心意礼物数		0.791
注册天数			0.767
职称			0.691
诊断费用			0.523
医患对话比				0.861

（注：对于因子分析的结果,用KMO和Bartlett进行检验,得到KMO的值为0.702,大于0.600的可接受水平;Bartlett检验中,显著性值p=0.000<0.050,表明所选样本数据适用于因子分析。）

新窗口打开| 下载CSV

11个因子共生成了4个主因子,其中除“平均每天患者数”外其余因子都只在某一个主因子中占有较大特征比重,对于“平均每天患者数”考虑到其与因变量“总患者数”间具有较大相关性,将其加入多个主因子可能会造成某一因素的过度考量,因此仅保留其系数较大的一项,即仅保留其在主因子1中的影响系数。此外,通过分析表13中的数据,发现“诊断费用”与主因子3存在正相关关系,即“诊断费用”升高时会提升主因子3的数值,考虑到患者在选择医生有较大可能选择“诊断费用”较低的医生,故在4个主因子外加入“负诊断费用”因子来描述“诊断费用”降低时的情况（“负诊断费用”取值与“诊断费用”相反）,用于进一步分析“费用”对患者决策的影响。

最后共得到5个主因子,对于主因子中的每个因子按其系数大小来分配其在主因子中的影响权重,并使得主因子中各组成因子的权值和为1,进行权值分配后的因子矩阵如表14所示。

表14 因子权值矩阵

Table 14 Factor Weight Matrix

主因子	因子-权值
主因子1	平均每天访问量-0.282;总访问量-0.279;总文章数-0.232;平均每天患者数-0.207
主因子2	诊后报道数-0.351;感谢信数-0.328;心意礼物数-0.321
主因子3	注册天数-0.387;职称-0.349;诊断费用-0.264
主因子4	医患对话比-1
主因子5	负诊断费用-1

新窗口打开| 下载CSV

6.2 医生评分计算

在对决策因子进行分类后,利用所得的5个主因子对医生进行打分。分析表3中的各项数据发现在“诊断费用”上具有较多相同数据,对“诊断费用”上的相同数据归并处理,将费用分为6-10、11-30、31-70、71-150、150-250及250以上6个等级。随后,分别按医生在各单因子的数值从大到小对医生进行排序与打分,200个医生排序后编号为1-200,在各项因子上数值最大的医生序号为1,其在该因子上的得分为1,在各项因子上数值最小的医生序号为200,其在该因子上的得分为0。为便于计算,按公式（2）对各因子上的医生得分进行归一化处理,并对医生在各因子上的得分进行整合,结果如表15所示。

表15 基于各因子的医生得分

Table 15 Score of Doctor Based on Factors

因子医生	平均每天访问量	总访问量	总文章数	诊断费用	…	负诊断费用
欧阳文献	0.729	0.693	0.013	0.600	…	0.400
周云芝	0.543	0.683	0.008	0.600	…	0.400
周文胜	0.322	0.191	0.002	0.200	…	0.800
赵琪	0.678	0.794	0.035	0.200	…	0.800
张炜	0.894	0.910	0.076	0.600	…	0.400
…	…	…	…	…	…	…
陈安琪	0.171	0.055	0.005	0.000	…	1.000

新窗口打开| 下载CSV

表15显示了基于各因子的医生得分情况,各因子之间可能存在一定的相关性,相关性较强的因子之间会从相似方面对患者决策造成影响,因此,在得到基于各因子的得分后将其与表14中的因子间权值矩阵进行整合,从而得到归并相似因子的医生得分。考虑因子在各主因子中所占权重以及基于各因子的医生得分得到基于各主因子的医生得分,即将表14与表15中的数据进行矩阵相乘后得到医生得分,结果如表16所示。

表16 基于各主因子的医生得分

Table 16 Score of Doctor Based on Main Factor

医生	主因子1	主因子2	主因子3	主因子4	主因子5
欧阳文献	0.701	0.895	0.673	0.221	0.400
周云芝	0.505	0.385	0.797	0.563	0.400
周文胜	0.245	0.321	0.456	0.171	0.800
赵琪	0.740	0.279	0.754	0.930	0.800
张炜	0.855	0.618	0.894	0.523	0.400
…	…	…	…	…	…
陈安琪	0.198	0.051	0.004	0.990	1.000

新窗口打开| 下载CSV

7 医生推荐及结果分析

7.1 医生推荐

得到基于咨询文本与决策机理的医生评分后,将两者进行整合,据此结果进行医生推荐。为更好地验证整合之后医生推荐的有效性,选择表11中对应医生得分较低的测试患者(24、23、20)验证本文的推荐算法,为更加清晰地展示相关数据,从表16中提取出测试患者24、23、20对应的医生在各主因子上的得分情况,如表17所示。

表17 测试患者对应医生的决策得分

Table 17 Decision Score of Doctor of Testing Patient

测试患者-医生	主因子1	主因子2	主因子3	主因子4	主因子5
24-张凤	0.472	0.674	0.056	0.216	0.800
23-张永明	0.543	0.627	0.198	0.452	0.400
20-张方	0.497	0.568	0.484	0.623	0.600

新窗口打开| 下载CSV

加粗项表示医生在该主因子上得分最高。本文选择医生得分最高的因子代表患者决策时的心理从而进行医生推荐,以“患者24-张凤”为例,“张凤”在主因子5上得分最高,表明患者在实际选择医生时很有可能将主因子5作为主要决策因素。因此,在为测试患者24进行医生推荐时将基于主因子5的医生得分作为基于决策机理的得分,将其与基于咨询文本的医生得分进行整合得到最终得分,从而进行医生推荐,得分整合方法如公式（3）所示。

（3）

Score = αScor e_{Context} + βScor e_{Decision}

其中,Score表示整合后的得分, $Scor e_{Context}$ 与 $Scor e_{Decision}$ 分别表示基于咨询文本与基于决策机理的医生得分, $α$ 与 $β$ 则分别表示Score_Context与Score_Decision在整合后得分中所占的权重, $α$ 与 $β$ 和为1。

考虑到推荐医生时首先应考虑患者在疾病上的需求与医生擅长领域的相似性,故设置 $α = 0.7$ , $β = 0.3$ 。对于测试患者24、23、20分别将基于咨询文本的得分与基于主因子5、主因子2与主因子4的得分融合进行医生评分,按评分高低实现医生推荐,结果如表18所示。

表18 医生推荐结果

Table 18 Results of Doctor Recommendation

测试患者序号	基于患者咨询文本		融合患者咨询文本与决策机理
测试患者序号	对应医生得分	排序第一医生	对应医生得分	排序第一医生
24	0.317	张铭正	0.462	张铭正
23	0.241	贾钰华	0.357	史锁芳
20	0.166	朱奇志	0.303	赵晓刚

新窗口打开| 下载CSV

7.2 推荐结果分析

从表18可以看出,相较于基于咨询文本的得分,融合决策机理后测试患者的对应医生其得分都得到一定提高。这是因为在融合决策机理得分后,在对应主因子上得分靠前的医生融合后的总得分得到一定提高,故为测试患者推荐的医生排序情况都发生了一定变化。例如,为测试患者23、测试患者20推荐的医生中排序第一的医生发生了变化,而为测试患者24推荐的医生中排序第一的医生没有变化,这是因为测试患者24所对应的医生“张铭正”在融合主因子5上得分为1,故融合后其得分在200位医生中保持最高。

测试患者20对应的基于患者咨询文本与融合决策机理后排序第一医生的基本情况如表19所示。

表19 测试患者20推荐医生情况

Table 19 Situation of Recommended Doctor of Testing Patient 20

患者20咨询文本	推荐模型	医生	医生对应患者	对应患者咨询文本
没有症状入职。体检拍胸片发现阴影	基于患者咨询文本	朱奇志	对应患者1	医生您好两半之前医院做保乳手术术后
			对应患者2	检查见双肺纹理增粗模糊伴多发小叶中心结节
			对应患者3	在备孕期中间感冒咳嗽厉害拍胸片想咨询
			对应患者4	朱老师您好我份北医三院发现左肺上叶磨玻璃结节差
			对应患者5	肺部有个环形三份肺炎做气管镜
			医患对话比	0.286
	融合患者咨询文本与决策机理	赵晓刚	对应患者1	腰痛干咳门诊拍肾彩超做尿常规血常规
			对应患者2	后背左侧疼拍肺CT医生诊断还没发展肺癌
			对应患者3	近期有时候睡觉会咳嗽睡醒痰比较上个号做血象
			对应患者4	您好赵医生我于瑞金医院体检发现右上肺.MM磨
			对应患者5	二十天前感冒咳嗽痰化痰止咳处理后胸闷干咳
			医患对话比	0.466

新窗口打开| 下载CSV

为测试患者20推荐的医生“朱奇志”、“赵晓刚”所对应的患者文本均与测试患者20的咨询文本间具有较强的相似性,即都与“拍片”具有较强的关联。此外,可以发现在融合主因子4“医患对话比”后,“赵晓刚”成为推荐列表中排序第一的医生,其相较于“朱奇志”在“医患对话比”这一决策因素上具有较高得分,将其作为排序第一的医生推荐给测试患者20,一方面保证了在文本特征上医患间具有一定的相似度,另一方面也考虑了患者在决策时考量的其他因素,提升了医生推荐的效果与质量。

8 结语

为向患者推荐更为满足其实际需求的医生资源,本文提出一种融合咨询文本与患者决策机理的医生推荐算法。在经过Word2Vec训练后得到词向量模型,利用模型计算文本相似度得到基于咨询文本的医生评分,通过因子分析对患者选择医生时的主要决策因子进行相关性分析,合并相关性较强的因子,并在合并时考虑各因子的重要程度,随后通过整合其他因子进行基于患者机理的医生评分。通过将基于咨询文本的医生得分与基于决策机理的医生得分进行整合,得到最终的医生得分,并按得分完成医生推荐。通过采集在线医疗平台“好大夫在线”上的相关数据,对所提医生推荐算法进行实证分析,证明了所提算法的有效性。该算法的意义在于,为患者进行医生推荐时,一方面能实现患者疾病与医生擅长领域的匹配,另一方面也考虑了患者选择医生时各种其他因素,提升了医生推荐的实用性。

本文的不足之处在于利用该算法进行推荐时需事先对患者之前的医生选择行为进行分析;此外,在进行医生推荐时是为单个患者进行推荐,时间成本较高,未来可以考虑对患者进行聚类,以提高推荐效率。

作者贡献声明

叶佳鑫：提出研究思路,设计研究方案,数据采集与处理,论文撰写与修订;

熊回香：提出研究方向,论文最终版本修订;

蒋武轩：论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail：526212876@qq.com。

[1] 叶佳鑫,熊回香,蒋武轩.医生数据.xlsx.医生相关数据.

[2] 叶佳鑫,熊回香,蒋武轩.患者数据.xlsx.测试患者数据.

[3] 叶佳鑫,熊回香,蒋武轩.训练文本.xlsx.Word2vec训练文本.

[4] 叶佳鑫,熊回香,蒋武轩.医生得分1.xlsx.基于词向量相似度的医生得分.

[5] 叶佳鑫,熊回香,蒋武轩.医生得分2.xlsx.基于决策因素的医生得分.

[6] 叶佳鑫,熊回香,蒋武轩.医生推荐.xlsx.医生推荐结果.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

孙国强, 由丽孪, 陈思 , 等.

互联网+医疗模式的初步探索

[J]. 中国数字医学, 2015,10(6):15-18.

检索词推荐：