一种融合患者咨询文本与决策机理的医生推荐算法*
华中师范大学信息管理学院 武汉 430079
A Physician Recommendation Algorithm Integrating Inquiries and Decisions of Patients
School of Information Management, Central China Normal University, Wuhan 430079, China
通讯作者: 熊回香,ORCID:0000-0001-9956-3396,E-mail:hxxiong@mail.ccnu.edu.cn。
收稿日期: 2019-06-10 修回日期: 2019-07-31 网络出版日期: 2020-02-25
基金资助: |
|
Received: 2019-06-10 Revised: 2019-07-31 Online: 2020-02-25
【目的】 研究患者选择医生时的决策机理,构建融合患者决策机理的医生推荐方法,提升医生推荐的效果。【方法】 利用Word2Vec训练词向量模型计算患者与医生间基于文本的相似度,得到基于咨询文本的医生评分。以因子分析为基础,分析影响患者选择医生时的决策因素,得到基于患者决策机理的医生评分,融合两种评分实现医生推荐。【结果】 以“好大夫在线”上的相关数据为例对所提医生推荐算法进行实证研究,在进行医生推荐时同时考虑了患者与医生间的文本相似度与患者的决策因素,推荐的医生更为符合患者实际需求。【局限】 患者的历史决策行为有待进一步分析,在推荐时主要是面向单一患者进行推荐,时间成本较高。【结论】 本文所提方法适用于进行医生的精准推荐,能有效满足患者需求。
关键词:
[Objective] This paper investigates the decision-making mechanism of patients choosing doctors, aiming to build a better physician recommendation system.[Methods] First, we used Word2Vec to train the word vector model, and calculated the similarity between patients and doctors. Then, we analyzed the decision-making behaviors of patients choosing doctors. Finally, we combined the scores of doctors based on their similarity with patient needs and the latter’s decision mechanism to generate a recommended list.[Results] We conducted an empirical study with data from “Hao Daifu (Great Doctors)”. The proposed algorithm could help patients find doctors meeting their needs.[Limitations] The patient’s decision-making history needs to be analyzed. Our recommendation algorithm is for a single patient, which is costly.[Conclusions] The proposed method could recommend appropriate doctors meeting patient’s needs.
Keywords:
本文引用格式
叶佳鑫, 熊回香, 蒋武轩.
Ye Jiaxin.
1 引 言
互联网的发展推动了医疗模式的变革,互联网与医疗的结合是优化传统医疗模式的需要,是创新医疗服务新模式的基石[1]。国务院办公厅于2018年发布“关于促进‘互联网+医疗健康’发展的意见”,提出“健全‘互联网+医疗健康’服务体系”、“完善‘互联网+医疗健康’支撑体系”等具体要求[2]。在“互联网+医疗健康”的发展过程中,建立一个功能完善、使用便捷的在线医疗平台满足患者与医护人员之间的交流无疑具有重大的现实意义。早期,在线医疗平台上的患者往往会通过关键词查询的方式寻找医生及医疗资源[3,4]。而随着网络平台上信息数量的逐渐增长,传统查询方式越来越难以满足平台上患者的实际需求,查询结果常常会存在内容不全面、偏离患者预期需求等问题,难以按照患者的实际需求为其推荐相应的医生与其他医疗资源。
为更好地满足患者需求,为患者推荐能满足其实际需要的医生,本文提出一种综合考虑患者咨询文本与患者决策机理的医生推荐算法。考虑到影响患者决策的一般因素(信用、服务、时间、评论等)[5,6,7,8,9],以及患者选择医疗资源时的参考因素(诊断费用、医生职称、好评、感谢信等)[10],选取患者咨询文本、医生职称、诊断费用、总访问量、注册时间等多项数据进行医生推荐算法研究。利用患者当前咨询文本表示患者兴趣特征,用医生历史诊断过的患者咨询文本表示医生特征,以Word2Vec训练词向量模型,并利用词向量模型从文本中提取患者与医生的特征计算医患间的相似度,以此作为基于咨询文本的医生评分;结合因子分析方法分析患者选择医生时的决策机理,得到决策机理的医生评分;最后,将两个评分进行整合得到医生的最终评分,并依据评分向患者推荐符合其实际需求的医生。
2 研究现状
近年,相关研究已开始尝试将推荐技术应用于医生及其他医疗资源的推荐。Huang等使用层次分析法对医生的接待、预约等数据进行分析并建立医生绩效相关的特征模型,分析患者就诊时选择的部门与医院并建立患者特征模型,将患者模型与医生模型进行匹配实现医生推荐[11];Jiang等提出一种混合推荐框架,计算患者咨询文本与医生特征的相似度,衡量医生水平,并对两者进行整合,结合层次分析法为患者寻找与其疾病及偏好相关的医生[12];徐守坤等为实现医疗资源的合理分配,提出一种融合语义本体技术与推理规则的医生推荐算法[13];李勇等将基于内容的推荐算法与协同过滤算法进行混合并用于医疗资源推荐,推荐准确度较高[14];Tian等提出一种以对抗神经网络为基础的医生推荐模型,结合卷积神经网络与多层神经网络预测医生与患者间的相似性从而进行推荐[15]。
目前方法主要是通过挖掘医生的相关绩效指标与患者的咨询文本实现推荐,这些方法在推荐时虽然实现了患者与医生在疾病特征上的匹配,但也存在对患者实际需求考虑不充分的问题,未深入分析患者的医生选择行为。而由于患者选择医生的行为存在一定的复杂性与多样性,直接使用传统的推荐算法会出现医生与用户需求匹配度不高的问题。通过分析用户选择医生时的行为(如在线咨询、预约挂号等)对传统算法进行改进,是提升医生推荐效果的途径之一[16]。但目前研究在进行医生推荐时较少考虑患者选择医生时的决策因素,而为患者推荐的医生既应考虑到医生擅长的疾病范围,又应考虑到患者选择医生时的其他参考因素[17,18],即为了向患者推荐切实符合其需求的医生,很有必要对患者选择医生时的决策机理进行分析。
3 推荐框架描述
本文构建的医生推荐模型框架包含数据收集与预处理模块、基于患者咨询文本的医生评分模块、基于患者决策机理的医生评分模块与医生推荐模块等部分,具体如图1所示。
图1
将收集的数据分为患者咨询文本与医生基本数据,对于收集到的患者咨询文本,在对其进行分词、去停用词等预处理工作后,以Word2Vec模型对其进行训练,得到咨询文本中每个词的向量,然后从每个患者的咨询文本中提取患者特征,从医生历史诊断过的患者咨询文本中提取医生特征,计算医患间的特征相似度进行基于咨询文本的医生评分。对于收集到的医生基本数据,在对其进行数据清洗、数据规范化等预处理后,以其为基础进行因子分析,在因子分析的基础上分析不同因子对患者决策的影响,进行基于决策机理的医生评分。最后综合基于咨询文本与决策机理的医生评分,进行医生个性化推荐。
4 数据来源与处理
4.1 数据收集
表1
医生基本信息数据集①(①
Table 1
姓名 | 职称 | 对应 患者数 (人) | 诊断 费用 (元) | 总访 问量 (次) | 总文章数(篇) | 总患者数(人) | 诊后 报道数 (人) | 感谢 信数 (个) | 心意 礼物数 (个) | 注册 时间(年) | 患者 对话数 (个) | 医生 对话数 (个) |
---|---|---|---|---|---|---|---|---|---|---|---|---|
左晟 | 副主任 | 21 | 20 | 6 341 | 11 | 121 | 10 | 1 | 6 | 2018 | 369 | 153 |
朱奇志 | 副主任 | 16 | 40 | 50 939 | 2 | 60 | 0 | 1 | 9 | 2013 | 311 | 89 |
朱蓬燕 | 主治 | 8 | 15 | 46 757 | 26 | 82 | 33 | 9 | 5 | 2017 | 168 | 66 |
朱保 | 主治 | 0 | 10 | 263 456 | 0 | 2 348 | 2 168 | 77 | 233 | 2016 | 1 875 | 623 |
周忠辉 | 副主任 | 18 | 20 | 39 117 | 18 | 167 | 7 | 3 | 1 | 2018 | 266 | 116 |
周云芝 | 主任 | 8 | 80 | 1 118 745 | 7 | 1 167 | 134 | 9 | 43 | 2009 | 374 | 151 |
周文胜 | 主任 | 19 | 30 | 99 496 | 2 | 178 | 100 | 14 | 13 | 2017 | 315 | 104 |
… | … | … | … | … | … | … | … | … | … | … | … | … |
安建峰 | 副主任 | 6 | 60 | 1 301 699 | 0 | 2 778 | 1 602 | 74 | 164 | 2009 | 463 | 203 |
(注:诊断费用为“好大夫在线”的图文问诊费用;注册时间仅显示注册年,但后续计算中会具体到注册日。数据采集时间为2019-05-12。)
表2 患者咨询文本数据集(共3 125个)
Table 2
医生姓名 | 文本序号 | 咨询文本 |
---|---|---|
左晟 | 1 | 吸烟后胸闷,感觉有东西压迫,呼吸较费力,一天一包烟左右,一旦不抽烟症状会有所减轻,一抽烟就有胸闷,持续了大约三天了,症状之前没有发生过,去年10月左右检查过心电图,今年2月也拍过胸片…… |
左晟 | 2 | 半个月之前感冒咳嗽,之前咳嗽有痰,吃了药,还挂了头孢,虽然现在没痰了,但是咳嗽一直没好全,现在早上和晚上睡都不咳,就是中午到下午这段时间干咳无痰,有时候张口说话就忍不住想咳嗽…… |
左晟 | 3 | 不咳嗽,就是早晨感觉胸口有痰,使劲刻出来,是浓黄色,有时是褐色,中午和晚上吃过饭,自己主动把他刻出来,是白色比较稀。鼻涕是浓白涕,难擤出来,出来都一小块,一小块…… |
… | … | … |
安建峰 | 3 125 | 诊后治疗和康复相关问题 |
4.2 数据预处理
对于表1中的数据,为从患者咨询文本中提取医生相关特征,剔除对应患者数在5名以下的医生,最终得到201位医生的相关数据,数据集中有一位医生缺失诊断费用数据,也将其剔除,最后保留200位医生的相关数据。同时,为更好地分析用户决策机理,需要对部分数据进行加工处理,具体如下。
(1)统计医生注册时间到数据采集时间的天数作为医生注册天数;
(2)利用总访问量、总患者数与注册天数计算出平均每天访问量与平均每天患者数,用以表示医生的平均热度;
(3)以医生对话数除以患者对话数得到医患对话比用以表示医生的对话活跃度;
(4)医生的职称从高到低分为主任医师、副主任医师、主治医师与住院医师,将其转换为数字表示,主任医师为3,副主任医师为2,主治医师、住院医师为1(因主治医师、住院医师数量较少故将其都转换为1)。处理后的医生基本信息数据集如表3所示。
表3 医生基本信息集(共200位)
Table 3
姓名 | 职称 | 诊断费用(元) | 总访问量 (次) | 总文章数(篇) | 总患者数(人) | 诊后报道数(人) | 感谢信数(个) | 心意礼物数(个) | 注册天数(天) | 平均每天 患者数(人) | 平均每天 访问量(次) | 医患 对话比 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
左晟 | 2 | 20 | 6 341 | 11 | 121 | 10 | 1 | 6 | 373 | 0.324 | 17.000 | 0.415 |
朱奇志 | 2 | 40 | 50 939 | 2 | 60 | 0 | 1 | 9 | 2 110 | 0.028 | 24.142 | 0.286 |
朱蓬燕 | 1 | 15 | 46 757 | 26 | 82 | 33 | 9 | 5 | 842 | 0.097 | 55.531 | 0.393 |
周忠辉 | 2 | 20 | 39 117 | 18 | 167 | 7 | 3 | 1 | 332 | 0.503 | 117.822 | 0.436 |
周云芝 | 3 | 80 | 1 118 745 | 7 | 1 167 | 134 | 9 | 43 | 3 496 | 0.334 | 320.007 | 0.404 |
周文胜 | 3 | 30 | 99 496 | 2 | 178 | 100 | 14 | 13 | 753 | 0.236 | 132.133 | 0.330 |
周凤丽 | 2 | 40 | 406 163 | 3 | 1 017 | 542 | 36 | 201 | 3 841 | 0.265 | 105.744 | 0.429 |
… | … | … | … | … | … | … | … | … | … | … | … | … |
安建峰 | 2 | 60 | 1 301 699 | 0 | 2 778 | 1 602 | 74 | 164 | 3 688 | 0.753 | 352.955 | 0.438 |
对于表3中的医生,首先分析其在表2中对应的患者咨询文本,发现每位患者的咨询文本数都在10以上,为避免患者咨询文本间字符数相差过大而对后续基于词向量的相似度计算造成影响,将所有患者的咨询文本进行截取,截取最靠前的文本(靠前的文本通常与患者需求关系较大),每个文本取前25个字符(计1个汉字或1个符号为1个字符,若文本字符数不足25则取整条文本)。每位医生对应患者数为5-30,200位医生共对应2 830位患者,得到2 830条字符数在10-25之间的咨询文本(据统计,2 830条咨询文本中长度最短的文本字符数为10)。此外,在截取字符时发现患者经常以日期开头,而日期表示的患者需求特征较少,故在截取前将其作为停用词去除(去除1-9等数字),患者咨询文本数据集如表4所示。
表4 患者咨询文本数据集(共2 830个)
Table 4
医生姓名 | 文本序号 | 咨询文本 |
---|---|---|
左晟 | 1 | 吸烟后胸闷,感觉有东西压迫,呼吸较费力,一天一包烟 |
左晟 | 2 | 半个之前感冒咳嗽,之前咳嗽有痰,吃了药,还挂了头孢 |
左晟 | 3 | 不咳嗽,就是早晨感觉胸口有痰,使劲刻出来,是浓黄色 |
左晟 | 4 | 几年前查出有轻微的肺结核,医生说没事,去单位体检的 |
左晟 | 5 | 咳嗽好长时间了,春节前一次感冒引起的咳嗽一直到现在 |
… | … | … |
陈安琪 | 2 830 | 头晕恶心眼痛困乏颈椎不舒服 |
本文的推荐算法需要用到Word2Vec词向量模型,词向量模型的效果与所选训练语料具有较大关系,将常用的维基百科语料与“好大夫在线”的文本作为语料进行对比,发现将“好大夫在线”的文本作为本研究的语料进行词向量模型训练具有较好的效果。因此,选取“好大夫在线”的文本作为语料进行词向量模型训练,语料为305位医生所对应的3 125条患者咨询文本。同时,考虑到对咨询文本进行字数截取后,咨询文本中的词语会发生一定变化,故将截取后的2 830位患者的咨询文本也作为训练文本,最后共得到5 955条文本作为词向量训练语料。
5 基于患者咨询文本的医生评分
5.1 Word2Vec模型训练
利用Python的Gensim工具包对语料进行训练,在训练时选择CBOW模型,考虑到本文训练语料规模较小,将词向量维度设置为100。使用Jieba分词器对训练语料进行分词处理,随后进行词向量模型训练,得到语料中所有词的词向量,如表5所示。
表5 训练词语的词向量
Table 5
词语 维度 | 1 | 2 | 3 | 4 | … | 100 |
---|---|---|---|---|---|---|
V咳嗽 | -1.033 | 0.285 | 0.821 | 0.422 | … | -0.400 |
V发烧 | 0.310 | -0.568 | 4.438 | -0.498 | … | -0.423 |
V发炎 | 0.188 | -1.073 | -0.416 | 0.496 | … | -1.078 |
V支气管 | 0.124 | 1.828 | -0.381 | 0.888 | … | -1.179 |
… | … | … | … | … | … | … |
V感冒 | 1.294 | -1.827 | 1.592 | 0.642 | … | -3.470 |
在训练得到Word2Vec词向量模型后,选择“咳嗽”、“发烧”、“发炎”与“支气管”4个具有较强代表性的词语作为测试词,计算测试词与其他词语间的相似度对词向量效果进行评价,与所选评测词相似度较高的词语如表6所示。
表6 基于词向量模型的词语相似度
Table 6
测试词 词语 | 词语1 | 相似度 | 词语2 | 相似度 | 词语3 | 相似度 | … |
---|---|---|---|---|---|---|---|
咳嗽 | 干咳 | 0.864 | 咳 | 0.732 | 流鼻涕 | 0.660 | … |
发烧 | 退 | 0.796 | 低烧 | 0.795 | 高烧 | 0.765 | … |
发炎 | 扁桃体 | 0.856 | 化脓 | 0.879 | 流涕 | 0.743 | … |
支气管 | 扩张 | 0.843 | 管壁 | 0.769 | 肺气肿 | 0.749 | … |
可以看出,训练得到的词向量模型具有不错的效果,以“咳嗽”为例,与其相似度最高的词语分别为“干咳”、“咳”与“流鼻涕”。利用训练得到的模型计算词之间的相似度较为符合预期结果,可以作为后续研究的基础。
5.2 医生与患者特征表示
(1) 医生特征表示
表7 医生特征表示示例(共200位)
Table 7
医生姓名 | 文本序号 | 句向量 |
---|---|---|
左晟 | 1 | (V吸烟+V后+V胸闷+…+V烟)/文本词数 |
2 | (V半个+V之前+V感冒+…+V头孢)/文本词数 | |
3 | (V不+V咳嗽+V早餐+…+V黄色)/文本词数 | |
4 | (V几年+V查出+V轻微+…+V的)/文本词数 | |
5 | (V咳嗽+V好长时间+V春节+…+V现在)/文本词数 | |
… | … | … |
陈安琪 | 1 | (V感觉+V感冒+V不+…+V下)/文本词数 |
2 | (V有次+V感觉+V左腹+…+V需)/文本词数 | |
3 | (V之前+V检查+V血糖+…+V迅)/文本词数 | |
4 | (V我+V失眠+V入睡+…+V豪)/文本词数 | |
5 | (V怀孕+V中+V今天+…+V还)/文本词数 |
(2) 患者特征表示
在得到200位医生的特征表示后,从200位医生中分别选出职称为3、2、1的医生各10位,共选取30位医生,并为这30位医生各选取一位当前选择其咨询的患者,采集每位患者的当前咨询文本,共选出30位患者作为测试患者,利用得到的词向量模型对咨询文本中的词进行向量转换,整合得到句向量,用句向量表示测试患者特征,如表8所示。
表8 测试患者数据集示例(共30位)
Table 8
测试患者序号 | 医生姓名 | 职称 | 句向量 |
---|---|---|---|
1 | 欧阳文献 | 3 | (V验血+V常规+V巨细胞+…+V定量)/文本词数 |
2 | 周云芝 | 3 | (V平时+V喘+V吹风+…+V刺激性)/文本词数 |
3 | 周文胜 | 3 | (V医生+V您好+V半个+…+V后)/文本词数 |
4 | 赵琪 | 2 | (V第一次+V咳血+V治疗+…+V详细资料)/文本词数 |
… | … | … | … |
30 | 秦少文 | 1 | (V婆婆+V慢性+V支气管炎+…+V咳嗽)/文本词数 |
5.3 医生评分计算
利用咨询文本得到医生及测试患者的特征表示后,计算医生及测试患者之间的文本相似度得到基于咨询文本的医生评分。每一位医生与测试患者间的相似度计算如公式(1)所示。
其中,
表9 医生与测试患者间相似度示例
Table 9
医生姓名 | 医生序号 | 医生对应文本 | 测试 患者1 | 测试 患者2 | … | 测试 患者30 |
---|---|---|---|---|---|---|
欧阳文献 | 1 | 1 | 0.590 | 0.061 | … | 0.272 |
2 | 0.537 | 0.221 | … | 0.262 | ||
3 | 0.466 | 0.479 | … | 0.089 | ||
4 | 0.692 | 0.078 | … | 0.044 | ||
5 | 0.655 | 0.447 | … | 0.364 | ||
均值 | 0.588 | 0.257 | … | 0.206 | ||
… | … | … | … | … | … | … |
陈安琪 | 200 | 1 | 0.251 | 0.661 | … | 0.389 |
2 | 0.493 | 0.420 | … | 0.205 | ||
3 | 0.727 | 0.261 | … | 0.245 | ||
4 | 0.262 | 0.630 | … | 0.314 | ||
5 | 0.369 | 0.535 | … | 0.480 | ||
均值 | 0.420 | 0.500 | … | 0.327 |
表9显示了医生对应文本与测试患者文本间相似度,该相似度的均值为医患相似度,例如医生“欧阳文献”与测试患者1间的相似度为0.588。在得到医患相似度后,为对医患间关系进行更好的展示,按每个医生与测试患者间的相似度大小对医生进行相似度排序并打分,200个医生排序后得分编号为1-200,按相似度大小对医生进行打分,与测试患者间相似度最大的医生编号为1,其得分为199,与测试患者间相似度最小的医生编号为200,其得分为0。为便于计算,对基于相似度的医生得分进行归一化处理,如公式(2)所示。
其中,
表10 基于咨询文本的医生评分示例
Table 10
测试患者1 | 测试患者2 | … | 测试患者30 | |||
---|---|---|---|---|---|---|
医生序号 | 医生得分 | 医生序号 | 医生得分 | … | 医生序号 | 医生得分 |
15 | 1.000 | 116 | 1.000 | … | 186 | 1.000 |
48 | 0.995 | 168 | 0.995 | … | 11 | 0.995 |
158 | 0.990 | 165 | 0.990 | … | 114 | 0.990 |
89 | 0.985 | 103 | 0.985 | … | 30 | 0.985 |
1 | 0.980 | 11 | 0.980 | … | 69 | 0.980 |
77 | 0.975 | 74 | 0.975 | … | 79 | 0.975 |
196 | 0.970 | 146 | 0.970 | … | 87 | 0.970 |
3 | 0.965 | 71 | 0.965 | … | 16 | 0.965 |
61 | 0.960 | 65 | 0.960 | … | 110 | 0.960 |
… | … | … | … | … | … | … |
116 | 0.000 | 158 | 0.000 | … | 157 | 0.000 |
表11 测试患者选择的医生得分
Table 11
患者序号 | 医生序号 | 医生 | 得分排序 | 得分 | 患者序号 | 医生序号 | 医生 | 得分排序 | 得分 |
---|---|---|---|---|---|---|---|---|---|
10 | 11 | 张铭正 | 1 | 1.000 | 2 | 2 | 周云芝 | 59 | 0.709 |
12 | 96 | 朱奇志 | 1 | 1.000 | 16 | 101 | 赵海金 | 65 | 0.678 |
15 | 100 | 赵晓刚 | 1 | 1.000 | 13 | 97 | 周忠辉 | 68 | 0.663 |
17 | 102 | 张彦亮 | 2 | 0.995 | 9 | 10 | 张念志 | 73 | 0.638 |
1 | 1 | 欧阳文献 | 5 | 0.980 | 6 | 6 | 张伟 | 87 | 0.568 |
30 | 183 | 秦少文 | 16 | 0.925 | 4 | 4 | 赵琪 | 89 | 0.558 |
19 | 104 | 张鸿 | 18 | 0.915 | 8 | 8 | 张齐武 | 94 | 0.533 |
5 | 5 | 张炜 | 31 | 0.849 | 28 | 181 | 涂波 | 97 | 0.518 |
26 | 179 | 温鹏 | 33 | 0.839 | 29 | 182 | 邵川 | 106 | 0.472 |
18 | 103 | 张晓阳 | 42 | 0.794 | 3 | 3 | 周文胜 | 116 | 0.422 |
11 | 95 | 左晟 | 47 | 0.769 | 27 | 180 | 王红星 | 126 | 0.372 |
21 | 174 | 朱蓬燕 | 52 | 0.744 | 14 | 98 | 钟爱虹 | 137 | 0.317 |
22 | 175 | 仲敏 | 52 | 0.744 | 24 | 177 | 张凤 | 137 | 0.317 |
7 | 7 | 张斯为 | 53 | 0.739 | 23 | 176 | 张永明 | 152 | 0.241 |
25 | 178 | 徐汝洪 | 58 | 0.714 | 20 | 105 | 张方 | 167 | 0.166 |
5.4 测试结果分析
表12 测试患者10相关数据
Table 12
患者10 咨询文本 | 推荐 医生 | 医生对应患者 | 对应患者咨询文本 |
---|---|---|---|
两个宝宝咳嗽打喷嚏鼻塞吐奶吃奶胃口不好 | 张铭正 | 对应患者1 | 宝宝睡着咳嗽怎么回事起来玩耍不咳嗽 |
对应患者2 | 婴儿咳嗽口臭原因药能好得快 | ||
对应患者3 | 宝宝咳嗽厉害十天希望早点得到好治疗 | ||
对应患者4 | 咳嗽喘喘得挺厉害抗生素过敏 | ||
对应患者5 | 反复咳嗽流鼻涕不发烧 |
6 基于决策机理的医生评分
在基于咨询文本医生评分的基础上,以因子分析为基础对患者选择医生时的决策机理进行分析,并对医生评分。因子分析是一种将多个变量转换为少数几个不相关的综合指标的统计方法,可以理解为一种将可能存在相关关系的变量进行特征提取并形成综合变量的方法[24]。
本文利用因子分析挖掘影响患者选择医生的因素间的相关关系,通过因子分析将关联较强的因子进行合并,形成各主因子,分析不同主因子对患者决策的影响,并以患者决策机理对医生进行评分。
6.1 决策因子分类
表13 旋转后因子载荷矩阵
Table 13
因子 主因子 | 1 | 2 | 3 | 4 |
---|---|---|---|---|
平均每天访问量 | 0.894 | |||
总访问量 | 0.884 | |||
总文章数 | 0.733 | |||
平均每天患者数 | 0.655 | 0.644 | ||
诊后报道数 | 0.867 | |||
感谢信数 | 0.808 | |||
心意礼物数 | 0.791 | |||
注册天数 | 0.767 | |||
职称 | 0.691 | |||
诊断费用 | 0.523 | |||
医患对话比 | 0.861 |
(注:对于因子分析的结果,用KMO和Bartlett进行检验,得到KMO的值为0.702,大于0.600的可接受水平;Bartlett检验中,显著性值p=0.000<0.050,表明所选样本数据适用于因子分析。)
11个因子共生成了4个主因子,其中除“平均每天患者数”外其余因子都只在某一个主因子中占有较大特征比重,对于“平均每天患者数”考虑到其与因变量“总患者数”间具有较大相关性,将其加入多个主因子可能会造成某一因素的过度考量,因此仅保留其系数较大的一项,即仅保留其在主因子1中的影响系数。此外,通过分析表13中的数据,发现“诊断费用”与主因子3存在正相关关系,即“诊断费用”升高时会提升主因子3的数值,考虑到患者在选择医生有较大可能选择“诊断费用”较低的医生,故在4个主因子外加入“负诊断费用”因子来描述“诊断费用”降低时的情况(“负诊断费用”取值与“诊断费用”相反),用于进一步分析“费用”对患者决策的影响。
最后共得到5个主因子,对于主因子中的每个因子按其系数大小来分配其在主因子中的影响权重,并使得主因子中各组成因子的权值和为1,进行权值分配后的因子矩阵如表14所示。
表14 因子权值矩阵
Table 14
主因子 | 因子-权值 |
---|---|
主因子1 | 平均每天访问量-0.282;总访问量-0.279;总文章数-0.232;平均每天患者数-0.207 |
主因子2 | 诊后报道数-0.351;感谢信数-0.328;心意礼物数-0.321 |
主因子3 | 注册天数-0.387;职称-0.349;诊断费用-0.264 |
主因子4 | 医患对话比-1 |
主因子5 | 负诊断费用-1 |
6.2 医生评分计算
表15 基于各因子的医生得分
Table 15
因子医生 | 平均每天访问量 | 总访 问量 | 总文 章数 | 诊断 费用 | … | 负诊断费用 |
---|---|---|---|---|---|---|
欧阳文献 | 0.729 | 0.693 | 0.013 | 0.600 | … | 0.400 |
周云芝 | 0.543 | 0.683 | 0.008 | 0.600 | … | 0.400 |
周文胜 | 0.322 | 0.191 | 0.002 | 0.200 | … | 0.800 |
赵琪 | 0.678 | 0.794 | 0.035 | 0.200 | … | 0.800 |
张炜 | 0.894 | 0.910 | 0.076 | 0.600 | … | 0.400 |
… | … | … | … | … | … | … |
陈安琪 | 0.171 | 0.055 | 0.005 | 0.000 | … | 1.000 |
表16 基于各主因子的医生得分
Table 16
医生 | 主因子1 | 主因子2 | 主因子3 | 主因子4 | 主因子5 |
---|---|---|---|---|---|
欧阳文献 | 0.701 | 0.895 | 0.673 | 0.221 | 0.400 |
周云芝 | 0.505 | 0.385 | 0.797 | 0.563 | 0.400 |
周文胜 | 0.245 | 0.321 | 0.456 | 0.171 | 0.800 |
赵琪 | 0.740 | 0.279 | 0.754 | 0.930 | 0.800 |
张炜 | 0.855 | 0.618 | 0.894 | 0.523 | 0.400 |
… | … | … | … | … | … |
陈安琪 | 0.198 | 0.051 | 0.004 | 0.990 | 1.000 |
7 医生推荐及结果分析
7.1 医生推荐
表17 测试患者对应医生的决策得分
Table 17
测试患者-医生 | 主因子1 | 主因子2 | 主因子3 | 主因子4 | 主因子5 |
---|---|---|---|---|---|
24-张凤 | 0.472 | 0.674 | 0.056 | 0.216 | 0.800 |
23-张永明 | 0.543 | 0.627 | 0.198 | 0.452 | 0.400 |
20-张方 | 0.497 | 0.568 | 0.484 | 0.623 | 0.600 |
加粗项表示医生在该主因子上得分最高。本文选择医生得分最高的因子代表患者决策时的心理从而进行医生推荐,以“患者24-张凤”为例,“张凤”在主因子5上得分最高,表明患者在实际选择医生时很有可能将主因子5作为主要决策因素。因此,在为测试患者24进行医生推荐时将基于主因子5的医生得分作为基于决策机理的得分,将其与基于咨询文本的医生得分进行整合得到最终得分,从而进行医生推荐,得分整合方法如公式(3)所示。
其中,Score表示整合后的得分,
考虑到推荐医生时首先应考虑患者在疾病上的需求与医生擅长领域的相似性,故设置
表18 医生推荐结果
Table 18
测试患者序号 | 基于患者咨询文本 | 融合患者咨询文本与决策机理 | ||
---|---|---|---|---|
对应医生得分 | 排序第一医生 | 对应医生得分 | 排序第一医生 | |
24 | 0.317 | 张铭正 | 0.462 | 张铭正 |
23 | 0.241 | 贾钰华 | 0.357 | 史锁芳 |
20 | 0.166 | 朱奇志 | 0.303 | 赵晓刚 |
7.2 推荐结果分析
从表18可以看出,相较于基于咨询文本的得分,融合决策机理后测试患者的对应医生其得分都得到一定提高。这是因为在融合决策机理得分后,在对应主因子上得分靠前的医生融合后的总得分得到一定提高,故为测试患者推荐的医生排序情况都发生了一定变化。例如,为测试患者23、测试患者20推荐的医生中排序第一的医生发生了变化,而为测试患者24推荐的医生中排序第一的医生没有变化,这是因为测试患者24所对应的医生“张铭正”在融合主因子5上得分为1,故融合后其得分在200位医生中保持最高。
测试患者20对应的基于患者咨询文本与融合决策机理后排序第一医生的基本情况如表19所示。
表19 测试患者20推荐医生情况
Table 19
患者20咨询文本 | 推荐模型 | 医生 | 医生对应患者 | 对应患者咨询文本 |
---|---|---|---|---|
没有症状入职。体检拍胸片发现阴影 | 基于患者咨询文本 | 朱奇志 | 对应患者1 | 医生您好两半之前医院做保乳手术术后 |
对应患者2 | 检查见双肺纹理增粗模糊伴多发小叶中心结节 | |||
对应患者3 | 在备孕期中间感冒咳嗽厉害拍胸片想咨询 | |||
对应患者4 | 朱老师您好我份北医三院发现左肺上叶磨玻璃结节差 | |||
对应患者5 | 肺部有个环形三份肺炎做气管镜 | |||
医患对话比 | 0.286 | |||
融合患者咨询文本与 决策机理 | 赵晓刚 | 对应患者1 | 腰痛干咳门诊拍肾彩超做尿常规血常规 | |
对应患者2 | 后背左侧疼拍肺CT医生诊断还没发展肺癌 | |||
对应患者3 | 近期有时候睡觉会咳嗽睡醒痰比较上个号做血象 | |||
对应患者4 | 您好赵医生我于瑞金医院体检发现右上肺.MM磨 | |||
对应患者5 | 二十天前感冒咳嗽痰化痰止咳处理后胸闷干咳 | |||
医患对话比 | 0.466 |
为测试患者20推荐的医生“朱奇志”、“赵晓刚”所对应的患者文本均与测试患者20的咨询文本间具有较强的相似性,即都与“拍片”具有较强的关联。此外,可以发现在融合主因子4“医患对话比”后,“赵晓刚”成为推荐列表中排序第一的医生,其相较于“朱奇志”在“医患对话比”这一决策因素上具有较高得分,将其作为排序第一的医生推荐给测试患者20,一方面保证了在文本特征上医患间具有一定的相似度,另一方面也考虑了患者在决策时考量的其他因素,提升了医生推荐的效果与质量。
8 结 语
为向患者推荐更为满足其实际需求的医生资源,本文提出一种融合咨询文本与患者决策机理的医生推荐算法。在经过Word2Vec训练后得到词向量模型,利用模型计算文本相似度得到基于咨询文本的医生评分,通过因子分析对患者选择医生时的主要决策因子进行相关性分析,合并相关性较强的因子,并在合并时考虑各因子的重要程度,随后通过整合其他因子进行基于患者机理的医生评分。通过将基于咨询文本的医生得分与基于决策机理的医生得分进行整合,得到最终的医生得分,并按得分完成医生推荐。通过采集在线医疗平台“好大夫在线”上的相关数据,对所提医生推荐算法进行实证分析,证明了所提算法的有效性。该算法的意义在于,为患者进行医生推荐时,一方面能实现患者疾病与医生擅长领域的匹配,另一方面也考虑了患者选择医生时各种其他因素,提升了医生推荐的实用性。
本文的不足之处在于利用该算法进行推荐时需事先对患者之前的医生选择行为进行分析;此外,在进行医生推荐时是为单个患者进行推荐,时间成本较高,未来可以考虑对患者进行聚类,以提高推荐效率。
作者贡献声明
叶佳鑫:提出研究思路,设计研究方案,数据采集与处理,论文撰写与修订;
熊回香:提出研究方向,论文最终版本修订;
蒋武轩:论文最终版本修订。
利益冲突声明
所有作者声明不存在利益冲突关系。
支撑数据
支撑数据由作者自存储,E-mail:526212876@qq.com。
[1] 叶佳鑫,熊回香,蒋武轩.医生数据.xlsx.医生相关数据.
[2] 叶佳鑫,熊回香,蒋武轩.患者数据.xlsx.测试患者数据.
[3] 叶佳鑫,熊回香,蒋武轩.训练文本.xlsx.Word2vec训练文本.
[4] 叶佳鑫,熊回香,蒋武轩.医生得分1.xlsx.基于词向量相似度的医生得分.
[5] 叶佳鑫,熊回香,蒋武轩.医生得分2.xlsx.基于决策因素的医生得分.
[6] 叶佳鑫,熊回香,蒋武轩.医生推荐.xlsx.医生推荐结果.
参考文献
互联网+医疗模式的初步探索
[J].
Preliminary Exploration of Internet+Medical Model
[J].
国务院办公厅关于促进“互联网+医疗健康”发展的意见
[EB/OL]. [
Opinions of the General Office of the State Council on Promoting the Development of “Internet+Medical Health”
[EB/OL]. [
Effective Keyword Search in Relational Databases
[C]//
基于关键字的数据库搜索研究综述
[J].
Survey of Keyword-Based Search over Databases
[J].
哪些因素影响消费者的在线购买决策?——顾客感知价值的驱动作用
[J].
What Factors Influence Consumers’ Online Purchasing Decisions?——Customer Perceived Value Drivers
[J].
Factors Affecting Smartphone Purchase Decision Among Malaysian Generation Y
[J].
Factors Affecting Smartphone Purchase Among Indian Youth: A Descriptive Analysis
[J].
Factors Affecting Undergraduates’ Selection of Online Library Resources in Academic Tasks
[J].
网络健康信息服务用户购买决策的影响因素研究
[J].
Study of Factors That Influence Users’ Purchasing Decision of Health Information Services
[J].
数字图书馆环境下信息有用性和信息获取影响因素研究——信息获取自我效能的调节效果
[J].
Research on Impacting Factors of Information Usefulness and Information Acquisition in the Context of Digital Libraries: The Moderating Effect of Self-efficacy in Acquiring Information
[J].
A Doctor Recommendation Algorithm Based on Doctor Performances and Patient Preferences
[C]//
How to Find Your Appropriate Doctor: An Integrated Recommendation Framework in Big Data Context
[C]//
基于语义的医疗资源均衡推荐算法
[J].
Balance Recommendation Algorithm for Medical Resources Based on Semantic
[J].
信息通信
[J].
A Search of Personalized Doctor Recommendation Algorithm
[J].
DRGAN: A GAN-Based Framework for Doctor Recommendation in Chinese On-Line QA Communities
[C]//
基于用户决策机理的个性化推荐
[J].
Personalized Recommendation Based on User Decision-making Mechanism
[J].
一种融合多种用户行为的协同过滤推荐算法
[J].
Collaborative Filtering Algorithm Integrating Multiple User Behaviors
[J].
Collaboration-based Medical Knowledge Recommendation
[J].
Distributed Representations of Words and Phrases and Their Compositionality
[C]//
Word2vec的核心架构及其应用
[J].
The Architecture of Word2vec and Its Applications
[J].
Semantic Relatedness and Similarity of Biomedical Terms: Examining the Effects of Recency, Size, and Section of Biomedical Publications on the Performance of Word2vec
[J].
Chinese Text Summarization Algorithm Based on Word2vec
[J].
面向微博短文本分类的文本向量化方法比较研究
[J].
Comparing Text Vector Generators for Weibo Short Text Classification
[J].
/
〈 |
|
〉 |
