Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (9): 88-97     https://doi.org/10.11925/infotech.2096-3467.2019.0147
     研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于机器学习的在线问诊平台智能分诊研究
王若佳1,2,张璐1,王继民1()
1 北京大学信息管理系 北京 100871
2 北京大学海洋研究院 北京 100871
Automatic Triage of Online Doctor Services Based on Machine Learning
Ruojia Wang1,2,Lu Zhang1,Jimin Wang1()
1 Department of Information Management, Peking University, Beijing 100871, China
2 Institute of Ocean Research, Peking University, Beijing 100871, China
全文: PDF (710 KB)   HTML ( 19
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】比较不同机器学习算法在智能分诊任务中的准确率, 针对性地分析在线问诊平台的类目设置问题, 尝试从数据中提取新特征提升分类器效果。【方法】基于“春雨医生”13个科室33 073条实际问诊数据, 比较两种文本向量化方式在支持向量机、多项式贝叶斯、Logistic回归、随机森林、k近邻以及集成分类模型这6种分类器上实现智能分诊的准确率; 通过高频词分析及词语共现对不同科室的错分数据进一步分析。【结果】文本向量化方法为TF-IDF、分类算法为支持向量机的分类器在智能分诊中的总体效果最优, 增加年龄和性别特征后分类准确率可达76.3%。该分类器对外科数据分诊准确率仅为40.9%, 原因在于问诊平台类目设置的混淆。【局限】假设现有数据中患者选择的科室是正确的。【结论】机器学习可用于在线问诊平台的智能分诊任务, 根据医疗数据特点增加输入特征是分类器提高准确率的一个方向。部分疾病及症状的跨科室性影响了分类器的效果, 在线问诊平台可通过推荐多个科室的方式来提升患者问诊体验。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王若佳
张璐
王继民
关键词 在线问诊智能分诊机器学习支持向量机    
Abstract

[Objective] This paper compares the performance of various machine learning algorithms for automatic triage, aiming to improve their effectiveness through analyzing mis-classification data. [Methods] First, we retrieved 33,073 real patients’ questions from a website named “chunyu doctor”. Then, we compared the accuracy of two text vectorization methods and six classification models. Finally, we analyzed the mis-classification data and extracted new features to improve the performance of models. [Results] The best automatic triage model used TF-IDF as text vectorization method and support vector machine as classification algorithm. After adding age and gender characteristics, the classification accuracy rate reached 76.3%. The classifier had the lowest accuracy rate for surgery department due to the setting of this platform’s categories. [Limitations] We assumed that the department selection of the patient was correct. [Conclusions] Machine learning techniques could improve the performance of automatic triage services of the online health consulting platforms.

Key wordsAsk the Doctor Service    Automatic Triage    Machine Learning    Support Vector Machine
收稿日期: 2019-02-11      出版日期: 2019-10-23
ZTFLH:  TP393 G35  
引用本文:   
王若佳,张璐,王继民. 基于机器学习的在线问诊平台智能分诊研究[J]. 数据分析与知识发现, 2019, 3(9): 88-97.
Ruojia Wang,Lu Zhang,Jimin Wang. Automatic Triage of Online Doctor Services Based on Machine Learning. Data Analysis and Knowledge Discovery, 2019, 3(9): 88-97.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0147      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2019/V3/I9/88
  春雨医生网站的经典问答界面
  医生和患者的对话示例
  “春雨医生”平台的问诊流程
科室 示例 样本数(个)
内科 我的心跳最近跳的次数在九十跳左右算正常吗 3 405
外科 60岁老人脚后跟摔了里面有小碎片, 怎么治疗 2 362
妇科 盆腔炎会肚子隐隐痛吗, 没异味, 白带特别粘 4 205
产科 怀孕四个月喝酒抽烟熬夜对胎儿有影响吗 1 937
儿科 7天新生儿综合评分36分踏步反射0分是脑瘫吗 2 294
男科 睾丸紧缩好像变小了, 是怎么回事呢? 2 553
骨伤科 手肘关节处肿胀, 可以不用打石膏固定吗 1 914
营养科 为什么有一种人每天暴饮暴食都不会胖的呢 3 691
肿瘤科 59岁老人宫颈癌放化疗后尿失禁带点血怎么回事 2 103
眼科 62岁青光眼晚期如何治疗 2 822
耳鼻咽喉科 鼻子塞得很严重, 擦了油和通鼻贴完全没有效果, 怎么办 2 036
口腔颌面科 最近这几天刷牙流血越来越厉害了怎么回事 1 926
皮肤性病科 尖锐湿疣有什么特征 1 825
总计 33 073
  不同科室的经典问答示例
分类算法 Count TF-IDF
支持向量机 73.4% 75.1%
随机森林 68.6% 70.0%
多项式贝叶斯 71.8% 69.1%
逻辑回归 74.2% 74.0%
k近邻 48.4% 54.9%
集成分类 74.5% 74.4%
  分类器的准确率比较
科室 数据量 分诊准确率
眼科 565 94.9%
营养科 738 85.0%
口腔颌面科 385 84.2%
耳鼻喉科 407 82.6%
肿瘤科 421 82.2%
妇科 841 82.2%
骨伤科 383 72.6%
内科 681 72.2%
男科 511 72.2%
产科 387 66.1%
儿科 459 64.3%
皮肤性病科 365 62.5%
外科 472 40.9%
  分类器在不同科室中的分诊效果
原始科室 预测科室 错误率
外科 男科 25%
产科 妇科 22%
儿科 内科 10%
男科 外科 10%
妇科 产科 7%
内科 儿科 6%
骨伤科 皮肤性病科 5%
皮肤性病科 内科 5%
营养科 儿科 5%
肿瘤科 妇科 5%
耳鼻喉科 内科 4%
口腔颌面科 内科 3%
眼科 皮肤性病科 1%
  不同科室的错分情况
科室 常见高频易混词举例
外科-男科 龟头、阴茎、手淫、勃起、早泄、包皮、尿、睾丸、
疼、精子、性生活、前列腺炎、痒、手术、龟头炎
产科-妇科 月经、怀孕、流产、检查、子宫、出血、严重、疼、
自然流产、分泌物、流血、孩子
儿科-内科 发烧、咳嗽、治疗、感冒、药、反复、症状、大便、
吐、检查、拉肚子、痰
  科室常见高频易混词
科室 年龄平均值 男性比例 女性比例
妇科 27.2 3.5% 96.5%
产科 27.0 4.1% 95.9%
营养科 23.6 35.1% 64.9%
儿科 10.9 43.1% 56.9%
口腔颌面科 26.6 43.5% 56.5%
皮肤性病科 25.8 44.1% 55.9%
眼科 28.3 45.0% 55.0%
肿瘤科 47.3 45.5% 54.5%
耳鼻喉科 27.8 47.8% 52.2%
内科 34.8 48.9% 51.1%
骨伤科 34.0 51.3% 48.7%
外科 31.3 64.0% 36.0%
男科 26.9 94.4% 5.6%
总体 28.6 43.9% 56.1%
  不同科室患者的平均年龄和性别比例
科室 增加特征前准确率 增加特征后准确率 提升率
妇科 82.7% 83.2% 0.5%
产科 67.4% 67.9% 0.5%
营养科 86.7% 87.5% 0.8%
儿科 58.3% 61.8% 3.5%
口腔颌面科 81.6% 82.1% 0.4%
皮肤性病科 60.6% 60.6% 0.0%
眼科 99.4% 99.4% 0.0%
肿瘤科 75.5% 76.6% 1.0%
耳鼻喉科 85.8% 84.7% -1.1%
内科 73.2% 73.8% 0.5%
骨伤科 70.4% 71.1% 0.7%
外科 45.8% 46.4% 0.6%
男科 70.0% 73.5% 3.5%
总体 75.5% 76.3% 0.8%
  不同科室特征增加前后的分诊准确率比较
[1] Pineda A L, Ye Y, Visweswaran S , et al. Comparison of Machine Learning Classifiers for Influenza Detection from Emergency Department Free-text Reports[J]. Journal of Biomedical Informatics, 2015,58:60-69.
[2] 孔倩, 王杜娟, 王延章 , 等. 基于多目标神经网络的前列腺癌诊断方法[J]. 系统工程理论与实践, 2018,38(2):532-544.
[2] ( Kong Qian, Wang Dujuan, Wang Yanzhang , et al. Multi-Objective Neural Network-Based Diagnostic Model of Prostatic Cancer[J]. Systems Engineering - Theory & Practice, 2018,38(2):532-544.)
[3] Nikfarjam A, Sarker A, O’connor K , et al. Pharmacovigilance from Social Media: Mining Adverse Drug Reaction Mentions Using Sequence Labeling with Word Embedding Cluster Features[J]. Journal of the American Medical Informatics Association, 2015,22(3):671-681.
[4] Kose I, Gokturk M, Kilic K . An Interactive Machine- Learning-Based Electronic Fraud and Abuse Detection System in Healthcare Insurance[J]. Applied Soft Computing, 2015,36:283-299.
[5] 李嘉, 唐洁, 蒋玲 , 等. 在线健康咨询市场中的价格溢价研究[J]. 管理科学, 2018,31(1):15-32.
[5] ( Li Jia, Tang Jie, Jiang Ling , et al. Price Premiums in the Online Health Consultation Market[J]. Journal of Management Science, 2018,31(1):15-32.)
[6] 刘笑笑 . 在线医生信誉和医生努力对咨询量的影响研究[D]. 哈尔滨: 哈尔滨工业大学, 2014.
[6] ( Liu Xiaoxiao . The Impact of Online Doctor Reputation and Doctor Effort on Consultation Amount[D]. Harbin: Harbin Institute of Technology, 2014.)
[7] 薛书峰 . 互联网医疗的定价影响因素研究[D]. 南京: 南京大学, 2016.
[7] ( Xue Shufeng . Research on the Factors Affecting the Pricing of Online Healthcare Community[D]. Nanjing: Nanjing University, 2016.)
[8] 邓朝华, 洪紫映 . 在线医疗健康服务医患信任影响因素实证研究[J]. 管理科学, 2017,30(1):43-52.
[8] ( Deng Zhaohua, Hong Ziying . An Empirical Study of Patient-physician Trust Impact Factors in Online Healthcare Services[J]. Journal of Management Science, 2017,30(1):43-52.)
[9] 范晓妞, 艾时钟 . 在线医疗社区参与双方行为对知识交换效果影响的实证研究[J]. 情报杂志, 2016,35(7):173-178.
[9] ( Fan Xiaoniu, Ai Shizhong . An Empirical Study on the Relationship Between Online Medical Community Participants’ Behaviors and Knowledge Exchange Effect[J]. Journal of Intelligence, 2016,35(7):173-178.)
[10] Björk A B, Hillborg H, Augutis M , et al. Evolving Techniques in Text-Based Medical Consultation-Physicians’ Long-Term Experiences at an Ask the Doctor Service[J]. International Journal of Medical Informatics, 2017,105:83-88.
[11] Umefjord G, Petersson G, Hamberg K . Reasons for Consulting a Doctor on the Internet: Web Survey of Users of an Ask the Doctor Service[J]. Journal of Medical Internet Research, 2003,5(4):e26.
[12] Umefjord G, Sandström H, Malker H , et al. Medical Text-Based Consultations on the Internet: A 4-Year Study[J]. International Journal of Medical Informatics, 2008,77(2):114-121.
[13] Ma X, Gui X, Fan J , et al. Professional Medical Advice at Your Fingertips: An Empirical Study of an Online[J]. Proceedings of the ACM on Human-Computer Interaction, 2018, 2: Article No. 116.
[14] 吴江, 周露莎 . 在线医疗社区中知识共享网络及知识互动行为研究[J]. 情报科学, 2017,35(3):144-151.
[14] ( Wu Jiang, Zhou Lusha . The Study of Knowledge Sharing Network and Users’ Knowledge Interaction in Online Health Community[J]. Information Science, 2017,35(3):144-151.)
[15] 吴江, 施立 . 基于社会网络分析的在线医疗社区用户交互行为研究[J]. 情报科学, 2017,35(7):120-125.
[15] ( Wu Jiang, Shi Li . Study of the User Interaction Behavior in Online Health Community Based on Social Network Analysis[J]. Information Science, 2017,35(7):120-125.)
[16] 吴江, 李姗姗, 周露莎 , 等. 基于随机行动者模型的在线医疗社区用户关系网络动态演化研究[J]. 情报学报, 2017,36(2):213-220.
[16] ( Wu Jiang, Li Shanshan, Zhou Lusha , et al. Research on Dynamic Evolution of Users’ Relationship Network in Online Health Community Based on Stochastic Actor-oriented Model[J]. Journal of the China Society for Scientific and Technical Information, 2017,36(2):213-220.)
[17] 吴江, 侯绍新, 靳萌萌 , 等. 基于LDA模型特征选择的在线医疗社区文本分类及用户聚类研究[J]. 情报学报, 2017,36(11):1183-1191.
[17] ( Wu Jiang, Hou Shaoxin, Jin Mengmeng , et al. LDA Feature Selection Based Text Classification and User Clustering in Chinese Online Health Community[J]. Journal of the China Society for Scientific and Technical Information, 2017,36(11):1183-1191.)
[18] 刘通, 杨敬成 . 基于信号传播算法的在线医疗咨询反馈内容评估方法[J]. 数据分析与知识发现, 2017,1(11):29-36.
[18] ( Liu Tong, Yang Jingcheng . Evaluating Online Healthcare Consultation Feedbacks Based on Signal Transmission Algorithm[J]. Data Analysis and Knowledge Discovery, 2017,1(11):29-36.)
[19] Himmel W, Reincke U, Michelmann H W . Text Mining and Natural Language Processing Approaches for Automatic Categorization of Lay Requests to Web-Based Expert Forums[J]. Journal of Medical Internet Research, 2009,11(3):e25.
[20] Abdaoui A, Azé J, Bringay S , et al. Assisting E-patients in an Ask the Doctor Service[J]. Studies in Health Technology and Informatics, 2015,210:572-576.
[21] 刁必颂 . 基于在线患者咨询数据的在线医生推荐系统研究[D]. 北京: 北京理工大学, 2016.
[21] ( Diao Bisong . Online Patient Counseling Data Based Online Doctor Recommend System Research[D]. Beijing: Beijing Institute of Technology, 2016.)
[22] 王静 . 在线问诊平台相似病例推荐[D]. 哈尔滨: 哈尔滨理工大学, 2017.
[22] ( Wang Jing . Similar Cases Recommendation on Online Medical Diagnose Platform[D]. Harbin: Harbin University of Science and Technology, 2017.)
[23] 刘通 . 基于在线咨询记录的医生自动匹配算法应用研究[J]. 情报理论与实践, 2018,41(6):147-152.
[23] ( Liu Tong . An Application Research of Automatic Physician Matching Algorithm Based on Online Healthcare Consultation Records[J]. Information Studies: Theory & Application, 2018,41(6):147-152.)
[24] Scikit-learn. One-Vs-The-Rest[EB/OL].[2018-02-02]. https:// scikit-learn.org/stable/modules/multiclass.html#one-vs-the-rest.
[25] Kibriya A M, Frank E, Pfahringer B, et al. Multinomial Naive Bayes for Text Categorization Revisited [C]// Proceedings of the Australasian Joint Conference on Artificial Intelligence. 2004: 488-499.
[26] Scikit-learn. Logistic Regression[EB/OL].[2018-02-02]. https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression.
[27] Scikit-learn. Random Forests[EB/OL].[2018-02-02]. https://scikit-learn.org/stable/modules/ensemble.html#random-forests.
[28] Scikit-learn. Nearest Neighbors Classification[EB/OL].[2018-02-02]. https://scikit-learn.org/stable/modules/neighbors.html#nearest-neighbors-classification.
[29] 王昊, 叶鹏, 邓三鸿 . 机器学习在中文期刊论文自动分类研究中的应用[J]. 现代图书情报技术, 2014(3):80-87.
[29] ( Wang Hao, Ye Peng, Deng Sanhong . The Application of Machine- Learning in the Research on Automatic Categorization of Chinese Periodical Articles[J]. New Technology of Library and Information Service, 2014(3):80-87.)
[30] 刘浏, 王东波 . 基于论文自动分类的社科类学科跨学科性研究[J]. 数据分析与知识发现, 2018,2(3):30-38.
[30] ( Liu Liu, Wang Dongbo . Identifying Interdisciplinary Social Science Research Based on Article Classification[J]. Data Analysis and Knowledge Discovery, 2018,2(3):30-38.)
[31] Ishikawa H, Hashimoto H, Kiuchi T . The Evolving Concept of “Patient-Centeredness” in Patient-Physician Communication Research[J]. Social Science & Medicine, 2013,96:147-153.
[32] 赵明, 杜会芳, 董翠翠 , 等. 基于Word2Vec和LSTM的饮食健康文本分类研究[J]. 农业机械学报, 2017,48(10):202-208.
[32] ( Zhao Ming, Du Huifang, Dong Cuicui , et al. Diet Health Text Classification Based on Word2Vec and LSTM[J]. Transactions of the Chinese Society for Agricultural Machinery, 2017,48(10):202-208.)
[1] 王寒雪,崔文娟,周园春,杜一. 基于机器学习的食源性疾病致病菌识别方法*[J]. 数据分析与知识发现, 2021, 5(9): 54-62.
[2] 陈东华,赵红梅,尚小溥,张润彤. 数据驱动的大型医院手术室运营预测与优化方法研究*[J]. 数据分析与知识发现, 2021, 5(9): 115-128.
[3] 车宏鑫,王桐,王伟. 前列腺癌预测模型对比研究*[J]. 数据分析与知识发现, 2021, 5(9): 107-114.
[4] 苏强, 侯校理, 邹妮. 基于机器学习组合优化方法的术后感染预测模型研究*[J]. 数据分析与知识发现, 2021, 5(8): 65-75.
[5] 曹睿,廖彬,李敏,孙瑞娜. 基于XGBoost的在线短租市场价格预测及特征分析模型*[J]. 数据分析与知识发现, 2021, 5(6): 51-65.
[6] 钟佳娃,刘巍,王思丽,杨恒. 文本情感分析方法及应用综述*[J]. 数据分析与知识发现, 2021, 5(6): 1-13.
[7] 向卓元,刘志聪,吴玉. 基于用户行为自适应推荐模型研究 *[J]. 数据分析与知识发现, 2021, 5(4): 103-114.
[8] 沈旺, 李世钰, 刘嘉宇, 李贺. 问答社区回答质量评价体系优化方法研究 *[J]. 数据分析与知识发现, 2021, 5(2): 83-93.
[9] 冯昊, 李树青. 基于多种支持向量机的多层级联式分类器研究及其在信用评分中的应用*[J]. 数据分析与知识发现, 2021, 5(10): 28-36.
[10] 柴国荣,王斌,沙勇忠. 基于多机器学习方法联合的公共卫生风险预测研究——以兰州市流感预测为例*[J]. 数据分析与知识发现, 2021, 5(1): 90-98.
[11] 李跃艳,熊回香,李晓敏. 在线问诊平台中基于组合条件的医生推荐研究*[J]. 数据分析与知识发现, 2020, 4(8): 130-142.
[12] 陈东,王建冬,李慧颖,蔡思航,黄倩倩,易成岐,曹攀. 融合机器学习算法和多因素的禽肉交易量预测方法研究 *[J]. 数据分析与知识发现, 2020, 4(7): 18-27.
[13] 梁野,李小元,许航,胡伊然. CLOpin:一种面向舆情分析与预警领域的跨语言知识图谱架构*[J]. 数据分析与知识发现, 2020, 4(6): 1-14.
[14] 杨恒,王思丽,祝忠明,刘巍,王楠. 基于并行协同过滤算法的领域知识推荐模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 15-21.
[15] 丁晟春,俞沣洋,李真. 网络舆情潜在热点主题识别研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 29-38.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn