Please wait a minute...
Advanced Search
现代图书情报技术  2016, Vol. 32 Issue (6): 102-109    DOI: 10.11925/infotech.1003-3513.2016.06.13
  应用论文 本期目录 | 过刊浏览 | 高级检索 |
三种数据挖掘算法在电子病历知识发现中的比较*
牟冬梅1,任珂2()
1吉林大学公共卫生学院 长春 130021
2武汉大学信息管理学院 武汉 430072
Discovering Knowledge from Electronic Medical Records with Three Data Mining Algorithms
Mu Dongmei1,Ren Ke2()
1School of Public Health, Jilin University, Changchun 130021, China
2School of Information Management, Wuhan University, Wuhan 430072, China
全文: PDF(1075 KB)   HTML ( 75
输出: BibTeX | EndNote (RIS)      
摘要 

目的】从异构的电子病历数据中发现疾病危险因素, 为数据挖掘与知识发现提供借鉴。【方法】选取集各种结构为一身的临床电子病历数据, 利用决策树、逻辑回归和神经网络三种数据挖掘算法分别建立疾病危险因素预测模型, 对三种预测模型进行比较分析和统计学评价。【结果】决策树预测模型在查准率、召回率上高于逻辑回归和神经网络, 在总体性能上决策树最优, 但三者差别不大。【局限】未对电子病历属性进行优化选择。【结论】决策树在危险因素的发现与疾病的预测方面优于逻辑回归和神经网络。研究中建立基于数据挖掘算法的异构数据源知识发现框架, 为今后领域知识发现和知识库构建以及数据挖掘算法的选择提供一定借鉴和参考。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
牟冬梅
任珂
关键词 知识发现电子病历数据挖掘算法预测模型    
Abstract

[Objective] This empirical study tries to identify risk factors for diseases from the heterogeneous Electronic Medical Records (EMR). [Methods] First, we collected EMR with various data structures. Second, we built models to predict risk factors for diseases with the help of three algorithms (i.e., decision-making tree, logistic regression and neutral network). Finally, we compared and evaluated these models statistically. [Results] The Decision Tree Model achieved higher recall and precision rates than the Logistic Regression and Neural Network ones. However, there was no significant difference among them. [Limitations] We did not optimize the EMR’s properties. [Conclusions] The Decision Tree Model does a better job than the Logistic Regression and Neural Network models in discovering the risk factors to predict diseases. The framework of knowledge discovery based on data mining algorithms, provides some directions for future research.

Key wordsKnowledge discovery    Electronic medical record    Data mining algorithms    Prediction model
收稿日期: 2016-02-19     
基金资助:*本文系国家自然科学基金项目“嵌入式知识服务驱动下的领域多维知识库构建”(项目编号:71573102)和吉林大学大学生创新创业训练计划“基于数据挖掘算法的体检数据中脂肪肝危险因素相关性研究”(项目编号: 2015721054)的研究成果之一
引用本文:   
牟冬梅,任珂. 三种数据挖掘算法在电子病历知识发现中的比较*[J]. 现代图书情报技术, 2016, 32(6): 102-109.
Mu Dongmei,Ren Ke. Discovering Knowledge from Electronic Medical Records with Three Data Mining Algorithms. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2016.06.13.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2016.06.13
[1] 曾建勋, 魏来. 大数据时代的情报学变革[J]. 情报学报, 2015, 34(1): 37-44.
[1] (Zeng Jianxun, Wei Lai.The Changes of Information Science in Big Data Era[J]. Journal of the China Society for Scientific and Technical Information, 2015, 34(1): 37-44.)
[2] Ackoff R L.From Data to Wisdom[J]. Journal of Applies Systems Analysis, 1980(16): 3-9.
[3] Bellinger G, Castro D, Mills A. Data, Information, Knowledge, and Wisdom [EB/OL]. [2015-11-24]. .
[4] Zeleny M.Human Systems Management: Integrating Knowledge, Management and Systems[M]. Singapore: World Scientific, 2005: 15-16.
[5] CIO时代网. DIKW: 数据、信息、知识、智慧的金字塔层次体系[EB/OL]. [2014-11-24]. .
[5] (CIO Network Era. DIKW: Pyramid Hierarchy of Data, Information, Knowledge, Wisdom [EB/OL]. [2014-11-24].
[6] 王曰芬. 文献计量法与内容分析法综合研究的方法论来源与依据[J]. 情报理论与实践, 2009, 32(2): 21-26.
[6] (Wang Yuefen.The Source and Basis of the Methodology of Synthetic Research with Bibliometric Method and Content Analysis Method[J]. Information Studies: Theory & Application, 2009, 32(2): 21-26.)
[7] 王丽伟, 李梅, 牟冬梅, 等. 一种面向知识服务的领域知识发现流程及实例研究[J]. 情报学报, 2015, 34(1): 45-52.
[7] (Wang Liwei, Li Mei, Mu Dongmei, et al.A Knowledge Service-oriented Domain Knowledge Discovery Process[J]. Journal of the China Society for Scientific and Technical Information, 2015, 34(1): 45-52.)
[8] 徐戈, 王厚峰. 自然语言处理中主题模型的发展[J]. 计算机学报, 2011, 34(8): 1423-1436.
[8] (Xu Ge, Wang Houfeng.The Development of Topic Models in Natural Language Processing[J]. Chinese Journal of Computers, 2011, 34(8): 1423-1436.)
[9] 何清, 李宁, 罗文娟, 等. 大数据下的机器学习算法综述[J]. 模式识别与人工智能, 2014, 27(4): 327-336.
[9] (He Qing, Li Ning, Luo Wenjuan, et al.A Survey of Machine Learning Algorithms for Big Data[J]. PR&AI, 2014, 27(4): 327-336.)
[10] 唐慧丰, 谭松波, 程学旗. 基于监督学习的中文情感分类技术比较研究[J]. 中文信息学报, 2007, 21(6): 88-94, 108.
[10] (Tang Huifeng, Tan Songbo, Cheng Xueqi.Research on Sentiment Classification of Chinese Reviews Based on Supervised Machine Learning Techniques[J]. Journal of Chinese Information Processing, 2007, 21(6): 88-94, 108.)
[11] 侯亚君. R语言在数据挖掘中的运用[J]. 晋城职业技术学院学报, 2014, 7(2): 63-65.
[11] (Hou Yajun.On the Application of R Language in Data Mining[J]. Journal of Jincheng Institute of Technology, 2014, 7(2): 63-65.)
[12] 杨静, 张楠男, 李建, 等. 决策树算法的研究与应用[J]. 计算机技术与发展, 2010, 20(2): 114-116, 120.
[12] (Yang Jing, Zhang Nannan, Li Jian, et al.Research and Application of Decision Tree Algorithm[J]. Computer Technology and Development, 2010, 20(2): 114-116, 120.)
[13] 洪家荣, 丁明峰, 李星原, 等. 一种新的决策树归纳学习算法[J]. 计算机学报, 1995, 18(6): 470-474.
[13] (Hong Jiarong, Ding Mingfeng, Li Xingyuan, et al.A New Algorithm of Decision Tree Induction[J]. Chinese Journals of Computers, 1995, 18(6): 470-474.)
[14] 邢秋菊, 赵纯勇, 高克昌. 基于GIS的滑坡危险性逻辑回归评价研究[J]. 地理与地理信息科学, 2004, 20(3): 49-51.
[14] (Xing Qiuju, Zhao Chunyong, Gao Kechang.Logical Regression Analysis on the Hazard of Landslide Based on GIS[J]. Geography and Geo-Information Science, 2004, 20(3): 49-51.)
[15] 邬伦, 刘瑜, 张晶, 等. 地理信息系统——原理、方法和应用[M]. 北京: 科学出版社, 2001.
[15] (Wu Lun, Liu Yu, Zhang Jing, et al.Geographical Information System——Theory, Method, Application [M]. Beijing: Science Press, 2001.)
[16] 王春峰, 万海晖, 张维. 基于神经网络技术的商业银行信用风险评估[J]. 系统工程理论与实践, 1999(9): 24-32.
[16] (Wang Chunfeng, Wan Haihui, Zhang Wei.Credit Risk Assessment in Commercial Banks Using Neural Networks[J]. System Engineering Theory and Practice, 1999(9): 24-32.)
[17] McClelland J L, Rumelhart D E, Hinton G E. Parallel Distributed Processing: Explorations in the Microstructure of Cognition [M]. Cambridge, MA: MIT Press, 1986.
[18] Zhang Y, Cui H, Burkell J, et al.A Machine Learning Approach for Rating the Quality of Depression Treatment Web Pages [C]. In: Proceedings of iConference 2014.
[19] Manning C D, Schutze H, Raghavan P.信息检索导论 [M]. 王斌译. 北京: 人民邮电出版社, 2010: 105-107, 196-200.
[19] (Manning C D, Schutze H, Raghavan P.Introduction to Information Retrieval [M]. Translated by Wang Bin. Beijing: Posts & Telecom Press, 2010: 105-107, 196-200.)
[20] 赵莹. 配对四格表资料的条件Logistic回归模型的Bayes分析[J]. 数理医药学杂志, 2010, 23(5): 505-506.
[20] (Zhao Ying.Bayes Analysis of Conditional Logistic Model for Paired Fourfold Table Data[J]. Journal of Mathematical Medicine, 2010, 23(5): 505-506.)
[1] 胡佳慧,方安,赵琬清,杨晨柳,任慧玲. 面向知识发现的中文电子病历标注方法
研究 *
[J]. 数据分析与知识发现, 2019, 3(7): 123-132.
[2] 刘勘,陈露. 面向医疗分诊的深度神经网络学习*[J]. 数据分析与知识发现, 2019, 3(6): 99-108.
[3] 吴菊华,王煜,黎明,蔡少云. 基于加权知识网络的在线健康社区用户知识发现*[J]. 数据分析与知识发现, 2019, 3(2): 108-117.
[4] 赵明清,武圣强. 基于微博情感分析的股市加权预测方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 43-51.
[5] 胡吉颖,谢靖,钱力,付常雷. 基于知识图谱的科技大数据知识发现平台建设*[J]. 数据分析与知识发现, 2019, 3(1): 55-62.
[6] 马晓宇,张晗,赵玉虹. 基于BRFSS数据库应用人工神经网络构建儿童哮喘预测模型*[J]. 数据分析与知识发现, 2018, 2(8): 10-15.
[7] 王欣,冯文刚. 在线极端主义和激进化监测技术综述*[J]. 数据分析与知识发现, 2018, 2(10): 2-8.
[8] 张志强,范少萍,陈秀娟. 面向精准医学知识发现的生物医学信息学发展*[J]. 数据分析与知识发现, 2018, 2(1): 1-8.
[9] 牟冬梅,王萍,赵丹宁. 高维电子病历的数据降维策略与实证研究*[J]. 数据分析与知识发现, 2018, 2(1): 88-98.
[10] 谢秀芳,张晓林. 针对科技路线图的文本挖掘研究: 集成分析及可视化*[J]. 数据分析与知识发现, 2017, 1(1): 16-25.
[11] 刘红煦,曲建升. 主流Meta分析软件功能及其在领域知识发现的拓展应用研究*[J]. 现代图书情报技术, 2016, 32(5): 9-21.
[12] 李国垒, 陈先来, 夏冬, 杨荣. 面向临床决策的电子病历文本潜在语义分析*[J]. 数据分析与知识发现, 2016, 32(3): 50-57.
[13] 顾立平. 论文级别计量研究:应用案例分析[J]. 现代图书情报技术, 2013, 29(11): 1-7.
[14] 宋文, 黄金霞, 刘毅, 汤怡洁. 面向知识发现的SKE关键技术及服务[J]. 现代图书情报技术, 2012, 28(7): 13-18.
[15] 张云中. 利用形式概念分析构建Folksonomy用户行为知识发现模型[J]. 现代图书情报技术, 2012, 28(7): 66-75.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn