Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (12): 70-75     https://doi.org/10.11925/infotech.2096-3467.2019.0691
     研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于神经网络的脑卒中风险预测模型研究 *
吴菊华1(),张烁1,陶雷1,姜顺军2
1 广东工业大学管理学院 广州 510520
2 广州医科大学第一附属医院 广州 510120
Predicting Stroke Risks with Neural Network
Juhua Wu1(),Shuo Zhang1,Lei Tao1,Shunjun Jiang2
1 School of Management, Guangdong University of Technology, Guangzhou 510520, China
2 The First Affiliated Hospital of Guangzhou Medical University,Guangzhou 510120, China
全文: PDF (581 KB)   HTML ( 15
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】完善脑卒中关键风险因素的识别, 提高脑卒中风险预测的精度, 为脑卒中的科学诊断、治疗和干预提供更多依据。【方法】采集某三甲医院住院部近6 000条数据, 经过数据处理和逻辑回归建模拟合, 筛选出12个重要风险因素并构建脑卒中风险预测多层感知机神经网络模型; 利用Python语言构建模型并进行效果检验。【结果】识别出总胆固醇、低密度脂蛋白等是影响脑卒中发病的6个最重要风险因素, 当调节隐层神经元个数为7时风险预测模型的预测准确率为97.10%。【局限】有待纳入更多的风险因素和选用多种机器学习模型进行对比分析。【结论】本文方法可快速、有效地从数据中挖掘出影响脑卒中发病的关键风险因素, 并预测其发病风险, 具有较高的应用价值。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
吴菊华
张烁
陶雷
姜顺军
关键词 脑卒中风险预测模型神经网络数据分析    
Abstract

[Objective] This paper tries to effectively predict stroke risks, aiming to improve the diagnoses, treatments and interventions of stroke. [Methods] Firstly, we collected about 6000 inpatient medical records from a top hospital. Then, we identified 12 risk factors affecting stroke with logistic regression modeling. Thirdly, we constructed a multi-layer neural network model to predict stroke risks. Finally, we implemented the model with Python to examine its effectiveness. [Results] I. Total cholesterol and low-density lipoprotein etc. are the most important risk factors affecting the onset of stroke. II. When the number of hidden layer neurons was 7, the risk prediction model accuracy reached 97.10%.[Limitations] We need to include more risk factors and use multiple machine learning models for comparative analyses. [Conclusion] The proposed model could effectively predict the stoke risks facing patients.

Key wordsStroke    Risk Prediction Model    Neural Network    Data Analysis
收稿日期: 2019-06-17      出版日期: 2019-12-25
ZTFLH:  TP393  
基金资助:*本文系国家自然科学基金项目“基于在线健康社区的病患知识发现和个性化诊疗推荐方法研究”(项目编号: 71771059);国家社会科学基金重点项目“供给侧结构性改革背景下中国先进制造业集聚区全球影响力培育路径研究”(项目编号: 15AZD073);广州市哲学社科项目“信息网络技术驱动广州制造业转型”(项目编号: 502170111)
通讯作者: 吴菊华     E-mail: 25973212@qq.com
引用本文:   
吴菊华,张烁,陶雷,姜顺军. 基于神经网络的脑卒中风险预测模型研究 *[J]. 数据分析与知识发现, 2019, 3(12): 70-75.
Juhua Wu,Shuo Zhang,Lei Tao,Shunjun Jiang. Predicting Stroke Risks with Neural Network. Data Analysis and Knowledge Discovery, 2019, 3(12): 70-75.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0691      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2019/V3/I12/70
研究者 时间 风险因素 研究方法
Feigin等[9] 2015 环境颗粒物污染、固体燃料污染、铅暴露、高钠饮食、饮食含糖量高、少水果蔬菜谷物、饮酒、体力活动、二手烟、高体重指数、高空腹血糖、高收缩压、高总胆固醇、肾小球滤过率 贝叶斯回归方程
Jusuf等[10] 2016 收缩压、舒张压、甘油三酯、卒中史、高血压史、血脂异常史、蔬菜消耗、睡眠持续时间、打鼾、运动、情绪压力 判别分析
Hijazi等[4] 2016 年龄、心脏生物标志物 N-末端片段B型利钠肽、心肌肌钙蛋白高敏感性和既往卒中 回归
Aigner等[11] 2017 高血压、高脂血症、糖尿病、冠心病、吸烟、大量发作性饮酒、低体力活动和肥胖 逻辑回归
Wang等[12] 2017 高血压、糖尿病、心脏病、中风家族史、高脂血症、超重、吸烟、体育锻炼 固定效应模型
杜秋明等[13] 2018 血压晨峰、颈动脉斑块形成、夜间平均收缩压、白昼血压负荷值、低密度脂蛋白 逻辑回归
Wang等[5] 2018 高血压、糖尿病、高脂血症、心脏病或心房颤动、肥胖、吸烟、体育锻炼、中风家族史 健康风险评估模型
邵泽国等[6] 2018 高血压、糖尿病、胆固醇、体重指数超标、少量食用蔬菜水果、吸烟、饮酒、过量食肉或牛奶、少运动 决策树
Navis等[14] 2018 年轻(<80): 糖尿病、吸烟; 老年(≥80): 高血压、高脂血症、心房颤动、冠状动脉疾病 回顾性综述
  脑卒中风险因素及预测模型相关研究
变量 类型 单位 赋值/数据取值范围
人口
统计
学资
性别(Gender) 无序二分类 男=1; 女=0
年龄(Age) 有序分类 18-44; 45-59;
60-74; ≥75
体重指数(BMI) 数值类型 Kg/m2 [12.4,68.0]
检验
指标
收缩压(SBP) 连续 mmHg [52,256]
舒张压(DBP) 连续 mmHg [36,180]
白细胞(WBC) 连续 109/L [0.15,29.7]
总胆固醇(TC) 连续 mmol/L [0.64,9.6]
甘油三酯(TG) 连续 mmol/L [0.01,21.3]
高密度脂蛋白(HDL) 连续 mmol/L [0.20,3.34]
低密度脂蛋白(LDL) 连续 mmol/L [0.01,9.54]
血肌酐(Scr) 连续 umlo/L [0,1755]
临床
病史
高血压(Hype) 无序二分类 是=1, 否=0
糖尿病(Diabetes) 无序二分类 是=1, 否=0
卒中史(HS) 无序二分类 是=1, 否=0
心脏病(HD) 无序二分类 是=1, 否=0
动脉硬化/狭窄/
闭塞(HSO)
无序二分类 是=1, 否=0
是否卒中(Stroke) 无序二分类 是=1, 否=0
  数据集变量的相关信息
变量 类别 非卒中数量 非卒中比列 卒中数量 卒中比列
Gender 男性 1 567 50.53% 1 534 49.47%
女性 1 489 63.33% 862 36.67%
Age 18-44岁 1 116 95.71% 50 4.29%
45-59岁 970 71.17% 393 28.83%
60-74岁 626 38.33% 1 007 61.67%
≥75岁 344 26.67% 946 73.33%
Hype 480 21.79% 1 723 78.21%
2 576 79.29% 673 20.71%
Diabetes 161 19.54% 663 80.46%
2 895 62.55% 1 733 37.45%
HS 13 0.62% 2 099 99.38%
3 046 91.20% 294 8.80%
HSO 0 0% 830 100.00%
4 622 100% 0 0%
  定性变量的描述统计信息
  模型测试集ROC曲线
预测值/观测值 0(非卒中) 1(卒中) 合计
0(非卒中) 593 28 621
1(卒中) 4 466 470
合计 597 494 1 091
  基于测试样本的模型预测结果
  模型重要性风险因素
[1] 王陇德, 刘建民, 杨弋 , 等. 我国脑卒中防治仍面临巨大挑战——《中国脑卒中防治报告2018》概要[J]. 中国循环杂志, 2019,34(2):105-119.
[1] ( Wang Longde, Liu Jianmin, Yang Yi , et al. The Prevention and Treatment of Stroke Still Face Huge Challenges——Brief Report on Stroke Prevention and Treatment in China, 2018[J]. Chinese Circulation Journal, 2019,34(2):105-119.)
[2] Kim A S, Cahill E, Cheng N T . Global Stroke Belt: Geographic Variation in Stroke Burden Worldwide[J]. Stroke, 2015,46(12):3564-3570.
[3] Moran A, Gu D, Zhao D , et al. Future Cardiovascular Disease in China: Markov Model and Risk Factor Scenario Projections from the Coronary Heart Disease Policy Model-China[J]. Circulation: Cardiovascular Quality and Outcomes, 2010,3(3):243-252.
[4] Hijazi Z, Lindbäck J, Alexander J H , et al. The ABC (Age, Biomarkers, Clinical History) Stroke Risk Score: A BiomarkerBased Risk Score for Predicting Stroke in Atrial Fibrillation[J]. European Heart Journal, 2016,37(20):1582-1590.
[5] Wang Y, Wang J, Cheng J , et al. Is the Population Detected by Screening in China Truly at High Risk of Stroke?[J]. Journal of Stroke and Cerebrovascular Diseases, 2018,27(8):2118-2123.
[6] 邵泽国, 陈晨, 陈炜 . 基于优化决策树的脑卒中日常生活习惯风险因素分析[J]. 现代预防医学, 2018,45(15):2689-2693.
[6] ( Shao Zeguo, Chen Chen, Chen Wei . Analysis of Risk Factors of Daily Life Habits in Stroke Based on Optimal Decision Tree[J]. Modern Preventive Medicine, 2018,45(15):2689-2693.)
[7] Chauhan S, Vig L, De Grazia M D F , et al. A Comparison of Shallow and Deep Learning Methods for Predicting Cognitive Performance of Stroke Patients from MRI Lesion Images[J]. Frontiers in Neuroinformatics. https://doi.org/10.3389/fninf. 2019. 00053.
[8] Almadani O, Alshammari R . Prediction of Stroke Using Data Mining Classification Techniques[J]. International Journal of Advanced Computer Science and Applications, 2018,9(1):457-460.
[9] Feigin V L, Mensah G A, Norrving B , et al. for the GBD 2013 Stroke Panel Experts Group. Atlas of the Global Burden of Stroke (1990-2013): The GBD 2013 Study[J]. Neuroepidemiology, 2015,45(3):230-236.
[10] Jusuf M I, Machfoed M H, Keman S . Infarction Stroke Risk Prediction Model for Indonesian Population: A Case-Control Study[J]. Bangladesh Journal of Medical Science, 2016,15(2):269-274.
[11] Aigner A, Grittner U, Rolfs A , et al. Contribution of Established Stroke Risk Factors to the Burden of Stroke in Young Adults[J]. Stroke, 2017,48(7):1744-1751.
[12] Wang J, Wen X, Li W , et al. Risk Factors for Stroke in the Chinese Population: A Systematic Review and Meta-analysis[J]. Journal of Stroke and Cerebrovascular Diseases, 2017,26(3):509-517.
[13] 杜秋明, 曹书华, 王淑亮 , 等. 高血压患者发生急性脑梗死的影响因素分析[J]. 中国慢性病预防与控制, 2018,26(2):133-137.
[13] ( Du Qiuming, Cao Shuhua, Wang Shuliang , et al. Analysis of Influencing Factors of Acute Cerebral Infarction in Patients with Hypertension[J]. Chinese Journal of Prevention and Control of Chronic Diseases, 2018,26(2):133-137.)
[14] Navis A, Garcia-Santibanez R, Skliut M . Epidemiology and Outcomes of Ischemic Stroke and Transient Ischemic Attack in the Adult and Geriatric Population[J]. Journal of Stroke and Cerebrovascular Diseases, 2018,28(1):84-89.
[15] 李敏, 王春霞, 夏冰 , 等. 健康管理人群脑卒中风险预测模型[J]. 山东大学学报: 医学版, 2017,55(6):93-97, 103.
[15] ( Li Min, Wang Chunxia, Xia Bing , et al. Risk Prediction Model for Stroke in Health Management Population[J]. Journal of Shandong University: Medical Sciences, 2017,55(6):93-97, 103.)
[16] Cai R, Zhu B, Ji L , et al. An CNN-LSTM Attention Approach to Understanding User Query Intent from Online Health Communities [C]// Proceedings of 2017 IEEE International Conference on Data Mining Workshops (ICDMW). IEEE, 2017: 430-437.
[17] Mackay J, Mensah G A, Greenlund K . The Atlas of Heart Disease and Stroke[M]. World Health Organization, 2004.
[18] Huang S C, Huang Y F . Bounds on the Number of Hidden Neurons in Multilayer Perceptrons[J]. IEEE Transactions on Neural Networks, 1991,2(1):47-55.
[19] Piri S, Delen D, Liu T , et al. A Data Analytics Approach to Building a Clinical Decision Support System for Diabetic Retinopathy: Developing and Deploying a Model Ensemble[J]. Decision Support Systems, 2017,101:12-27.
[20] Yang X, Li J, Hu D , et al. Predicting the 10-year Risks of Atherosclerotic Cardiovascular Disease in Chinese Population: The China-PAR Project (Prediction for ASCVD Risk in China)[J]. Circulation, 2016,134(19):1430-1440.
[21] Agarwal R, Dhar V . Big Data, Data Science, and Analytics: The Opportunity and Challenge for IS Research[J]. Information Systems Research, 2014,25(3):443-448.
[22] Lin Y K, Chen H, Brown R A , et al. Health Care Predictive Analytics for Risk Profiling in Chronic Care: A Bayesian Multitask Learning Approach[J]. MIS Quarterly, 2017,41(2):473-495.
[1] 范少萍,赵雨宣,安新颖,吴清强. 基于卷积神经网络的医学实体关系分类模型研究*[J]. 数据分析与知识发现, 2021, 5(9): 75-84.
[2] 范涛,王昊,吴鹏. 基于图卷积神经网络和依存句法分析的网民负面情感分析研究*[J]. 数据分析与知识发现, 2021, 5(9): 97-106.
[3] 顾耀文, 张博文, 郑思, 杨丰春, 李姣. 基于图注意力网络的药物ADMET分类预测模型构建方法*[J]. 数据分析与知识发现, 2021, 5(8): 76-85.
[4] 张乐, 冷基栋, 吕学强, 崔卓, 王磊, 游新冬. RLCPAR:一种基于强化学习的中文专利摘要改写模型*[J]. 数据分析与知识发现, 2021, 5(7): 59-69.
[5] 孟镇,王昊,虞为,邓三鸿,张宝隆. 基于特征融合的声乐分类研究*[J]. 数据分析与知识发现, 2021, 5(5): 59-70.
[6] 韩普,张展鹏,张明淘,顾亮. 基于多特征融合的中文疾病名称归一化研究*[J]. 数据分析与知识发现, 2021, 5(5): 83-94.
[7] 王楠,李海荣,谭舒孺. 基于改进SMOTE算法与集成学习的舆情反转预测研究*[J]. 数据分析与知识发现, 2021, 5(4): 37-48.
[8] 李丹阳, 甘明鑫. 基于多源信息融合的音乐推荐方法 *[J]. 数据分析与知识发现, 2021, 5(2): 94-105.
[9] 程铁军, 王曼, 黄宝凤, 冯兰萍. 基于CEEMDAN-BP模型的突发事件网络舆情预测研究*[J]. 数据分析与知识发现, 2021, 5(11): 59-67.
[10] 丁浩, 艾文华, 胡广伟, 李树青, 索炜. 融合用户兴趣波动时序的个性化推荐模型*[J]. 数据分析与知识发现, 2021, 5(11): 45-58.
[11] 尹浩然,曹金璇,曹鲁喆,王国栋. 扩充语义维度的BiGRU-AM突发事件要素识别研究*[J]. 数据分析与知识发现, 2020, 4(9): 91-99.
[12] 邱尔丽,何鸿魏,易成岐,李慧颖. 基于字符级CNN技术的公共政策网民支持度研究 *[J]. 数据分析与知识发现, 2020, 4(7): 28-37.
[13] 王思迪,胡广伟,杨巳煜,施云. 基于文本分类的政府网站信箱自动转递方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 51-59.
[14] 刘伟江,魏海,运天鹤. 基于卷积神经网络的客户信用评估模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 80-90.
[15] 王末,崔运鹏,陈丽,李欢. 基于深度学习的学术论文语步结构分类方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 60-68.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn