基于神经网络的脑卒中风险预测模型研究 *
1
2
Predicting Stroke Risks with Neural Network
1
2
通讯作者: 吴菊华, ORCID: 0000-0002-6885-4729, E-mail:25973212@qq.com
收稿日期: 2019-06-17 修回日期: 2019-09-14 网络出版日期: 2019-12-25
基金资助: |
|
Received: 2019-06-17 Revised: 2019-09-14 Online: 2019-12-25
【目的】完善脑卒中关键风险因素的识别, 提高脑卒中风险预测的精度, 为脑卒中的科学诊断、治疗和干预提供更多依据。【方法】采集某三甲医院住院部近6 000条数据, 经过数据处理和逻辑回归建模拟合, 筛选出12个重要风险因素并构建脑卒中风险预测多层感知机神经网络模型; 利用Python语言构建模型并进行效果检验。【结果】识别出总胆固醇、低密度脂蛋白等是影响脑卒中发病的6个最重要风险因素, 当调节隐层神经元个数为7时风险预测模型的预测准确率为97.10%。【局限】有待纳入更多的风险因素和选用多种机器学习模型进行对比分析。【结论】本文方法可快速、有效地从数据中挖掘出影响脑卒中发病的关键风险因素, 并预测其发病风险, 具有较高的应用价值。
关键词:
[Objective] This paper tries to effectively predict stroke risks, aiming to improve the diagnoses, treatments and interventions of stroke. [Methods] Firstly, we collected about 6000 inpatient medical records from a top hospital. Then, we identified 12 risk factors affecting stroke with logistic regression modeling. Thirdly, we constructed a multi-layer neural network model to predict stroke risks. Finally, we implemented the model with Python to examine its effectiveness. [Results] I. Total cholesterol and low-density lipoprotein etc. are the most important risk factors affecting the onset of stroke. II. When the number of hidden layer neurons was 7, the risk prediction model accuracy reached 97.10%.[Limitations] We need to include more risk factors and use multiple machine learning models for comparative analyses. [Conclusion] The proposed model could effectively predict the stoke risks facing patients.
Keywords:
本文引用格式
吴菊华, 张烁, 陶雷, 姜顺军.
Wu Juhua.
1 引 言
2 脑卒中风险预测模型研究综述
卒中发病机理复杂、相关风险因素较多, 其相关典型研究如表1所示。可见, 国内外卒中的风险预测模型所纳入风险因素具有显著差异, 卒中风险预测模型准确率还有待于进一步提高。
表1 脑卒中风险因素及预测模型相关研究
研究者 | 时间 | 风险因素 | 研究方法 |
---|---|---|---|
Feigin等[9] | 2015 | 环境颗粒物污染、固体燃料污染、铅暴露、高钠饮食、饮食含糖量高、少水果蔬菜谷物、饮酒、体力活动、二手烟、高体重指数、高空腹血糖、高收缩压、高总胆固醇、肾小球滤过率 | 贝叶斯回归方程 |
Jusuf等[10] | 2016 | 收缩压、舒张压、甘油三酯、卒中史、高血压史、血脂异常史、蔬菜消耗、睡眠持续时间、打鼾、运动、情绪压力 | 判别分析 |
Hijazi等[4] | 2016 | 年龄、心脏生物标志物 N-末端片段B型利钠肽、心肌肌钙蛋白高敏感性和既往卒中 | 回归 |
Aigner等[11] | 2017 | 高血压、高脂血症、糖尿病、冠心病、吸烟、大量发作性饮酒、低体力活动和肥胖 | 逻辑回归 |
Wang等[12] | 2017 | 高血压、糖尿病、心脏病、中风家族史、高脂血症、超重、吸烟、体育锻炼 | 固定效应模型 |
杜秋明等[13] | 2018 | 血压晨峰、颈动脉斑块形成、夜间平均收缩压、白昼血压负荷值、低密度脂蛋白 | 逻辑回归 |
Wang等[5] | 2018 | 高血压、糖尿病、高脂血症、心脏病或心房颤动、肥胖、吸烟、体育锻炼、中风家族史 | 健康风险评估模型 |
邵泽国等[6] | 2018 | 高血压、糖尿病、胆固醇、体重指数超标、少量食用蔬菜水果、吸烟、饮酒、过量食肉或牛奶、少运动 | 决策树 |
Navis等[14] | 2018 | 年轻(<80): 糖尿病、吸烟; 老年(≥80): 高血压、高脂血症、心房颤动、冠状动脉疾病 | 回顾性综述 |
本研究采用神经网络中的多层感知机(Multi- Layer Perceptron, MLP)完成建模, 该模型在功能上能对数据进行合理分类, 在性能上具有较好的非线性、泛化和容错能力, 优于普通的ANN模型。对于风险因素的识别, 本文参考卒中风险因素相关文献, 以及相关研究对心脑血管疾病影响(CVD)的标准[17], 通过逻辑回归和神经网络学习建模, 以期获得较为完善的风险预测模型。
3 预测模型特征选取
3.1 数据预处理
本研究基于某三甲医院为期一年(2017-2018)的卒中与非卒中住院患者数据, 总计5 936条, 变量的详细相关信息如表2所示。
表2 数据集变量的相关信息
变量 | 类型 | 单位 | 赋值/数据取值范围 | |
---|---|---|---|---|
人口 统计 学资 料 | 性别(Gender) | 无序二分类 | 无 | 男=1; 女=0 |
年龄(Age) | 有序分类 | 岁 | 18-44; 45-59; 60-74; ≥75 | |
体重指数(BMI) | 数值类型 | Kg/m2 | [12.4,68.0] | |
检验 指标 | 收缩压(SBP) | 连续 | mmHg | [52,256] |
舒张压(DBP) | 连续 | mmHg | [36,180] | |
白细胞(WBC) | 连续 | 109/L | [0.15,29.7] | |
总胆固醇(TC) | 连续 | mmol/L | [0.64,9.6] | |
甘油三酯(TG) | 连续 | mmol/L | [0.01,21.3] | |
高密度脂蛋白(HDL) | 连续 | mmol/L | [0.20,3.34] | |
低密度脂蛋白(LDL) | 连续 | mmol/L | [0.01,9.54] | |
血肌酐(Scr) | 连续 | umlo/L | [0,1755] | |
临床 病史 | 高血压(Hype) | 无序二分类 | 无 | 是=1, 否=0 |
糖尿病(Diabetes) | 无序二分类 | 无 | 是=1, 否=0 | |
卒中史(HS) | 无序二分类 | 无 | 是=1, 否=0 | |
心脏病(HD) | 无序二分类 | 无 | 是=1, 否=0 | |
动脉硬化/狭窄/ 闭塞(HSO) | 无序二分类 | 无 | 是=1, 否=0 | |
是否卒中(Stroke) | 无序二分类 | 无 | 是=1, 否=0 |
表3 定性变量的描述统计信息
变量 | 类别 | 非卒中数量 | 非卒中比列 | 卒中数量 | 卒中比列 |
---|---|---|---|---|---|
Gender | 男性 | 1 567 | 50.53% | 1 534 | 49.47% |
女性 | 1 489 | 63.33% | 862 | 36.67% | |
Age | 18-44岁 | 1 116 | 95.71% | 50 | 4.29% |
45-59岁 | 970 | 71.17% | 393 | 28.83% | |
60-74岁 | 626 | 38.33% | 1 007 | 61.67% | |
≥75岁 | 344 | 26.67% | 946 | 73.33% | |
Hype | 是 | 480 | 21.79% | 1 723 | 78.21% |
否 | 2 576 | 79.29% | 673 | 20.71% | |
Diabetes | 是 | 161 | 19.54% | 663 | 80.46% |
否 | 2 895 | 62.55% | 1 733 | 37.45% | |
HS | 是 | 13 | 0.62% | 2 099 | 99.38% |
否 | 3 046 | 91.20% | 294 | 8.80% | |
HSO | 是 | 0 | 0% | 830 | 100.00% |
否 | 4 622 | 100% | 0 | 0% |
对表3中数据进行分析, 得出如下结论。
(1) 该数据集卒中患者和非卒中患者所占比例近似为1:1.2, 男女比例和各个年龄段人数均衡, 具有较好的预测研究价值。
(2) 年龄是卒中的重要风险因素之一; 一般地, 随着年龄增长转化为卒中患者可能性越大。
(3) 从临床病史的角度分析, 患有高血压、糖尿病、卒中史、心脏病、动脉硬化/狭窄/闭塞任一种疾病, 后续患卒中的机率较大。风险比例按从小到大进行排列, 依次为高血压、糖尿病、心脏病、卒中史、动脉硬化/狭窄/闭塞。数据集显示卒中人群中100%患有动脉硬化/狭窄/闭塞, 约78.21%的人患有高血压。因此, 临床病史是卒中的重要风险因素, 应进行进一步分析和探讨。
3.2 基于逻辑回归的风险因素筛选
通过SPSS进行共线性诊断分析, 确保所选变量之间相互独立。然后构建逻辑回归方程, 选择P值为经验值0.05, 经过回归方程显著性检验和拟合优度检验后, 得到回归模型方程如下所示。
$\begin{align} & \text{In(}p/1-p\text{)}=\text{0}\text{.569}\times Gender+\text{0}\text{.034}\times Age-\text{0}\text{.221}\times \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ BMI+\text{0}\text{.167}\times WBC-\text{4}\text{.97}\times TC+\text{1}\text{.218}\times \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ TG+\text{2}\text{.95}\times HDL+\text{5}\text{.888}\times LDL+\text{0}\text{.022}\times \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ Scr-\text{1}\text{.233}\times Hype-\text{7}\text{.126}\times HS-\text{0}\text{.679}\times \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ HD-\text{28}\text{.619} \\ \end{align}$
该逻辑回归方程有12个显著性变量, 方程拟合优度较优。本研究依此作为卒中风险因素构建多层感知机神经网络模型。
4 脑卒中风险预测模型建立
4.1 参数确定
多层感知机是一种常用前馈式人工神经网络, 参数选择对其预测效果具有重要影响。多隐藏层模型复杂、不易求解, 因此本研究选择1层隐藏层。基于Loppmann法确定隐藏层最佳神经元个数区间范围为[2,13], 依次调整神经元个数对模型开展训练, 获得最优神经元个数为7。本研究因变量是二分类变量, 选择Logistic函数作为输出层的激活函数; 再选择Relu函数为隐层激活函数, 该模型的预测准确率和AUC值更优。鉴于多层感知机神经网络是一种监督学习算法, 选择预测准确率、约登指数、AUC、ROC曲线作为评估标准, 并采用循环调试方法确定最优参数值。将训练样本、测试样本数据的比例设置为8:2, 基于经验值确定学习率为0.9。
4.2 基于MLP神经网络的风险预测模型
利用Python语言构建卒中风险预测ANN模型, 并进行模型训练、测试, 获得模型训练样本和测试样本AUC值为0.973, 测试集的ROC曲线如图1所示。结果说明该风险预测模型具有较高准确率, 能较好地区分开卒中和非卒中人群。
图1
4.3 模型输出
利用测试集评估该模型泛化能力的测试结果如表4所示。模型总体预测准确率为97.10%, 灵敏度为94.33%, 特异性为99.33%, 约登指数为0.9366, 说明该卒中风险预测模型具有很好的实验效果。
4.4 重要性变量输出
通过方差分析和卡方检验, 去除2个重要程度相对低的因素, 保留10个风险因素, 如图2所示。可见, 其中6个最为重要的因素依次是: 总胆固醇、低密度脂蛋白、血肌酐、卒中史、甘油三酯和高密度脂蛋白是检测脑卒中的重要影响因素。
图2
5 结 语
本研究构建了卒中风险预测多层感知机神经网络模型, 经过数据处理和逻辑回归建模拟合, 筛选出影响脑卒中发病的12个风险因素, 并识别出6个重要影响因素。该模型可以快速、有效地从众多数据中挖掘出影响脑卒中发病的关键风险因素, 并预测其发病风险, 因此具有较好的应用价值。
本研究的贡献如下:
(1) 构建的风险预测模型具有较高的预测准确率, 将为脑卒中的科学诊断、治疗和干预提供更多依据。
(2) 完善脑卒中风险因素的识别, 识别出低密度脂蛋白、总胆固醇、血肌酐、甘油三酯、卒中史是影响脑卒中发病的6个最重要的风险因素。
(3) 辅助医生决策, 关注高危人群, 及时发现疾病、预防疾病。
未来改进包括以下方面:
(1) 脑卒中的相关风险因素较多, 后续研究可以纳入更多风险因素。
(2) 引入多种机器学习模型进行对比分析, 以期获得更优模型。
(3) 将模型进一步完善并投入相关平台中使用, 根据大样本个体患者数据预测脑卒中的发病风险, 辅助医生诊断, 帮助患者预防。
作者贡献声明
吴菊华: 提出论文选题和研究思路;
张烁: 实验、建模, 论文初稿撰写和修改;
陶雷: 修改论文;
姜顺军: 采集、清洗、分析数据。
利益冲突声明
所有作者声明不存在利益冲突关系。
支撑数据
支撑数据由作者自存储, E-mail: 983797872@qq.com。
[1] 吴菊华, 张烁, 陶雷, 姜顺军.
(病例基本特征、入院记录表、诊断情况、生命体征、实验室检查). xlsx. 医院患者数据.
参考文献
我国脑卒中防治仍面临巨大挑战——《中国脑卒中防治报告2018》概要
[J]. ,
The Prevention and Treatment of Stroke Still Face Huge Challenges——Brief Report on Stroke Prevention and Treatment in China, 2018
[J].
Global Stroke Belt: Geographic Variation in Stroke Burden Worldwide
[J]. ,
Future Cardiovascular Disease in China: Markov Model and Risk Factor Scenario Projections from the Coronary Heart Disease Policy Model-China
[J]. ,
The ABC (Age, Biomarkers, Clinical History) Stroke Risk Score: A BiomarkerBased Risk Score for Predicting Stroke in Atrial Fibrillation
[J]. ,
Is the Population Detected by Screening in China Truly at High Risk of Stroke?
[J]. ,
基于优化决策树的脑卒中日常生活习惯风险因素分析
[J]. ,
Analysis of Risk Factors of Daily Life Habits in Stroke Based on Optimal Decision Tree
[J].
A Comparison of Shallow and Deep Learning Methods for Predicting Cognitive Performance of Stroke Patients from MRI Lesion Images
[J].
Prediction of Stroke Using Data Mining Classification Techniques
[J]. ,
Atlas of the Global Burden of Stroke (1990-2013): The GBD 2013 Study
[J]. ,
Infarction Stroke Risk Prediction Model for Indonesian Population: A Case-Control Study
[J]. ,
Contribution of Established Stroke Risk Factors to the Burden of Stroke in Young Adults
[J]. ,
Risk Factors for Stroke in the Chinese Population: A Systematic Review and Meta-analysis
[J]. ,
高血压患者发生急性脑梗死的影响因素分析
[J]. ,
Analysis of Influencing Factors of Acute Cerebral Infarction in Patients with Hypertension
[J].
Epidemiology and Outcomes of Ischemic Stroke and Transient Ischemic Attack in the Adult and Geriatric Population
[J]. ,
健康管理人群脑卒中风险预测模型
[J]. ,
Risk Prediction Model for Stroke in Health Management Population
[J].
An CNN-LSTM Attention Approach to Understanding User Query Intent from Online Health Communities
,
Bounds on the Number of Hidden Neurons in Multilayer Perceptrons
[J]. ,
A Data Analytics Approach to Building a Clinical Decision Support System for Diabetic Retinopathy: Developing and Deploying a Model Ensemble
[J]. ,
Predicting the 10-year Risks of Atherosclerotic Cardiovascular Disease in Chinese Population: The China-PAR Project (Prediction for ASCVD Risk in China)
[J]. ,
Big Data, Data Science, and Analytics: The Opportunity and Challenge for IS Research
[J]. ,
Health Care Predictive Analytics for Risk Profiling in Chronic Care: A Bayesian Multitask Learning Approach
[J]. ,
/
〈 | 〉 |