Advanced Search

数据分析与知识发现, 2019, 3(12): 70-75 doi: 10.11925/infotech.2096-3467.2019.0691

研究论文

基于神经网络的脑卒中风险预测模型研究 *

吴菊华,,1, 张烁1, 陶雷1, 姜顺军2

1 广东工业大学管理学院 广州 510520

2 广州医科大学第一附属医院 广州 510120

Predicting Stroke Risks with Neural Network

Wu Juhua,,1, Zhang Shuo1, Tao Lei1, Jiang Shunjun2

1 School of Management, Guangdong University of Technology, Guangzhou 510520, China

2 The First Affiliated Hospital of Guangzhou Medical University,Guangzhou 510120, China

通讯作者: 吴菊华, ORCID: 0000-0002-6885-4729, E-mail:25973212@qq.com

收稿日期: 2019-06-17   修回日期: 2019-09-14   网络出版日期: 2019-12-25

基金资助: *本文系国家自然科学基金项目“基于在线健康社区的病患知识发现和个性化诊疗推荐方法研究”.  项目编号: 71771059
国家社会科学基金重点项目“供给侧结构性改革背景下中国先进制造业集聚区全球影响力培育路径研究”.  项目编号: 15AZD073
广州市哲学社科项目“信息网络技术驱动广州制造业转型”.  项目编号: 502170111

Received: 2019-06-17   Revised: 2019-09-14   Online: 2019-12-25

摘要

【目的】完善脑卒中关键风险因素的识别, 提高脑卒中风险预测的精度, 为脑卒中的科学诊断、治疗和干预提供更多依据。【方法】采集某三甲医院住院部近6 000条数据, 经过数据处理和逻辑回归建模拟合, 筛选出12个重要风险因素并构建脑卒中风险预测多层感知机神经网络模型; 利用Python语言构建模型并进行效果检验。【结果】识别出总胆固醇、低密度脂蛋白等是影响脑卒中发病的6个最重要风险因素, 当调节隐层神经元个数为7时风险预测模型的预测准确率为97.10%。【局限】有待纳入更多的风险因素和选用多种机器学习模型进行对比分析。【结论】本文方法可快速、有效地从数据中挖掘出影响脑卒中发病的关键风险因素, 并预测其发病风险, 具有较高的应用价值。

关键词: 脑卒中 ; 风险预测模型 ; 神经网络 ; 数据分析

Abstract

[Objective] This paper tries to effectively predict stroke risks, aiming to improve the diagnoses, treatments and interventions of stroke. [Methods] Firstly, we collected about 6000 inpatient medical records from a top hospital. Then, we identified 12 risk factors affecting stroke with logistic regression modeling. Thirdly, we constructed a multi-layer neural network model to predict stroke risks. Finally, we implemented the model with Python to examine its effectiveness. [Results] I. Total cholesterol and low-density lipoprotein etc. are the most important risk factors affecting the onset of stroke. II. When the number of hidden layer neurons was 7, the risk prediction model accuracy reached 97.10%.[Limitations] We need to include more risk factors and use multiple machine learning models for comparative analyses. [Conclusion] The proposed model could effectively predict the stoke risks facing patients.

Keywords: Stroke ; Risk Prediction Model ; Neural Network ; Data Analysis

PDF (581KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

吴菊华, 张烁, 陶雷, 姜顺军. 基于神经网络的脑卒中风险预测模型研究 *. 数据分析与知识发现[J], 2019, 3(12): 70-75 doi:10.11925/infotech.2096-3467.2019.0691

Wu Juhua. Predicting Stroke Risks with Neural Network. Data Analysis and Knowledge Discovery[J], 2019, 3(12): 70-75 doi:10.11925/infotech.2096-3467.2019.0691

1 引 言

目前脑卒中是我国致死、致残率最高的慢性疾病, 近年来发病率持续增长[1], 预计2030年我国脑血管病事件发生率比2010年升高约50%[2,3]。由于患脑卒中后具有不可逆、难以痊愈、护理费用高等特性, 医疗负担呈现日益增长趋势, 因此脑卒中的早期预防尤为重要。

脑卒中预防研究一般是应用统计学方法, 对危险因素与疾病发病之间关系进行模型拟合, 再对疾病发病危险进行量化分级, 从而开展脑卒中及高风险人群的健康管理[4,5,6]。该类方法耗时长, 纳入影响因素多, 模型复杂, 需要大量的资金支持队列研究。随着大数据技术的发展, 最新研究侧重于通过脑卒中患者医疗电子病历数据的跟踪和处理, 采用机器学习、数据挖掘等方法构建较高精度的脑卒中风险预测模型[7,8], 科学评估脑卒中发病风险状态, 识别高风险脑卒中患者, 将脑卒中疾病的防治中心前移, 被动疾病治疗变为主动健康管理。

2 脑卒中风险预测模型研究综述

卒中发病机理复杂、相关风险因素较多, 其相关典型研究如表1所示。可见, 国内外卒中的风险预测模型所纳入风险因素具有显著差异, 卒中风险预测模型准确率还有待于进一步提高。

表1   脑卒中风险因素及预测模型相关研究

研究者时间风险因素研究方法
Feigin等[9]2015环境颗粒物污染、固体燃料污染、铅暴露、高钠饮食、饮食含糖量高、少水果蔬菜谷物、饮酒、体力活动、二手烟、高体重指数、高空腹血糖、高收缩压、高总胆固醇、肾小球滤过率贝叶斯回归方程
Jusuf等[10]2016收缩压、舒张压、甘油三酯、卒中史、高血压史、血脂异常史、蔬菜消耗、睡眠持续时间、打鼾、运动、情绪压力判别分析
Hijazi等[4]2016年龄、心脏生物标志物 N-末端片段B型利钠肽、心肌肌钙蛋白高敏感性和既往卒中回归
Aigner等[11]2017高血压、高脂血症、糖尿病、冠心病、吸烟、大量发作性饮酒、低体力活动和肥胖逻辑回归
Wang等[12]2017高血压、糖尿病、心脏病、中风家族史、高脂血症、超重、吸烟、体育锻炼固定效应模型
杜秋明等[13]2018血压晨峰、颈动脉斑块形成、夜间平均收缩压、白昼血压负荷值、低密度脂蛋白逻辑回归
Wang等[5]2018高血压、糖尿病、高脂血症、心脏病或心房颤动、肥胖、吸烟、体育锻炼、中风家族史健康风险评估模型
邵泽国等[6]2018高血压、糖尿病、胆固醇、体重指数超标、少量食用蔬菜水果、吸烟、饮酒、过量食肉或牛奶、少运动决策树
Navis等[14]2018年轻(<80): 糖尿病、吸烟; 老年(≥80): 高血压、高脂血症、心房颤动、冠状动脉疾病回顾性综述

新窗口打开| 下载CSV


风险因素识别是建立预测模型的基础, 早前研究大多根据病历资料或经验归纳筛选风险因素[12,14-15]。随着医疗大数据发展, 一些学者尝试利用医疗数据集资源开展相关研究[16], 进一步完善卒中风险因素识别。

在风险模型建立阶段, 已有研究大多采用回归分析, 难以规避变量之间的相关性问题[11,13], 而机器学习人工智能等技术提供了新的解决方案[10,16]。其中人工神经网络(Artificial Neural Network, ANN)能纳入较多的风险因素, 实现复杂非线性映射, 自动提取合适求解规则, 具有良好的推广、概括和学习能力等特点, 已在心脏病的等级预测、缺血性卒中、脑血管疾病、高血压等慢性病的预防方面展开了相关研究[8,13,16]。鉴于卒中风险因素复杂, 加之数据集有限, 重要影响因素有待于进一步挖掘, 卒中人工神经网络准确率、普适性还有待提升, 建模方法有待于改进。

本研究采用神经网络中的多层感知机(Multi- Layer Perceptron, MLP)完成建模, 该模型在功能上能对数据进行合理分类, 在性能上具有较好的非线性、泛化和容错能力, 优于普通的ANN模型。对于风险因素的识别, 本文参考卒中风险因素相关文献, 以及相关研究对心脑血管疾病影响(CVD)的标准[17], 通过逻辑回归和神经网络学习建模, 以期获得较为完善的风险预测模型。

3 预测模型特征选取

3.1 数据预处理

本研究基于某三甲医院为期一年(2017-2018)的卒中与非卒中住院患者数据, 总计5 936条, 变量的详细相关信息如表2所示。

表2   数据集变量的相关信息

变量类型单位赋值/数据取值范围
人口
统计
学资
性别(Gender)无序二分类男=1; 女=0
年龄(Age)有序分类18-44; 45-59;
60-74; ≥75
体重指数(BMI)数值类型Kg/m2[12.4,68.0]
检验
指标
收缩压(SBP)连续mmHg[52,256]
舒张压(DBP)连续mmHg[36,180]
白细胞(WBC)连续109/L[0.15,29.7]
总胆固醇(TC)连续mmol/L[0.64,9.6]
甘油三酯(TG)连续mmol/L[0.01,21.3]
高密度脂蛋白(HDL)连续mmol/L[0.20,3.34]
低密度脂蛋白(LDL)连续mmol/L[0.01,9.54]
血肌酐(Scr)连续umlo/L[0,1755]
临床
病史
高血压(Hype)无序二分类是=1, 否=0
糖尿病(Diabetes)无序二分类是=1, 否=0
卒中史(HS)无序二分类是=1, 否=0
心脏病(HD)无序二分类是=1, 否=0
动脉硬化/狭窄/
闭塞(HSO)
无序二分类是=1, 否=0
是否卒中(Stroke)无序二分类是=1, 否=0

新窗口打开| 下载CSV


数据集参照最新卒中指南以及卒中防治报告[1], 并采纳医院专家建议进行采集。针对电子病历和检验结果等非结构化数据所存在的标准不规范、数据缺失、数据噪声, 以及结构化数据所存在的字段复杂和系统偏差等问题, 本研究采取数据清洗、集成和降维等数据预处理操作。丢弃和强制替换缺失值较多以及明显不合理的数据, 用样本平均值填充连续性变量缺失数据, 并采用最大最小值法进行归一化处理, 最终获得有效数据5 452条, 其定性变量的描述统计信息如表3所示。

表3   定性变量的描述统计信息

变量类别非卒中数量非卒中比列卒中数量卒中比列
Gender男性1 56750.53%1 53449.47%
女性1 48963.33%86236.67%
Age18-44岁1 11695.71%504.29%
45-59岁97071.17%39328.83%
60-74岁62638.33%1 00761.67%
≥75岁34426.67%94673.33%
Hype48021.79%1 72378.21%
2 57679.29%67320.71%
Diabetes16119.54%66380.46%
2 89562.55%1 73337.45%
HS130.62%2 09999.38%
3 04691.20%2948.80%
HSO00%830100.00%
4 622100%00%

新窗口打开| 下载CSV


表3中数据进行分析, 得出如下结论。

(1) 该数据集卒中患者和非卒中患者所占比例近似为1:1.2, 男女比例和各个年龄段人数均衡, 具有较好的预测研究价值。

(2) 年龄是卒中的重要风险因素之一; 一般地, 随着年龄增长转化为卒中患者可能性越大。

(3) 从临床病史的角度分析, 患有高血压、糖尿病、卒中史、心脏病、动脉硬化/狭窄/闭塞任一种疾病, 后续患卒中的机率较大。风险比例按从小到大进行排列, 依次为高血压、糖尿病、心脏病、卒中史、动脉硬化/狭窄/闭塞。数据集显示卒中人群中100%患有动脉硬化/狭窄/闭塞, 约78.21%的人患有高血压。因此, 临床病史是卒中的重要风险因素, 应进行进一步分析和探讨。

3.2 基于逻辑回归的风险因素筛选

通过SPSS进行共线性诊断分析, 确保所选变量之间相互独立。然后构建逻辑回归方程, 选择P值为经验值0.05, 经过回归方程显著性检验和拟合优度检验后, 得到回归模型方程如下所示。

$\begin{align} & \text{In(}p/1-p\text{)}=\text{0}\text{.569}\times Gender+\text{0}\text{.034}\times Age-\text{0}\text{.221}\times \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ BMI+\text{0}\text{.167}\times WBC-\text{4}\text{.97}\times TC+\text{1}\text{.218}\times \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ TG+\text{2}\text{.95}\times HDL+\text{5}\text{.888}\times LDL+\text{0}\text{.022}\times \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ Scr-\text{1}\text{.233}\times Hype-\text{7}\text{.126}\times HS-\text{0}\text{.679}\times \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ HD-\text{28}\text{.619} \\ \end{align}$

该逻辑回归方程有12个显著性变量, 方程拟合优度较优。本研究依此作为卒中风险因素构建多层感知机神经网络模型。

4 脑卒中风险预测模型建立

4.1 参数确定

多层感知机是一种常用前馈式人工神经网络, 参数选择对其预测效果具有重要影响。多隐藏层模型复杂、不易求解, 因此本研究选择1层隐藏层。基于Loppmann法确定隐藏层最佳神经元个数区间范围为[2,13], 依次调整神经元个数对模型开展训练, 获得最优神经元个数为7。本研究因变量是二分类变量, 选择Logistic函数作为输出层的激活函数; 再选择Relu函数为隐层激活函数, 该模型的预测准确率和AUC值更优。鉴于多层感知机神经网络是一种监督学习算法, 选择预测准确率、约登指数、AUC、ROC曲线作为评估标准, 并采用循环调试方法确定最优参数值。将训练样本、测试样本数据的比例设置为8:2, 基于经验值确定学习率为0.9。

4.2 基于MLP神经网络的风险预测模型

利用Python语言构建卒中风险预测ANN模型, 并进行模型训练、测试, 获得模型训练样本和测试样本AUC值为0.973, 测试集的ROC曲线如图1所示。结果说明该风险预测模型具有较高准确率, 能较好地区分开卒中和非卒中人群。

图1

图1   模型测试集ROC曲线


4.3 模型输出

利用测试集评估该模型泛化能力的测试结果如表4所示。模型总体预测准确率为97.10%, 灵敏度为94.33%, 特异性为99.33%, 约登指数为0.9366, 说明该卒中风险预测模型具有很好的实验效果。

表4   基于测试样本的模型预测结果

预测值/观测值0(非卒中)1(卒中)合计
0(非卒中)59328621
1(卒中)4466470
合计5974941 091

新窗口打开| 下载CSV


4.4 重要性变量输出

通过方差分析和卡方检验, 去除2个重要程度相对低的因素, 保留10个风险因素, 如图2所示。可见, 其中6个最为重要的因素依次是: 总胆固醇、低密度脂蛋白、血肌酐、卒中史、甘油三酯和高密度脂蛋白是检测脑卒中的重要影响因素。

图2

图2   模型重要性风险因素


5 结 语

本研究构建了卒中风险预测多层感知机神经网络模型, 经过数据处理和逻辑回归建模拟合, 筛选出影响脑卒中发病的12个风险因素, 并识别出6个重要影响因素。该模型可以快速、有效地从众多数据中挖掘出影响脑卒中发病的关键风险因素, 并预测其发病风险, 因此具有较好的应用价值。

本研究的贡献如下:

(1) 构建的风险预测模型具有较高的预测准确率, 将为脑卒中的科学诊断、治疗和干预提供更多依据。

(2) 完善脑卒中风险因素的识别, 识别出低密度脂蛋白、总胆固醇、血肌酐、甘油三酯、卒中史是影响脑卒中发病的6个最重要的风险因素。

(3) 辅助医生决策, 关注高危人群, 及时发现疾病、预防疾病。

未来改进包括以下方面:

(1) 脑卒中的相关风险因素较多, 后续研究可以纳入更多风险因素。

(2) 引入多种机器学习模型进行对比分析, 以期获得更优模型。

(3) 将模型进一步完善并投入相关平台中使用, 根据大样本个体患者数据预测脑卒中的发病风险, 辅助医生诊断, 帮助患者预防。

作者贡献声明:

吴菊华: 提出论文选题和研究思路;

张烁: 实验、建模, 论文初稿撰写和修改;

陶雷: 修改论文;

姜顺军: 采集、清洗、分析数据。

利益冲突声明:

所有作者声明不存在利益冲突关系。

支撑数据:

支撑数据由作者自存储, E-mail: 983797872@qq.com。

[1] 吴菊华, 张烁, 陶雷, 姜顺军.
(病例基本特征、入院记录表、诊断情况、生命体征、实验室检查). xlsx. 医院患者数据.

参考文献

王陇德, 刘建民, 杨弋 , .

我国脑卒中防治仍面临巨大挑战——《中国脑卒中防治报告2018》概要

[J]. 中国循环杂志, 2019,34(2):105-119.

[本文引用: 2]

( Wang Longde, Liu Jianmin, Yang Yi , et al.

The Prevention and Treatment of Stroke Still Face Huge Challenges——Brief Report on Stroke Prevention and Treatment in China, 2018

[J]. Chinese Circulation Journal, 2019,34(2):105-119.)

[本文引用: 2]

Kim A S, Cahill E, Cheng N T .

Global Stroke Belt: Geographic Variation in Stroke Burden Worldwide

[J]. Stroke, 2015,46(12):3564-3570.

[本文引用: 1]

Moran A, Gu D, Zhao D , et al.

Future Cardiovascular Disease in China: Markov Model and Risk Factor Scenario Projections from the Coronary Heart Disease Policy Model-China

[J]. Circulation: Cardiovascular Quality and Outcomes, 2010,3(3):243-252.

[本文引用: 1]

Hijazi Z, Lindbäck J, Alexander J H , et al.

The ABC (Age, Biomarkers, Clinical History) Stroke Risk Score: A BiomarkerBased Risk Score for Predicting Stroke in Atrial Fibrillation

[J]. European Heart Journal, 2016,37(20):1582-1590.

[本文引用: 2]

Wang Y, Wang J, Cheng J , et al.

Is the Population Detected by Screening in China Truly at High Risk of Stroke?

[J]. Journal of Stroke and Cerebrovascular Diseases, 2018,27(8):2118-2123.

[本文引用: 2]

邵泽国, 陈晨, 陈炜 .

基于优化决策树的脑卒中日常生活习惯风险因素分析

[J]. 现代预防医学, 2018,45(15):2689-2693.

[本文引用: 2]

( Shao Zeguo, Chen Chen, Chen Wei .

Analysis of Risk Factors of Daily Life Habits in Stroke Based on Optimal Decision Tree

[J]. Modern Preventive Medicine, 2018,45(15):2689-2693.)

[本文引用: 2]

Chauhan S, Vig L, De Grazia M D F , et al.

A Comparison of Shallow and Deep Learning Methods for Predicting Cognitive Performance of Stroke Patients from MRI Lesion Images

[J]. Frontiers in Neuroinformatics. https://doi.org/10.3389/fninf. 2019. 00053.

[本文引用: 1]

Almadani O, Alshammari R .

Prediction of Stroke Using Data Mining Classification Techniques

[J]. International Journal of Advanced Computer Science and Applications, 2018,9(1):457-460.

[本文引用: 2]

Feigin V L, Mensah G A, Norrving B , et al. for the GBD 2013 Stroke Panel Experts Group.

Atlas of the Global Burden of Stroke (1990-2013): The GBD 2013 Study

[J]. Neuroepidemiology, 2015,45(3):230-236.

[本文引用: 1]

Jusuf M I, Machfoed M H, Keman S .

Infarction Stroke Risk Prediction Model for Indonesian Population: A Case-Control Study

[J]. Bangladesh Journal of Medical Science, 2016,15(2):269-274.

[本文引用: 2]

Aigner A, Grittner U, Rolfs A , et al.

Contribution of Established Stroke Risk Factors to the Burden of Stroke in Young Adults

[J]. Stroke, 2017,48(7):1744-1751.

[本文引用: 2]

Wang J, Wen X, Li W , et al.

Risk Factors for Stroke in the Chinese Population: A Systematic Review and Meta-analysis

[J]. Journal of Stroke and Cerebrovascular Diseases, 2017,26(3):509-517.

[本文引用: 2]

杜秋明, 曹书华, 王淑亮 , .

高血压患者发生急性脑梗死的影响因素分析

[J]. 中国慢性病预防与控制, 2018,26(2):133-137.

[本文引用: 3]

( Du Qiuming, Cao Shuhua, Wang Shuliang , et al.

Analysis of Influencing Factors of Acute Cerebral Infarction in Patients with Hypertension

[J]. Chinese Journal of Prevention and Control of Chronic Diseases, 2018,26(2):133-137.)

[本文引用: 3]

Navis A, Garcia-Santibanez R, Skliut M .

Epidemiology and Outcomes of Ischemic Stroke and Transient Ischemic Attack in the Adult and Geriatric Population

[J]. Journal of Stroke and Cerebrovascular Diseases, 2018,28(1):84-89.

[本文引用: 2]

李敏, 王春霞, 夏冰 , .

健康管理人群脑卒中风险预测模型

[J]. 山东大学学报: 医学版, 2017,55(6):93-97, 103.

[本文引用: 1]

( Li Min, Wang Chunxia, Xia Bing , et al.

Risk Prediction Model for Stroke in Health Management Population

[J]. Journal of Shandong University: Medical Sciences, 2017,55(6):93-97, 103.)

[本文引用: 1]

Cai R, Zhu B, Ji L , et al.

An CNN-LSTM Attention Approach to Understanding User Query Intent from Online Health Communities

[C]// Proceedings of 2017 IEEE International Conference on Data Mining Workshops (ICDMW). IEEE, 2017: 430-437.

[本文引用: 3]

Mackay J, Mensah G A, Greenlund K .

The Atlas of Heart Disease and Stroke

[M]. World Health Organization, 2004.

[本文引用: 1]

Huang S C, Huang Y F .

Bounds on the Number of Hidden Neurons in Multilayer Perceptrons

[J]. IEEE Transactions on Neural Networks, 1991,2(1):47-55.

Piri S, Delen D, Liu T , et al.

A Data Analytics Approach to Building a Clinical Decision Support System for Diabetic Retinopathy: Developing and Deploying a Model Ensemble

[J]. Decision Support Systems, 2017,101:12-27.

Yang X, Li J, Hu D , et al.

Predicting the 10-year Risks of Atherosclerotic Cardiovascular Disease in Chinese Population: The China-PAR Project (Prediction for ASCVD Risk in China)

[J]. Circulation, 2016,134(19):1430-1440.

Agarwal R, Dhar V .

Big Data, Data Science, and Analytics: The Opportunity and Challenge for IS Research

[J]. Information Systems Research, 2014,25(3):443-448.

Lin Y K, Chen H, Brown R A , et al.

Health Care Predictive Analytics for Risk Profiling in Chronic Care: A Bayesian Multitask Learning Approach

[J]. MIS Quarterly, 2017,41(2):473-495.

/

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn