王琰, 胥美美, 童俞嘉, 苟欢, 蔡荣, 单治易, 安新颖
[目的]利用机器学习对循环系统疾病死亡构建预测预警模型及评价,为疾病的预防提供参考。
[方法]使用中国某地区2014-2018年循环系统疾病死亡数据进行分析,采用GAM、RF、XGBoost构建预测模型。分布滞后非线性模型计算累计滞后效应结果构建预警模型,进行模型评价。
[结果]累计滞后效应发现持续低温高温、高日照时数、高环境污染物浓度会增加循环系统疾病死亡风险,累计七天的相对危险度分别为1.236、1.130、1.56、1.062、1.218、1.153、1.796。RF、XGBoost模型RMSE为4.979、5.341性能较好。年龄、性别、气温、日照时数、SO2、NO2、CO、O3、PM10、PM2.5浓度为筛选出的特征变量,将累计滞后效应筛选后的数据确定预警值预警效果较好。XGBoost预测结果的灵敏度、特异度、曲线下面积分别为0.948、0.939、0.941。
[局限]缺乏伴随疾病独立数据和疾病发展进程数据。
[结论]该地区死亡数增加与高年龄、男性、温度、日照时数、污染物浓度的升高有关。利用XGBoost模型构建的预测预警模型性能好,可为相关部门疾病的预防和干预提供参考价值。