Advanced Search

数据分析与知识发现, 2019, 3(12): 101-112 doi: 10.11925/infotech.2096-3467.2019.0776

研究论文

基于多目标量子优化分类器的急诊危重患者关键指标筛选 *

李静1, 潘舒笑1, 李雪岩,,2, 贾立静3, 赵宇卓3

1 北京交通大学经济管理学院 北京 100044

2 北京联合大学管理学院 北京 100101

3 中国人民解放军总医院 北京 100853

Screening Critical Patients with Optimized Classifier Based on Multi Objective Quantum

Li Jing1, Pan Shuxiao1, Li Xueyan,,2, Jia Lijing3, Zhao Yuzhuo3

1 School of Economics and Management, Beijing Jiaotong University, Beijing100044, China

2 Management College, Beijing Union University, Beijing100101, China

3 The General Hospital of the People’s Liberation Army, Beijing100853, China

通讯作者: 李雪岩, ORCID: 0000-0002-7551-0502, E-mail:gongye1632006@163.com

收稿日期: 2019-07-1   修回日期: 2019-09-12   网络出版日期: 2019-12-25

基金资助: *本文系北京市社会科学基金项目“大数据时代面向首都精细化管理的城市发展研究”.  项目编号: 19ZDA05
北京联合大学基金项目“基于大数据的首都城市精细化管理提升研究”.  项目编号: WS10201902

Received: 2019-07-1   Revised: 2019-09-12   Online: 2019-12-25

摘要

【目的】解决急诊危重患者指标规模庞大、筛选方式主观性强、医生决策难度大的问题。【方法】将基于量子行为的多目标粒子群算法与机器学习分类器结合, 提出一种利用少量指标实现较高患者状态识别率的关键指标筛选方法, 并与两种既有指标筛选方法进行对比。【结果】该指标筛选方法增大了搜索空间、有效降低了数据维度, 具有更高的患者状态识别精度, 并且筛选出的指标具有明显的临床意义。【局限】指标的重要性需单独计算, 当数据量较大时, 会增加计算复杂度。【结论】将多目标优化思想与机器学习进行结合, 有效提升了患者状态识别精确率和F值。

关键词: 指标筛选 ; 多目标优化 ; 量子行为 ; 机器学习

Abstract

[Objective] This study tries to improve the identification of emergency patients’ critical indicators. [Methods] First, we selected a swarm algorithm with multi-objective particle and quantum behaviors. Then, we combined this algorithm with machine learning classifier to propose a new method for screening the needed indicators. Finally, we compared the new method with two existing ones. [Results] The proposed method increased search scope and reduced data dimensionality, which help us obtain indicators of clinical significance. [Limitations] The calculation of indicators’ importance needs to be optimized with recursive method. [Conclusions] The proposed method could improve the recognition rates of critical patients.

Keywords: Indicators Screening ; Multi-objective Optimization ; Quantum Behavior ; Machine Learning

PDF (935KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李静, 潘舒笑, 李雪岩, 贾立静, 赵宇卓. 基于多目标量子优化分类器的急诊危重患者关键指标筛选 *. 数据分析与知识发现[J], 2019, 3(12): 101-112 doi:10.11925/infotech.2096-3467.2019.0776

Li Jing. Screening Critical Patients with Optimized Classifier Based on Multi Objective Quantum. Data Analysis and Knowledge Discovery[J], 2019, 3(12): 101-112 doi:10.11925/infotech.2096-3467.2019.0776

1 引 言

近年来, 各类数据分析方法和预测模型在临床医学中得到了广泛的应用, 在急救临床实践中, 由于患者伤情往往较为严重, 抢救操作时间紧急, 需要进行快速决策, 而患者的生理、化验指标体系又非常庞大, 为医生快速识别患者关键指标、对患者状态做出正确预测增加了难度[1]

当指标数量较少时, 筛选关键指标较为容易, 可采用基于样本状态识别率的包裹式或嵌入式方法计算指标重要性, 再依据实际需要截取满足条件的关键指标。但是, 当患者生理、化验指标数量较多时, 会大大增加上述方法的迭代复杂性, 而且指标数量截取的标准难以统一, 为医生进行全方位、多角度判断增加了难度, 此时, 关键指标的筛选就需要同时考虑保留的指标数量与样本状态识别精度两个方面。本文针对这一问题, 选取一个新的视角, 即将多目标优化中的帕累托最优思想与机器学习进行有机结合, 提出一种实现指标数量与患者状态识别精度同时优化的关键指标筛选方法, 并与既有方法进行比较。

2 文献综述

2.1 临床急救患者指标体系与状态预测研究

在近期的急救患者关键指标及后续状态预测研究方面, Jones等[2]建立了急救患者5大指标与治疗时间的线性回归模型, 分析了各项指标与治疗时间之间的关系; Coster等[3]通过对6个月的患者报告进行统计性分析, 提出了患者发生重伤的急救场景下与7日内存活率相关的关键指标; McCoy等[4]运用机器学习算法实现了具有较高死亡率的脓毒症患者的风险评分, 为病情的早期干预提供了决策支持, 患者指标体系的构建则通过人工筛选进行; Gupta等[5]在两套不同的脓毒症诊断指标体系下, 分别运用决策树、逻辑回归、朴素贝叶斯等方法预测病人死亡率, 判别了两套指标体系的优劣; Levin等[6]针对美国急救领域内患者的治疗标准与风险分级严重依赖主观经验方法的缺陷, 采用随机森林算法, 基于患者重要历史治疗数据对其结局进行预测, 获得了比主观方法更高的精度; Hohl等[7]采用前瞻性研究方法(Prospective Study)结合收集到的患者各项指标, 建立了两套对急救患者实施药剂师为主导的药物治疗决策规则, 在实际运用中获得了较高的诊断准确率。

由上述研究可见, 对于急救患者的结局预测、风险预警研究, 相对于传统方法, 机器学习已经取得了较好的效果, 但患者关键指标体系的建立依然多依赖于较为单一的决策目标或筛选原则(如仅依赖精度评价指标), 在特征数量和状态识别精度之间的权衡方法研究较少, 尤其是在指标规模庞大时, 这一研究的意义更为突出。

2.2 关键指标选取方法研究

周志华[8]将机器学习领域的特征选择方法分为三类, 分别是: 过滤式方法; 包裹式方法; 嵌入式方法。其中, 过滤式方法将特征的选取与后续的模型训练分割为两个独立的部分, 例如Relief方法[9]、基于粗糙集的属性约简[10]等, 由于未考虑后续学习器的性能, 因此该方法所选取的特征依然有可能存在冗余, 即容易造成后续模型的过拟合; 包裹式方法则直接把最终使用的学习器的性能作为指标选取的评价标准, 因此, 其特征选取的效果优于过滤式方法; 嵌入式特征选择将特征选择过程与机器学习训练过程融为一体, 即在学习器训练的过程中自动进行特征选择, 常见的嵌入式方法有L1正则化[11]、随机森林[12]等, 而嵌入式方法的效果受数据集构造方式的影响较大。目前, 对于特征选取的研究, 由于包裹式方法是直接以后续学习器的性能为目标选取指标, 以该目标为原则, 具体特征选取方法的设计还存在较大的研究空间。

基于包裹式方法的思想, 一些学者以学习器性能为依据选择穷举法[13]进行特征选择, 对属性集合的所有真子集进行迭代遍历, 寻找最好的属性集合, 显然, 该方法在面对特征数量较大的数据集时运算代价非常大; 针对穷举法的弊端, 有人提出递归式特征消除方法[14], 其主要思想是反复构建训练模型, 每轮训练结束后, 消除若干权值系数对应的特征, 再基于新的特征集进行下一轮训练; 周成等[14]提出了一种典型的递归式特征消除方法, 首先, 利用后向递归轮流去除指标后, 考察识别率变化, 据此计算每个指标的“影响系数”, 在后向递归得到的影响系数排序基础上, 利用前向递归依次增加指标, 依据各指标对识别率的贡献计算“提升系数”, 作为属性重要性选取关键指标; Huang等[15]在递归式特征消除法与支持向量机二者结合的基础上引入特征聚类分析, 提升了寻找关键基因特征的效率; 但递归式特征消除方法也有两个缺陷: 迭代过程依旧复杂, 计算量没有显著下降; 从智能算法的角度而言, 该方法在一定程度上缩小了指标组合的搜索空间, 人为干预因素影响较大, 容易出现属性集合的局部最优。

就优化的角度而言, 当数据集特征数量较多时, 特征选择问题是典型的NP-Hard问题, 一些学者将人工智能算法与数据挖掘算法进行有机结合, 将特征选择问题进行编码, 使其转化为可用智能算法求解的优化问题。Alijla等[16]将改进的智能水滴算法与基于C4.5、支持向量机等基于包裹式特征选取的机器学习算法相结合, 取得了良好的特征选择效果; Sayed等[17]采用混沌集群算法选取能够实现最高分类精度的特征子集; Zouache等[18]则将量子行为与集群智能算法结合, 求解基于粗糙集的属性约简问题, 并取得了良好的效果。目前, 基于智能优化算法的特征选取以单目标优化为主, 同时考虑数据子集所包含特征数量与数据子集分类性能的多目标特征选取尚存较大研究空间。

综上所述, 本文的研究工作主要解决两方面的问题:

(1) 针对医学领域急诊危重患者庞大的指标体系, 目前指标选取多依赖于主观经验的不足, 提出一种基于包裹式方法思想的关键指标筛选方法;

(2) 针对包裹式特征选择方法中易产生NP-Hard问题、迭代过程依然复杂的缺点, 兼顾关键指标数量, 将多目标智能优化算法与机器学习算法有机结合进行指标筛选, 提升患者结局状态识别精度。

3 研究方法

本文将患者关键指标的筛选问题视为综合考虑: 指标约简数量和指标对患者状态识别精度的多目标优化问题。对于该优化问题采用基于量子行为的粒子群算法进行求解, 种群中的每个粒子表示一种指标组合, 指标组合采用量子比特编码, 以该指标组合条件下机器学习的状态识别精度及指标数量作为目标函数, 粒子群内的遗传操作采用量子旋转门、均值方差法及混沌变异相结合的形式进行, 通过粒子群的多次更新, 产生最优的关键指标组合。

3.1 编码解码

量子进化的思想是将量子的状态叠加性、并行性等特性引入进化计算, 通过量子旋转门推动量子的进化, 以解决传统进化算法易早熟的缺点[19], 量子比特表示如公式(1)所示。

$\left| \varphi \right\rangle \text{=}\alpha \left| \text{0} \right\rangle \text{+}\beta \left| \text{1} \right\rangle$

其中, $\alpha $与$\beta $分别以复数的形式表示状态$\left| \text{0} \right\rangle $与状态$\left| \text{1} \right\rangle $的概率幅, 且$\alpha $与$\beta $满足归一化条件${{\left| \alpha \right|}^{\text{2}}}\text{+}{{\left| \beta \right|}^{\text{2}}}\text{=1}$, 这样, 对于具有$m$个初始指标的筛选问题则可以用$m$位量子比特表示, 如公式(2)所示。

$x=\left[ \begin{align} & {{\alpha }_{1}},{{\alpha }_{2}},\cdots ,{{\alpha }_{k}},\cdots {{\alpha }_{m}} \\ & {{\beta }_{1}},{{\beta }_{2}},\cdots ,{{\beta }_{k}},\cdots {{\beta }_{m}} \\ \end{align} \right]$

可见, 状态$\left| \text{0} \right\rangle $表示非关键指标, 状态$\left| \text{1} \right\rangle $表示关键指标, 长度为$m$的量子比特编码可以表示的经典信息量为${{2}^{m}}$, 可通过较少的迭代步数实现更加广泛的搜索空间, 在指标数量较多的情形下, 可以极大提升筛选性能。将不同的指标量子比特编码视为一个种群, 种群的状态进化可通过量子旋转门$U$实现, 依据薛定谔方程要求, 旋转门应满足$U\cdot {U}'=1$, 如公式(3)所示。

$ \left| \begin{align} & {{{{\alpha }'}}_{k}} \\ & {{{{\beta }'}}_{k}} \\ \end{align} \right|=$$\left[ \begin{matrix} \cos {{\theta }_{k}} & -\sin {{\theta }_{k}} \\ \sin {{\theta }_{k}} & \ \ \cos {{\theta }_{k}} \\\end{matrix} \right]$$\cdot \left| \begin{align} & {{\alpha }_{k}} \\ & {{\beta }_{k}} \\ \end{align} \right|$

其中, ${{\theta }_{k}}$为调整策略, 由粒子当前适应度与种群中优秀个体比较得到, 调整策略的设计有固定的规则, 此处不再赘述。由此, 可通过量子旋转门调整种群中个体指标组合向优秀粒子的进化, 实现关键指标筛选。

3.2 指标筛选优化模型及帕累托最优解

关键指标筛选的原则是在去掉冗余指标的同时保证患者状态识别精度达到要求, 以指标组合情况为自变量, 令${{x}^{R}}$表示指标组合情况的实数编码, 可将该原则用多目标规划的形式表示, 如公式(4)所示。

$\left\{ \begin{align} & {{f}_{1}}=\underset{x_{k}^{R}=0,1}{\mathop{\min }}\,\sum\limits_{k=1}^{m}{x_{k}^{R}} \\ & {{f}_{2}}=\underset{x_{k}^{R}=0,1}{\mathop{\max }}\,G(x_{1}^{R},\cdots ,x_{k}^{R},\cdots ,x_{m}^{R}) \\ & s.t.\ \sum\limits_{k=1}^{m}{x_{k}^{R}}\le m \\ \end{align} \right.$

进一步, 公式(4)可表示为标准形式, 如公式(5)所示。

$\left\{ \begin{align} & \min \ F(x)={{[{{{{f}'}}_{1}}(x),{{{{f}'}}_{2}}(x)]}^{\mathrm{T}}} \\ & s.t.\ x\in S \\ \end{align} \right.$

其中, $G$表示各种基于机器学习的状态识别(分类)算法精度, ${{{f}'}_{1}}$与${{{f}'}_{2}}$分别表示${{f}_{1}}$与${{f}_{2}}$的标准形式(${{{f}'}_{2}}$即表示状态识别误差)。可见, 由机器学习算法自身的特点可知, 上述多目标优化问题的各个子目标之间具有矛盾性。因此, 本文引入帕累托最优解思想进行去除冗余指标与保证患者状态识别精度之间的权衡。

定义1: 关键指标组合支配关系。对于指标组合${{x}_{A}},{{x}_{B}}\in S$, 如果有${{{f}'}_{i}}({{x}_{A}})\le {{{f}'}_{i}}({{x}_{B}})$$(i=1,2,\cdots ,n)$且至少存在一个$j\in \left\{ 1,2,\cdots ,n \right\}$使${{{f}'}_{j}}({{x}_{A}})<{{{f}'}_{j}}({{x}_{B}})$, 则称关键指标组合${{x}_{A}}$支配关键指标组合${{x}_{B}}$, 记作${{x}_{A}}\prec {{x}_{B}}$。

定义2: 非支配关键指标组合。如果关键指标组合${{x}_{C}}\in S$并且${{x}_{C}}$不被其他任何关键指标支配, 则称${{x}_{C}}$为非支配关键指标组合。

定义3: 关键指标筛选的帕累托前沿。由所有非支配关键指标组合计算得出的目标函数值集合在解空间中的表示称为关键指标筛选的帕累托前沿(表示为$PF$), 如公式(6)所示。

$PF=\{\left. [{{f}_{1}}(x),{{f}_{2}}(x)] \right|x\in \}$

3.3 指标筛选算法执行过程

本文将改进的多目标粒子群算法与量子行为进行结合, 作为指标筛选优化算法, 其中, 选取粒子群算法作为基础算法的原因是: 相对于一般的智能算法, 粒子群算法具有更快的收敛速度, 有助于提升指标选取效率;