Advanced Search
数据分析与知识发现, 2018, 2(10): 21-26
doi: 10.11925/infotech.2096-3467.2018.0768
基于K-means聚类分析的民航系统恐怖主义风险评估*
Risk Assessment of Civil Aviation Terrorism Based on K-means Clustering
刘明辉

摘要:

【目的】使用K-means聚类分析方法, 对民航系统遭受的恐怖主义袭击进行定量、客观的评估。【方法】构造K-means聚类方法风险评估模型, 对1992年-2015年发生的民航系统恐怖袭击案件进行分析, 客观地计算出几类袭击方式、袭击目标的风险。【结果】飞机上爆炸、针对机场和工作人员的武装袭击是高风险等级, 飞机上的劫机、针对机场和工作人员的爆炸袭击是中风险等级, 其他形式的袭击方式风险等级相对较低。以此方法对2016年民航系统的恐怖袭击风险进行预测, 准确率达92.3%。【局限】使用K-means聚类分析方法进行风险评估, 仅适用于处理数值变量数据。【结论】该方法的分析计算过程不需要人工干预和打分, 可以根据统计数据对民航系统的恐怖袭击实现风险智能分类分级, 具有可推广性。

关键词: K-means ; 聚类分析 ; 民航 ; 风险评估

Abstract:

[Objective]This paper tries to assess the terrorism risks facing civil aviation industry quantitatively and objectively. [Methods] We proposed a risk assessment model based on K-means clustering, and then examined it with the data of terrorist attacks from 1992 to 2015. We calculated the risk of different types of attacks and their targets objectively. [Results] The risk of aircraft bombing, armed assault against the airport and airline staff were the highest, the risk of hijacking, bombing/explosion aginst the airport or airline staff were at medium level, and the risk of other attacks were relatively low. We used this method to predict the risk of terrorist attacks against the civil aviation in 2016, and the prediction accuracy was up to 92.3%. [Limitations] The proposed method for risk assessment is only suitable for processing numerical data. [Conclusions] The K-means clustering method can assess risk based on statistical data without human intervention, which could be applied to similar studies.

Key words: K-means ; Clustering ; Aviation System ; Risk Assessment

1 引 言

2001年发生在美国的“9·11”事件, 是一起震惊世界的恐怖袭击事件, 共造成包括劫机者在内的2 749人死亡。利用全球恐怖主义数据库(Global Terrorism Database, GTD)(http://www.start.umd.edu/gtd/)进行统计分析, 自1992年-2015年(不含1993年)发生的针对民航系统的恐怖袭击共有508次, 共造成1 249人死亡, 941人受伤。通过数据分析发现, 不同袭击方式对不同目标造成的损失程度有较大差别, 综合运用各类数据对民航系统的恐怖主义风险进行客观有效的评估具有重要意义。

本文采用K-means方法进行风险等级计算。K-means方法是一种数据挖掘方法[1,2,3,4,5], 主要用于将观测数据划分成若干不同的类, 使相同类的数据具有某种相似性, 不同类具有一定差异性。本文将该方法用于风险等级划分, 其主要优点在于无需人工干预赋权值, 具有良好的可推广性, 可以应用于具有类似数据结构的风险评估问题。本文详细给出K-means聚类 分析风险评估模型的算法和流程, 并分析1992年- 2015年发生的民航系统恐怖袭击案件, 客观地计算出几类袭击方式、袭击目标的风险等级。

2 研究现状

目前对于民航安全方面的风险评估研究, 主要包含对民航事故风险分析和民航系统涉恐威胁的评估研究。很多研究提出了定性或定量分析的模型, 但定量模型中参数的选取基本采取经验赋值或专家打分策略。比如对民航事故风险分析的研究, 曾亮[6]使用多层次模糊评估法评估民航不安全事件的风险, 从导致不安全事件发生的人-机-环境-管理4个子系统中的不安全因素出发, 计算不安全事件发生的可能性和后果严重程度的指标, 其中风险度的判断标准是基于经验数据的; 王衍洋等[7]使用一种民航运输系统安全评价方法, 通过死亡人数、受伤人数和直接经济损失等, 采用人工赋权的方法评估航空系统的安全性能; 吕学梅等[8]将危险源辨识、风险评估和风险控制应用到民航事故预防中, 把民航事故数据应用到风险水平矩阵, 计算事故原因风险, 其中灾害分类频率的划分采用经验数据分级; 王永刚等[9]使用三维风险评价模型研究民航系统风险, 每个维度的分类基本是定性的。关于民航系统涉恐威胁的评估研究, 模型中的系数也大多采用经验赋值的方法。比如Stewart等[10]利用风险和成本效益分析方法, 对航空恐怖威胁及防御措施成本进行评估, 评估过程中的系数采用经验赋值方法; 郭璇等[11]采用基于事件树和PRA的民航机场恐怖袭击风险评估模型, 结合德尔菲咨询法, 对某民航机场潜在的恐怖袭击事件损失概率和遇袭风险进行评估; 王振等[12]采用经典的事故树和事件树模型, 利用专家打分赋权, 以体育馆为例对其恐怖袭击风险进行评估; 贺元骅等[13]提出民航公共交通运输系统恐怖威胁评估模型, 构建判别算式评估交通运输系统的恐怖威胁, 但预测评估因子的赋值存在一定主观差异, 需要进行评估判别检验; 梅建明等[14]采用脆弱性分析模型, 利用经验赋值的方法, 分析民航系统的恐怖主义风险。此外, 关于恐怖主义风险评估的研究, 澳大利亚经济与和平研究所[15]每年发布全球恐怖主义指数(Global Terrorism Index, GTI)报告, 报告使用总的事件数、总死亡人数、总受伤人数以及财产损失等级作为计算指标, 采用人工赋权的方法计算GTI。

以上文献为本文使用定量方法研究民航系统恐怖主义的风险评估提供了有益的参考。本文不使用人工赋权方法, 而是采用一种客观的聚类分析方法——K-means方法进行风险等级评估。该方法可以对民航系统恐怖主义风险进行定量评估, 客观地给出针对不同袭击目标、不同袭击方式的风险等级。

3 K-means聚类分析风险评估模型

K-means聚类分析是一种非监督学习模型, 可以将数据对象分成若干子类。其基本思路是将n个观测数据划分为k个互斥簇, 划分结果可以作为风险分级的依据。K-means方法将数据中的每个观察值视为具有空间位置的对象, 它找到一个分区, 其中每个簇中的对象尽可能地彼此靠近, 并且尽可能远离其他簇中的对象。分区中的每个簇由其成员对象的质心定义。每个簇的质心是该簇中所有对象的距离之和最小化的点。通过运用K-means方法, 可以将数据对象分成若干簇, 通过计算簇质心与某指定参考点(如原点)的距离, 可以确定该簇的风险等级。

具体地说, 已知观测集$\{{x}_1,{x}_2,\cdots{x}_n\}$, 其中每个观测都是一个d维实向量, K-means聚类要将这n个观测划分到k个集合中(kn), 使组内平方和最小。即找到使满足公式(1)的聚类Si

$\underset{S}{\mathop{\arg \min }}\,\sum\limits_{i=1}^{k}{\sum\limits_{x\in {{S}_{i}}}{{{\left\| x-{{\mu }_{i}} \right\|}^{2}}}}$ (1)

其中, μiSi中所有点的均值。

K-means聚类分析风险评估流程如图1所示。

图1 K-means聚类分析风险评估流程

为求得使公式(1)成立的聚类Si, 可以采取以下迭代步骤:

①确定观测集。为使观测集具有相同量纲, 可能需要对观测集数据进行预处理。

②确定划分的类数k。划分的类数k需要根据实际情况确定。

③随机选取k个对象作为初始聚类的中心。

④对每个簇, 计算该簇所有观测点到中心的距离, 其中簇Si的中心定义为该簇所有点的均值, 如公式(2)所示。

${{\mu }_{i}}=\frac{1}{|{{S}_{i}}|}\sum\limits_{{{x}_{j}}\in {{S}_{i}}}{{{x}_{j}}},\quad 1\le i\le k$ (2)

⑤将每个观测点分配给距离最接近的簇, 观测点与簇的距离定义为该点到该簇中心的距离。

⑥重新计算每个簇中观测值的平均值, 获得k个新的中心位置。

⑦重复步骤④至步骤⑥, 直到收敛(簇分配不变)。

⑧根据各簇中心点到某指定参考点的距离, 确定各簇的风险等级。其中参考点根据实际情况确定, 比如原点。

4 实验与分析

实验分为两个部分: 第一部分使用描述性统计分析方法对民航系统面临的恐怖主义风险做出初步勾勒, 作为第二部分实验的铺垫和对比。值得注意的是, 该方法难以给出客观、定量的风险等级结果, 特别当数据维数较大时, 该方法的局限性将更明显。第二部分使用K-means方法进行风险评估, 利用针对不同目标的不同袭击方式发生的次数、造成的伤亡人数等数据, 不使用经验赋值或专家打分的策略, 通过聚类结果给出客观的风险等级。

4.1 描述性统计分析

在GTD数据库1992年-2015年(不含1993年)发生的508起针对民航的恐怖袭击中, 袭击方式主要包括武装袭击、暗杀、爆炸、基础设施攻击、劫机、劫持人质、绑架、徒手攻击等, 其中针对飞机的主要袭击方式有劫机、武装袭击和爆炸, 劫机事件占所有针对飞机恐怖袭击案件的65%; 而针对机场的袭击方式主要是爆炸和武装袭击, 分别占所有针对机场恐怖袭击案件的81%和8%; 针对民航工作人员的恐怖袭击案件较少, 主要袭击方式是爆炸, 如表1所示。

表1 针对民航的袭击手段及发生次数

可以看到, 劫持(包括劫持飞机和劫持人质)成为民航遭受恐怖袭击的一类主要案件, 是爆炸和武装袭击之外必须受到格外重视的一种袭击方式。

在这508起针对民航的恐怖袭击中, 共造成1 249人死亡, 941人受伤, 如表2所示。可以看到, 针对民航系统的恐怖袭击案件中, 爆炸、劫持、武装袭击是造成大量人员伤亡的主要因素, 特别值得注意的是飞机上的爆炸案件和劫持人质案件, 两类案件发生量比较少, 但是伤亡非常严重, 平均来看, 飞机上的爆炸案死亡人数为23.5人/次, 劫持人质事件死亡人数为123人/次, 远高于整个民航系统的恐怖袭击案件平均值2.46人/次。

表2 针对民航恐怖袭击伤亡人数

通过以上描述性统计可以初步看出, 不同袭击手段的发生频次以及针对不同目标所造成的伤亡人数。由于维数和数据较多, 需要一种综合、客观的评估方法给出针对民航系统的风险等级。

4.2 K-means聚类分析实验

通过描述性统计得出的初步结果可以看出, 针对民航系统的袭击手段及发生次数不平衡, 针对不同目标时各类袭击方式的死亡人数、受伤人数迥异。本文采用K-means聚类分析方法完成计算实验, 利用以上数据对不同目标、不同袭击方式的风险等级进行综合而客观的定量评估。

对每类袭击方式, 针对飞机、机场、民航工作人员进行K-means聚类分析, 以飞机上的袭击方式为例说明计算过程, 其他两类袭击方式的结果可以类推。

①确定观测集{x1,x2,···xn}。对8类袭击方式对应的发生次数、造成的死亡人数、受伤人数(①结合4.1节统计分析结果, 考虑到GTD数据库中经济损失等级一项的记录不够完整, 因此选取每类袭击方式发生的次数、死亡人数、受伤人数作为指标进行K-means聚类分析, 以得到针对民航系统不同目标、不同袭击方式的风险等级。)进行分析, 可知n=8, 每个观测xi都是一个三维实向量, 分别对应发生次数、死亡人数、受伤人数。由于三个维度量纲不同, 对观测集数据进行预处理。这里采用将观测集数据均一化的处理方法, 如公式(3)所示。

${{x}_{i}}(j):=\frac{{{x}_{i}}(j)}{\sum\limits_{i=1}^{8}{{{x}_{i}}(j)}},j=1,2,3;i=1,2,\cdots 8$ (3)

其中, xi ( j )表示xi的第j个元素。

计算得到预处理后的观测集, 如表3所示。

表3 均一化处理后的观测集

②确定划分的类数。本例将风险等级划分为高、中、低三级, 即令k=3。

③随机选取三个对象作为初始聚类的中心。

④对于每个簇, 计算该簇所有观测点到中心的距离。

⑤将每个观测点分配给距离最接近的簇。

⑥计算每个簇中观测值的平均值, 获得三个新的中心位置。

⑦重复步骤④至步骤⑥, 直到簇分配不变。

⑧计算得到收敛的三个簇中心点的坐标分别为(0.0256, 0.0231, 0.0556), (0.1667, 0.7660, 0.3472), (0.6543, 0.0724, 0.2639), 与原点的距离分别为0.0654、0.7092、0.8574, 以此确定为低、中、高三级风险等级, 结果如图2表4所示。

图2 飞机上K-means聚类分析风险等级结果
(注: “*”点为低风险等级, “○”为中等风险等级, “+”为高风险等级。)

表4 飞机上K-means聚类分析风险等级结果

用同样的方法步骤得到机场、民航工作人员的K-means聚类分析结果, 如表5所示。

表5 K-means聚类分析风险等级结果

可见, 飞机上爆炸、针对机场和工作人员的武装袭击是高风险等级, 飞机上的劫机、针对机场和工作人员的爆炸袭击是中风险等级, 其他形式的袭击方式风险等级相对较低。为检验方法的可靠性, 使用同样的方法对2016年民航系统遭受的恐怖袭击风险等级进行“预测”。2016年的风险等级如表6所示, 与表5相比较, 只有飞机上的武装袭击和劫机的风险略有不同, 准确率达92.3%, 这表明使用K-means聚类分析方法进行风险评估是可靠的。

表6 2016年民航系统遭受的恐怖袭击聚类分析结果

5 结 语

本文使用K-means聚类分析方法进行风险等级评估, 该方法的分析过程不需要人工干预, 不使用经验赋值或专家打分策略, 可以根据统计数据智能分类分级, 具有可推广性。本文利用开源数据库GTD进行实验, 基于对民航系统主要袭击方式和伤亡情况的特点, 以每类袭击方式在飞机上、机场和对民航工作人员的袭击发生次数、死亡人数、受伤人数作为观测集, 计算得到聚类分析风险等级结果。实验结果表明该方法对民航系统作出的风险评估是定量、客观的, 评估结果比较可靠。使用同样的方法对2016年民航系统遭受的恐怖袭击风险等级进行“预测”, 准确率达92.3%, 评估结果具有现实意义。

利益冲突声明:

所有作者声明不存在利益冲突关系。

支撑数据:

支撑数据见期刊网络版http://www.infotech.ac.cn。

[1] 刘明辉. 实验数据集. xlsx. 来自GTD, 下载地址http://www. start.umd.edu/gtd/.

参考文献

[1] Han J, Kamber M, Pei J.数据挖掘概念与技术[M]. 范明, 孟小峰译. 第3版. 北京: 机械工业出版社, 2012.
[本文引用:1]
(Han J, Kamber M, Pei J.Data Mining: Concepts and Techniques[M]. Translated by Fan Ming, Meng Xiaofeng. The 3rd Edition. Beijing: China Machine Press, 2012.)
[2] Wagstaff K, Cardie C, Rogers S.Constrained K-means Clustering with Background Knowledge[C]// Proceedings of the 18th International Conference on Machine Learning. 2001: 577-584.
[本文引用:1]
[3] Krishna K, Murty M N.Genetic K-Means Algorithm[J]. IEEE Transactions on Systems, Man, and Cybernetics: Part B(Cybernetics), 1999, 29(3): 433-439.
DOI:10.1109/3477.764879      URL     [本文引用:1]
[4] Arai K, Ali R B.Hierarchical K-means: An Algorithm for Centroids Initialization for K-means[J]. Reports of the Faculty of Science and Engineering, 2007, 36(1): 25-31.
[本文引用:1]
[5] 雷小锋, 谢昆青, 林帆, . 一种基于K-Means局部最优性的高效聚类算法[J]. 软件学报, 2008, 19(7): 1683-1692.
[本文引用:1]
(Lei Xiaofeng, Xie Kunqing, Lin Fan, et al.An Efficient Clustering Algorithm Based on Local Optimality of K-Means[J]. Journal of Software, 2008, 19(7): 1683-1692.)
[6] 曾亮. 多层次模糊评估法在民航不安全事件风险评估中的应用[J]. 中国安全科学学报, 2008, 18(1): 131-138.
通过对民航企业安全系统特点的分析,从导致不安全事件发生的人-机-环境-管理4个子系统中的不安全因素出发,采用层次分析、模糊评判和加权平均相结合的方法,分别计算了不安全事件发生的可能性和后果严重程度的指标,在该基础上得到了不安全事件发生的综合风险度,建立了民航企业不安全事件风险评估指标体系和评估方法.根据风险度评价矩阵和标准,企业可采取相应的风险控制措施,对不安全事件进行全面的管理,避免发生危险.
DOI:10.3969/j.issn.1003-3033.2008.01.023      Magsci     URL     [本文引用:1]
(Zeng Liang.Application of Multi-layer Fuzzy Evaluation Method to Risk Assessment in Civil Aviation[J]. China Safety Science Journal, 2008, 18(1): 131-138.)
[7] 王衍洋, 李敬, 曹义华. 中国民航安全评价方法研究[J]. 中国安全生产科学技术, 2008, 4(5): 111-113.
本文建立了一种新的民航运输系统安全评价方法,这个评价方法将测 量行业运行事故、事故征候、不安全事件的发生频率及后果严重程度(死亡人数和受伤人数、直接经济损失等),建立一个评估模型,以此来评估和指示航空系统的 安全性能,能够通过一套指数综合反映全系统的安全形势,使人一目了然地了解当前航空运输安全状况.使用此指数,可以对中国民航的安全风险进行宏观的、动态 的实时监测,对航空安全的发展趋势进行预警,促进民航安全水平的提高.
DOI:10.3969/j.issn.1673-193X.2008.05.026      URL     [本文引用:1]
(Wang Yanyang, Li Jing, Cao Yihua.Study on Safety Assessment of China Civil Aviation Industry[J]. Journal of Safety Science and Technology, 2008, 4(5): 111-113.)
[8] 吕学梅, 王永刚, 荆增强. 风险管理在民航事故预防中的应用[J]. 安全与环境学报, 2006, 6(S1): 153-155.
基于对航空安全极端重要性的深层次思考,将危险源辨识、风险评估和风险控制应用到民航事故预防中,对诱发事故的各种潜在因素进行分析、估计和评价,把1994-2003年的民航事故数据应用到风险水平矩阵中,得出人为因素失误和组织失调时的风险是不可接受的;进而提出风险控制措施,使人安全地与技术结合,并融人培训、管理政策或操作程序之中,有效减少人为失误;导致飞机事故的所有因素共同形成一个事故链,针对事故链中的每一个环节采取相应的措施,并协调好他们之间的关系有效地预防民航事故的发生。
DOI:10.3969/j.issn.1009-6094.2006.z1.053      URL     [本文引用:1]
(Lv Xuemei, Wang Yonggang, Jing Zengqiang.Application of Risk Management in Civil Aviation System[J]. Journal of Safety and Environment, 2006, 6(S1): 153-155.)
[9] 王永刚, 张秀艳. 民航系统三维风险评价模型的研究[J]. 中国水运, 2007, 5(7): 147-148.
[本文引用:1]
(Wang Yonggang, Zhang Xiuyan.The Research of Three-Dimension Risk Assessment Model for Civil Aviation System[J]. China Water Transport, 2007, 5(7): 147-148.)
[10] Stewart M G, Mueller J.Terrorism Risks and Cost-Benefit Analysis of Aviation Security[J]. Risk Analysis, 2013, 33(5): 893-908.
We evaluate, for the U.S. case, the costs and benefits of three security measures designed to reduce the likelihood of a direct replication of the 9/11 terrorist attacks. To do so, we assess risk reduction, losses, and security costs in the context of the full set of security layers. The three measures evaluated are installed physical secondary barriers (IPSB) to restrict access to the hardened cockpit door during door transitions, the Federal Air Marshal Service (FAMS), and the Federal Flight Deck Officer (FFDO) Program. In the process, we examine an alternate policy measure: doubling the budget of the FFDO program to $44 million per year, installing IPSBs in all U.S. aircraft at a cost of $13.5 million per year, and reducing funding for FAMS by 75% to $300 million per year. A break-even cost-benefit analysis then finds the minimum probability of an otherwise successful attack required for the benefit of each security measures to equal its cost. We find that the IPSB is costeffective if the annual attack probability of an otherwise successful attack exceeds 0.5% or one attack every 200 years. The FFDO program is costeffective if the annual attack probability exceeds 2%. On the other hand, more than two otherwise successful attacks per year are required for FAMS to be costeffective. A policy that includes IPSBs, an increased budget for FFDOs, and a reduced budget for FAMS may be a viable policy alternative, potentially saving hundreds of millions of dollars per year with consequences for security that are, at most, negligible.
DOI:10.1111/j.1539-6924.2012.01905.x      PMID:23035984      URL     [本文引用:1]
[11] 郭璇, 吴文辉, 肖治庭. 基于事件树和PRA的民航机场恐怖袭击风险评估模型[J]. 计算机应用研究, 2017, 34(6): 1809-1811.
[本文引用:1]
(Guo Xuan, Wu Wenhui, Xiao Zhiting.Civil Aviation Airport Terrorism Risk Assessment Model Based on Event Tree and PRA[J]. Application Research of Computers, 2017, 34(6): 1809-1811.)
[12] 王振, 刘茂. 定量风险分析在恐怖袭击风险评估中的应用[J]. 中国公共安全:学术版, 2006, 7(4): 18-22.
本文回顾了定量风险分析的发展过程,提出了对恐怖主义风险进行评估、定量的方法。在定量过程 中,根据已经获得的情报资料和以往类似事件的总结,结合专家意见,采用定量分析方法对数据进行处理,得出最可能的袭击目标,威胁的属性,确定出袭击的幕 景。采用事故树分析其威胁模型,采用事件树分析系统脆弱性,得出袭击的后果及目标中存在的最大脆弱性。为在恐怖威胁下做出有效决策提供了理论依据。并以体 育馆为例,用理论进行了实例分析。
DOI:10.3969/j.issn.1672-2396.2006.04.003      URL     [本文引用:1]
(Wang Zhen, Liu Mao.Application of Quantitative Risk Assessment on Terrorism Attack[J]. China Public Security: Academy Edition, 2006, 7(4): 18-22.)
[13] 贺元骅, 魏中许, 蔡正涛. 民航公共交通运输系统恐怖威胁评估模型分析[J]. 中国公共安全:学术版, 2009, 14(1): 11-14.
恐怖威胁已经成为社会安全事件的重要危险源,不断干扰和破坏交通 运输系统,造成重大的经济损失和社会恐慌.为了提高交通运输系统的安全防范水平和应急处置能力,迫切要求构建和完善恐怖威胁预警机制.恐怖威胁预警主要包 括威胁评估和分级响应两个部分,而威胁评估是分级响应的基础,也是恐怖威胁预誓的技术关键.本文主要探讨交通运输系统面临的恐怖威胁评估技术.综合考察现 代恐怖主义特征和交通运输系统运行特点,利用已有的情报信息系统从不同纬度设置并赋值恐怖威胁评估指标,构建一定判别算式对交通运输系统面临的恐