Advanced Search

数据分析与知识发现  2018 , 2 (10): 9-14 https://doi.org/10.11925/infotech.2096-3467.2018.0708

专题

贝叶斯理论在反恐情报分类分析中的应用研究*

李勇男

中国人民公安大学侦查与反恐怖学院 北京 100038

Using Bayes Theory to Classify Counter Terrorism Intelligence

Li Yongnan

School of Criminal Investigation and Counter Terrorism, People’s Public Security University of China, Beijing 100038, China

中图分类号:  G359 D631

通讯作者:  通讯作者: 李勇男, ORCID: 0000-0002-0481-6109, E-mail: liyongnan.buaa@gmail.com

收稿日期: 2018-07-3

修回日期:  2018-07-3

网络出版日期:  2018-10-25

版权声明:  2018 《数据分析与知识发现》编辑部 《数据分析与知识发现》编辑部

基金资助:  *本文系教育部人文社会科学研究青年基金项目“基于数据挖掘的涉恐情报量化分析方法研究”(项目编号: 17YJCZH098)、北京市社会科学基金项目“大数据驱动的首都反恐情报决策机制研究”(项目编号: 18GLC062)和国家社会科学基金重大项目“当前我国反恐形势及对策研究”(项目编号: 15ZDA034)的研究成果之一

展开

摘要

【目的】根据反恐情报的特点对朴素贝叶斯分类器进行修改, 为反恐情报数据的分类分析提供一种 简单实用的方法。【方法】根据反恐情报的特点删除数据噪声, 对相关性较大的属性进行归约, 对连续属性进行离散化处理; 利用预处理后的样本数据计算不同属性的条件概率; 基于最大后验假设判定数据分类。【结果】采用调高概率阈值的方式对最后的分类结果进一步筛选, 能部分抵消属性相关性对结果的影响, 最后只需对敏感等级较高的数据进行人工情报研判, 节约人力成本。【局限】本文方法对数据属性的独立性有一定的要求, 在实际使用中需要与决策树等其他分类方法组合使用, 才能覆盖更多的情报信息, 为反恐预警提供参考。【结论】该方法适用于对属性相关性较小的基础数据进行快速分类, 为人工情报研判提供参考依据。

关键词: 贝叶斯理论 ; 朴素贝叶斯 ; 最大后验假设 ; 反恐情报 ; 数据挖掘

Abstract

[Objective] This study modifies Naive Bayes Classifier according to the features of counterterrorism intelligence, aiming to provide a simple and practical way to categorize these data. [Methods] Firstly, we deleted the outliers of terrorism related data, discretized continuous attributes, as well as finished reduction of data with high level correlation. Secondly, we computed conditional probabilities of different attributes. Lastly, we classified new sample dataset based on maximum posteriori hypothesis. [Results] After categorizing the data, we raised probability threshold to partially offset the influence of the data dependence. Only some data of high-level sensitivity needs to be process manually. [Limitations] This method has some restrictions on data independence. In practice, it must be combined with other classification method such as decision tree to cover more intelligence data, and provide information for early warning. [Conclusions] The proposed method, which increases the efficiency of intelligence analysis, is ease of use and has fewer restrictions on the intelligence analysts.

Keywords: Bayes Theory ; Naive Bayes ; Maximum Posteriori Hypothesis ; Counter Terrorism Intelligence ; Data Mining

0

PDF (458KB) 元数据 多维度评价 相关文章 收藏文章

本文引用格式 导出 EndNote Ris Bibtex

李勇男. 贝叶斯理论在反恐情报分类分析中的应用研究*[J]. 数据分析与知识发现, 2018, 2(10): 9-14 https://doi.org/10.11925/infotech.2096-3467.2018.0708

Li Yongnan. Using Bayes Theory to Classify Counter Terrorism Intelligence[J]. Data Analysis and Knowledge Discovery, 2018, 2(10): 9-14 https://doi.org/10.11925/infotech.2096-3467.2018.0708

1 引 言

由于暴力恐怖活动影响恶劣, 在案件发生前获取涉恐情报, 实现反恐预警、提前预防和处置是现代反恐工作的重心之一。数据挖掘作为一种通用的技术手段广泛应用于反恐情报分析和反恐预警的各个领 域[1]。在大数据背景下, 利用数据挖掘技术进行反恐情报分析的研究主要包括公开信息的深度学习[2]、网络攻击检测[3]、风险评估[4]、涉恐群体聚类分析[5]、反洗钱[6]、智慧城市数据分析[7,8]、序列分析[9]、社交网络情报分析[10,11]等。

数据挖掘是指从海量的数据中发现隐含的知识以及规律的过程, 是信息检索、数据库、机器学习、人工智能、现代统计学等学科和技术快速发展的产物, 主要包括分类、关联分析、聚类分析、异常检测、偏差分析、回归分析等技术。分类是数据挖掘的主要方法之一, 其基本思想是通过样本数据集建立一个分类模型, 然后利用分类模型对新的样本对象进行分 类[12]。常用的分类算法包括决策树分类、贝叶斯分类、人工神经网络分类、遗传算法分类、最近邻分类等[13], 目前主要应用于文档分析、生物信息学、临床决策、风险分析、客户识别、垃圾邮件过滤等领域。

本文针对我国涉恐人员的特点研究数据挖掘中的分类方法, 具体是利用朴素贝叶斯分类器对涉恐人员情报数据进行快速分类。该方法计算简单, 专业门槛较低, 适合处理属性相关性较小的基础数据, 易于推广和普及。据笔者调研, 在中国知网、万方数据、维普网、百度学术、谷歌学术、微软学术等文献数据库或学术搜索引擎中未发现针对我国反恐情报特征利用朴素贝叶斯分类器进行反恐情报分类分析的相关研究。

2 贝叶斯理论和朴素贝叶斯分类器

贝叶斯理论[14]是一种广泛应用于数学和工程领域的概率论理论, 其最常用的方式是贝叶斯定理[15]。朴素贝叶斯分类器(Naive Bayes Classifier)是由贝叶斯理论衍生的一种用于数据分类的方法, 其工作原理为最大后验假设(Maximum Posteriori Hypothesis, MAP) [16], 即给定一个未知的数据样本X, 分类器将预测对应数据属于具有最高后验概率的类别。假设对于给定的离散属性A, 有A1, A2, ···, Ak共k种不同值, 则对于每个类Yj, 其条件概率为P(Ai|Yj)= Nij/Nj, 其中Nij为类Yj样本集中该离散属性上值为Ai的样本计数, Nj为样本集中类Yj的样本总计数。在常规的朴素贝叶斯分类器中, 连续属性A的精确条件概率用专门的公式[17]计算, 本文根据反恐情报的特点将连续属性转换为序数离散属性计算。

3 基于朴素贝叶斯分类器的反恐情报分析

3.1 朴素贝叶斯分类器对涉恐数据的适用性分析

(1) 在反恐预警中与其他分类方法的比较

①朴素贝叶斯分类器的优势。可用于情报分析的数据挖掘分类方法很多, 包括分类决策树、最近邻分类器、神经网络、支持向量机等。与其他方法相比, 朴素贝叶斯分类器仅要求情报分析人员掌握常用的Excel操作(数据透视表和公式计算)或者最基本的数据库查询操作。而分类决策树等其他方法对涉恐情报分析人员的计算机水平有较高要求, 需要掌握数据结构等基础知识且具有一定的编程基础。由于情报分析人员不一定为计算机相关专业, 而本文讨论的方法对从业人员的专业没有限制, 所以更容易普及和推广。此外, 贝叶斯分类在“误判概率”或“风险最小”两种度量上要优于其他判别分类[18], 这两点优势对于反恐情报分析尤其重要, 使用贝叶斯分类需要已知条件概率, 在反恐样本数据库足够大的情况下, 完全可以计算出比较准确的条件概率。

②朴素贝叶斯分类器的劣势及弥补方式。朴素贝叶斯分类器对反恐情报的数据属性有一定的限制, 要求不同的属性之间满足数据独立性。当不同的涉恐属性之间相关性不大时(可根据具体数据设定相关性阈值), 对分类结果影响较小, 近似满足朴素贝叶斯分类器对条件概率的相关性限制。在反恐情报分析中, 一般采用计算机分析和人工分析相结合的方式, 首先通过计算机筛选出风险级别较高的人员, 然后利用有限的人力资源对筛选出的数据进行重点分析, 基础数据情报分析的目标是搜索风险级别较高的人员。因此, 可以采用调高概率阈值的方式抵消属性相关性对结果的影响。当不同数据属性之间的相关性较大时, 可以进行数据归约。对连续涉恐属性的归约, 可以采用回归分析或者计算协方差等方式进行合并; 对离散属性的归约, 可以只考虑相关属性中最重要的属性, 即与涉恐最相关的属性。

(2) 对朴素贝叶斯分类器的调整

经典的朴素贝叶斯分类器可以对连续属性进行精准的计算, 即将数据的均值和标准差代入公式计算检测数据的条件概率。但对于涉恐人员的很多连续属性, 小的差异对涉恐风险等级并无明显影响, 例如, 年龄29岁和年龄28岁的涉恐等级并无明显差异。为提高情报分析效率, 本文采用离散化的数据预处理方法将涉恐的连续属性转换为离散的序数属性。例如, 将年龄这一连续属性采用按区间划分的方法进行离散化, [0,20)岁设为青少年, [20, 60)岁设为中壮年, 60岁及以上设为老年。在实际的涉恐情报分析中, 具体可根据不同地区的人员组成综合考虑经济发展、医疗条件等多种因素对收入水平、年龄、身高、体重等连续属性进行离散化[19]。不同地区的数据离散化处理需要采用不同的划分阈值, 由有经验的情报分析人员根据不同地区的情况来设定。

(3) 对涉恐噪声数据的处理

为提高朴素贝叶斯分类器的计算效率, 可以根据常识或反恐经验过滤噪声数据, 在数据预处理阶段删除部分信息, 减少基础数据量。例如, 6岁以下的儿童和90岁以上的老年几乎不具有独立实施暴力恐怖活动的能力, 即使是自杀式恐怖袭击也需要由他人主导完成, 这部分人员的数据可以过滤掉。再例如, 从事教师、作家、公务员、律师、程序员等职业的人群, 受教育程度较高, 不容易被恐怖组织洗脑, 也可以考虑作为噪声数据过滤掉[20]。以上例子仅作为一种假设, 在实际工作中不一定完全适用。同时, 过滤掉噪声数据时不一定为满足单一条件, 更普遍的情况是同时满足几种条件。

3.2 样本数据集

表1是用于描述朴素贝叶斯分类器分类过程的随机样本数据集, 包括20条样本数据, 每条样本数据包含6种属性: 特殊行为轨迹、年龄、特殊外表/穿着、是否参加非法集会、性别和涉恐等级。前5种属性是人员基本信息, 最后一种属性是根据前5种属性得到的该人员的涉恐等级。使用的属性特征可参考《中华人民共和国反恐怖主义法》、《新疆维吾尔自治区群众举报涉暴恐犯罪线索奖励办法》、《宗教极端活动的75种具体表现》[21]以及2017年3月29日颁布的《新疆维吾尔自治区去极端化条例》等公开文献或法规文件。本文仅讨论学术方法, 表1中的数据完全随机构建, 分类结果可能与实际情况并不吻合。

表1   随机样本数据集

   

特殊行为轨迹年龄特殊外表/穿着非法集会性别涉恐等级
私藏枪支17参 加1
18穿特殊标记衣物不参加1
19参 加2
涉嫌洗钱33参 加3
67戴特殊标记物品参 加3
62不参加3
65不参加2
私藏枪支38穿特殊标记衣物不参加1
涉嫌洗钱60戴特殊标记物品参 加1
39戴特殊标记物品参 加3
43穿特殊标记衣物不参加2
涉嫌洗钱47穿特殊标记衣物不参加1
私藏枪支49戴特殊标记物品参 加1
涉嫌洗钱62参 加2
涉嫌洗钱19戴特殊标记物品参 加1
28不参加3
私藏枪支30戴特殊标记物品参 加1
33不参加3
20参 加3
涉嫌洗钱27穿特殊标记衣物不参加1

新窗口打开

3.3 不同涉恐属性的条件概率计算

(1) 离散化处理

在计算不同涉恐属性的条件概率之前需要将所有的连续数值属性进行离散化处理。以表1中的数据为例, 要将年龄这一连续属性转换为序数离散属性。根据前文所述的阈值将年龄转换为青少年、中壮年和老年三种属性值。

(2) 数据归约

对相关性较大的属性还要进行数据归约, 例如表1中的“特殊外表/穿着”与“性别”。一般情况下, 穿特殊标记衣物的多为女性[22], 因此两个属性明显相关, 需要进行数据归约, 只考虑更重要的属性, 这里选择与涉恐更相关的“特殊外表/穿着”属性。

(3) 条件概率计算

在连续属性离散化和数据归约完成后, 计算涉恐等级为1的条件概率。如表2所示, 所有涉恐等级为1的数据共9条, 所以P(涉恐等级=1)=9/20, 显然P(涉恐等级=2)=4/20, P(涉恐等级=3)=7/20。在涉恐等级为1的条件下, 特殊行为轨迹为私藏枪支的数据有4条, 则P(特殊行为轨迹=私藏枪支|涉恐等级=1)=4/9。同理可求得其他条件概率。所有初始条件概率如表3所示。

表2   涉恐等级为1的样本数据

   

特殊行为轨迹年龄层特殊外表/穿着非法集会涉恐等级
私藏枪支青少年参 加1
青少年穿特殊标记衣物不参加1
私藏枪支中壮年穿特殊标记衣物不参加1
涉嫌洗钱老 年戴特殊标记物品参 加1
涉嫌洗钱中壮年穿特殊标记衣物不参加1
私藏枪支中壮年戴特殊标记物品参 加1
涉嫌洗钱青少年戴特殊标记物品参 加1
私藏枪支中壮年戴特殊标记物品参 加1
涉嫌洗钱中壮年穿特殊标记衣物不参加1

新窗口打开

表3   样本数据集的条件概率汇总

   

涉恐等级条件涉恐属性属性值概率
1特殊行为轨迹私藏枪支4/9
涉嫌洗钱4/9
1/9
年龄层老年1/9
青少年3/9
中壮年5/9
特殊外表/穿着穿特殊标记衣物4/9
戴特殊标记物品4/9
1/9
非法集会参加5/9
不参加4/9
2特殊行为轨迹3/4
涉嫌洗钱1/4
年龄层老年2/4
中壮年1/4
青少年1/4
特殊外表/穿着穿特殊标记衣物1/4
3/4
非法集会参加2/4
不参加2/4
3特殊行为轨迹涉嫌洗钱1/7
6/7
特殊外表/穿着戴特殊标记物品2/7
5/7
年龄层老年2/7
青少年1/7
中壮年4/7
非法集会参加4/7
不参加3/7

新窗口打开

3.4 类别划分

根据基础数据计算不同涉恐属性的条件概率后, 即可判断待分类人员的涉恐等级。例如, 待判定人员A的属性信息为: “涉嫌洗钱, 31岁, 戴特殊标记物品, 参加”。分别计算三种类别的条件概率, 判定概率较大的类别:

(1) P(涉恐等级=1|A)

P(涉恐等级=1)×P(特殊行为轨迹=涉嫌洗钱|涉恐等级=1)×P(年龄层=中壮年|涉恐等级=1)×P(特殊外表/穿着=戴特殊标记物品|涉恐等级=1)×P(非法集会=参加|涉恐等级=1)=0.0274;

(2) P(涉恐等级=2|A)

P(涉恐等级=2)×P(特殊行为轨迹=涉嫌洗钱|涉恐等级=2)×P(年龄层=中壮年|涉恐等级=2)×P(特殊外表/穿着=戴特殊标记物品|涉恐等级=2)×P(非法集会=参加|涉恐等级=2)=0;

(3) P(涉恐等级=3|A)

P(涉恐等级=3)×P(特殊行为轨迹=涉嫌洗钱|涉恐等 级=3)×P(年龄层=中壮年|涉恐等级=3)×P(特殊外表/穿着=戴特殊标记物品|涉恐等级=3)×(非法集会=参加|涉恐等 级=3)=0.0035。

显然, P(涉恐等级=1|A)的条件概率最大, 因此A的分类涉恐等级为1。虽然在启动贝叶斯分类器之前已经进行数据归约, 删除了部分相关性较大的属性, 但是相关性较小的属性也会对分类结果产生一定影响, 因此需要设定临界阈值对最后的分类结果进一步筛选, 例如对通过软件分类后的数据, 只保留条件概率大于2.5%且类别为涉恐等级等于1的部分数据进行人工情报研判, 以提高效率、节约人力成本。

3.5 方法应用与后续研究

本文研究的各种涉恐属性都是基于条件独立假设, 要求各属性之间满足数据独立性。在实际的反恐情报分析中, 如果涉恐属性的相关性较小, 可以近似认为满足条件独立性。当涉恐属性相关性较大时, 可以进行数据归约, 如本文采用的合并连续属性或只考虑相关属性中最重要的离散属性。此外, 还可以基于朴素贝叶斯分类器构建贝叶斯网络模型, 充分考虑不同属性之间定量的相关性。分类方法在实际反恐情报分析中与聚类分析组合使用, 可以提高情报分析的效率, 优化反恐资源配置[23]

4 结 语

本文结合我国反恐情报的特点, 提出利用贝叶斯理论进行涉恐人员情报信息的快速分类方法。为描述朴素贝叶斯分类器的分类过程, 利用随机构建的20条虚拟样本数据进行论述。在执行分类之前, 首先对连续属性进行离散化处理, 将相关性较大的属性进行归约, 然后计算初始条件概率。对待分类人员进行类别判定时, 设置概率阈值, 大于一定阈值的人员才需要进行重点分析研判。朴素贝叶斯分类器对数据属性的独立性有一定限制, 但对从业人员的专业背景要求不高, 相比其他分类方法, 更易于掌握和普及。同时, 贝叶斯分类在“误判概率”或“风险最小”两种度量上均优于其他判别分类, 非常适用于反恐情报的分类分析。本文方法在实际应用中可以作为其他分类分析的一种有效补充, 为从事反恐情报分析的人员提供借鉴, 为具有不同专业背景的情报分析人员提供适合的量化分析方法, 提高反恐工作效率。

利益冲突声明

所有作者声明不存在利益冲突关系。


参考文献

[1] Thuraisingham B.

Data Mining for Counter-Terrorism[A]// Kargupta H, Joshi A, Sivakumar K, et al. Data Mining: Next Generation Challenges and Future Directions

[M]. 2004: 157-183.

[本文引用: 1]     

[2] 郭璇, 吴文辉, 肖治庭, .

基于深度学习和公开来源信息的反恐情报挖掘

[J]. 情报理论与实践, 2017, 40(9):135-139.

https://doi.org/10.16353/j.cnki.1000-7490.2017.09.025      URL      [本文引用: 1]      摘要

[目的/意义]反恐情报工作通常依赖于情报人员的智力和经验,但大数据时代对海量数据的处理仅仅依靠人力显然是不够的。为了提高反恐情报信息工作效率,从而全面提升反恐情报预警能力,迫切需要自动化智能化的情报处理技术来减轻情报人员的工作量。[方法/过程]利用人工智能领域最新成果深度学习技术对公开来源信息进行反恐情报挖掘和分类,并采用深度学习词向量工具Word2vec对大量开源中文语料库进行深度训练。[结果/结论]实验结果证明深度学习算法在反恐情报的挖掘分类精度上要优于传统情报分类算法;通过Word2vec计算相似词向量的余弦距离,利用已知的恐怖分子、恐怖组织名单来挖掘与其密切关联的潜在恐怖分子,对于反恐情报预警工作具有积极意义。[局限]深度学习算法需要大量样本进行训练,时间开销稍大。

(Guo Xuan, Wu Wenhui, Xiao Zhiting, et al.

Anti-terrorism Intelligence Mining Based on Deep Learning and Open Source Information

[J]. Information Studies: Theory & Application, 2017, 40(9): 135-139.)

https://doi.org/10.16353/j.cnki.1000-7490.2017.09.025      URL      [本文引用: 1]      摘要

[目的/意义]反恐情报工作通常依赖于情报人员的智力和经验,但大数据时代对海量数据的处理仅仅依靠人力显然是不够的。为了提高反恐情报信息工作效率,从而全面提升反恐情报预警能力,迫切需要自动化智能化的情报处理技术来减轻情报人员的工作量。[方法/过程]利用人工智能领域最新成果深度学习技术对公开来源信息进行反恐情报挖掘和分类,并采用深度学习词向量工具Word2vec对大量开源中文语料库进行深度训练。[结果/结论]实验结果证明深度学习算法在反恐情报的挖掘分类精度上要优于传统情报分类算法;通过Word2vec计算相似词向量的余弦距离,利用已知的恐怖分子、恐怖组织名单来挖掘与其密切关联的潜在恐怖分子,对于反恐情报预警工作具有积极意义。[局限]深度学习算法需要大量样本进行训练,时间开销稍大。
[3] Ahmed A A, Zaman N A K.

Attack Intention Recognition: A Review

[J]. International Journal of Network Security, 2017, 19(2): 244-250.

[本文引用: 1]     

[4] Argomaniz J, Bures O, Kaunert C.

A Decade of EU Counter-terrorism and Intelligence: A Critical Assessment

[J]. Intelligence and National Security, 2015, 30(2-3): 191-206.

https://doi.org/10.1080/02684527.2014.988445      URL      [本文引用: 1]      摘要

The article is the centrepiece of a special issue co-edited with Oldrich Bures and Christian Kaunert on the European Union counterterror policies. This work offers a critical evaluation of the EU efforts in this area, its successes, failings and present and future challenges and includes in it contributions from some of the most renown experts on the subject.
[5] Chenoweth E, Lowham E.

On Classifying Terrorism: A Potential Contribution of Cluster Analysis for Academics and Policy-makers

[J]. Defence & Security Analysis, 2007, 23(4): 345-357.

[本文引用: 1]     

[6] Colladon A F, Remondi E.

Using Social Network Analysis to Prevent Money Laundering

[J]. Expert Systems with Applications, 2017, 67: 49-58.

https://doi.org/10.1016/j.eswa.2016.09.029      URL      [本文引用: 1]      摘要

We propose a new approach to sort and map relational data and present predictive models – based on network metrics – to assess risk profiles of clients involved in the factoring business. We find that risk profiles can be predicted by using social network metrics. In our dataset, the most dangerous social actors deal with bigger or more frequent financial operations; they are more peripheral in the transactions network; they mediate transactions across different economic sectors and operate in riskier countries or Italian regions. Finally, to spot potential clusters of criminals, we propose a visual analysis of the tacit links existing among different companies who share the same owner or representative. Our findings show the importance of using a network-based approach when looking for suspicious financial operations and potential criminals.
[7] Gunturi V M V, Shekhar S.

Big Spatio-temporal Network Data Analytics for Smart Cities: Research Needs[A]// Thakuriah P, Tilahun N, Zellner M. Seeing Cities Through Big Data

[M]. Springer International Publishing, 2017: 127-140.

[本文引用: 1]     

[8] Chen N, Chen Y, Ye X, et al.

Smart City Surveillance in Fog Computing[A]// Mavromoustakis C, Mastorakis G, Dobre C, et al. Advances in Mobile Cloud Computing and Big Data in the 5G Era

[M]. Springer International Publishing, 2017: 203-226.

[本文引用: 1]     

[9] Jayasree V, Balan R V S.

Anti Money Laundering in Financial Institutions Using Affiliation Mapping Calculation and Sequential Mining

[J]. Journal of Engineering and Applied Sciences, 2016, 11(1): 51-56.

[本文引用: 1]     

[10] Taha K, Yoo P D.

Using the Spanning Tree of a Criminal Network for Identifying Its Leaders

[J]. IEEE Transactions on Information Forensics and Security, 2017, 12(2): 445-453.

https://doi.org/10.1109/TIFS.2016.2622226      URL      [本文引用: 1]      摘要

We introduce a forensic analysis system called ECLfinder that identifies the influential members of a criminal organization as well as the immediate leaders of a given list of lower-level criminals. Criminal investigators usually seek to identify the influential members of criminal organizations, because eliminating them is most likely to hinder and disrupt the operations of these organizations and put them out of business. First, ECLfinder constructs a network representing a criminal organization from either Mobile Communication Data associated with the organization or crime incident reports that include information about the organization. It then constructs a Minimum Spanning Tree (MST) of the network. It identifies the influential members of a criminal organization by determining the important vertices in the network representing the organization, using the concept of existence dependency. Each vertex v is assigned a score, which is the number of other vertices, whose existence in MST is dependent on v. Vertices are ranked based on their scores. Criminals represented by the top ranked vertices are considered the influential members of the criminal organization represented by the network. We evaluated the quality of ECLfinder by comparing it experimentally with three other systems. Results showed marked improvement.
[11] Knoke D.

Emerging Trends in Social Network Analysis of Terrorism and Counterterrorism[A]// Emerging Trends in the Social and Behavioral Sciences: An Interdisciplinary, Searchable, and Linkable Resource

[M]. John Wiley & Sons, Inc., 2015:1-15.

[本文引用: 1]     

[12] 刘红岩, 陈剑, 陈国青.

数据挖掘中的数据分类算法综述

[J]. 清华大学学报: 自然科学版, 2002, 42(6): 727-730.

https://doi.org/10.3321/j.issn:1000-0054.2002.06.005      URL      [本文引用: 1]      摘要

分类算法是数据挖掘中的最重要的技术之一。通过对当前提出的最新的具有代表性的分类算法进行分析和比较 ,总结每类算法的各方面特性 ,从而便于研究者对已有的算法进行改进 ,提出具有更好性能的新的分类算法 ,同时方便使用者在应用时对算法的选择和使用

(Liu Hongyan, Chen Jian, Chen Guoqing.

Review of Classification Algorithms for Data Mining

[J]. Journal of Tsinghua University: Science and Technology, 2002, 42(6): 727-730.)

https://doi.org/10.3321/j.issn:1000-0054.2002.06.005      URL      [本文引用: 1]      摘要

分类算法是数据挖掘中的最重要的技术之一。通过对当前提出的最新的具有代表性的分类算法进行分析和比较 ,总结每类算法的各方面特性 ,从而便于研究者对已有的算法进行改进 ,提出具有更好性能的新的分类算法 ,同时方便使用者在应用时对算法的选择和使用
[13] 钱晓东.

数据挖掘中分类方法综述

[J]. 图书情报工作, 2007, 51(3):68-71.

[本文引用: 1]     

(Qian Xiaodong.

A Review on Classification Algorithms in Data Mining

[J]. Library & Information Service, 2007, 51(3): 68-71.)

[本文引用: 1]     

[14] Cornfield J.

Bayes Theorem

[J]. Revue De Linstitut International De Statistique, 1967, 35(1): 34-49.

https://doi.org/10.2307/1401634      URL      [本文引用: 1]     

[15] Lindley D V.

Fiducial Distributions and Bayes’ Theorem

[J]. Journal of the Royal Statistical Society: Series B (Methodological), 1958, 20(1): 102-107.

[本文引用: 1]     

[16] Li C, Jiang L, Li H.

Naive Bayes for Value Difference Metric

[J]. Frontiers of Computer Science, 2014, 8(2): 255-264.

https://doi.org/10.1007/s11704-014-3038-5      URL      [本文引用: 1]      摘要

The value difference metric (VDM) is one of the best-known and widely used distance functions for nominal attributes. This work applies the instanceweighting technique to improveVDM. An instance weighted value difference metric (IWVDM) is proposed here. Different from prior work, IWVDM uses naive Bayes (NB) to find weights for training instances. Because early work has shown that there is a close relationship between VDM and NB, some work on NB can be applied to VDM. The weight of a training instance x , that belongs to the class c , is assigned according to the difference between the estimated conditional probability ^P ( c | x ) by NB and the true conditional probability P ( c | x ), and the weight is adjusted iteratively. Compared with previous work, IWVDM has the advantage of reducing the time complexity of the process of finding weights, and simultaneously improving the performance of VDM. Experimental results on 36 UCI datasets validate the effectiveness of IWVDM.
[17] Tan P N, Steinbach M, Kumar V.数据挖掘导论[M]. 范明, 范宏建译. 第2版. 北京: 人民邮电出版社, 2011.

[本文引用: 1]     

(Tan P N, Steinbach M, Kumar V.Introduction to Data Mining[M]. Translated by Fan Ming, Fan Hongjian. The 2nd Edition. Beijing: The People’s Posts and Telecommunications Press, 2011.)

[本文引用: 1]     

[18] 曹建芳, 王鸿斌.

一种新的基于SVM的文本分类增量学习算法

[J]. 电子商务, 2009(12): 68-71.

https://doi.org/10.3969/j.issn.1009-6108.2009.12.032      URL      [本文引用: 1]      摘要

文本分类将自然语言文本按内容 归入一个或多个预定义类别中,在许多信息组织和管理中都是一项重要的内容。不同算法的分类准确性各不相同。在文本分类领域,SVM分类器是一种常用且效果 较好的分类器,具有较严密的理论基础。对SVM分类器进行了分析,提出了利用增量模式实现多类文本分类的算法。实验表明:增量方法大大减少新类增加时分类 器更新所需要的学习步骤和时间,是一种较好的分类算法。

(Cao Jianfang, Wang Hongbin.

A New Algorithm of SVM-based Incremental Learning for Text Classification

[J]. E-Business, 2009(12): 68-71.)

https://doi.org/10.3969/j.issn.1009-6108.2009.12.032      URL      [本文引用: 1]      摘要

文本分类将自然语言文本按内容 归入一个或多个预定义类别中,在许多信息组织和管理中都是一项重要的内容。不同算法的分类准确性各不相同。在文本分类领域,SVM分类器是一种常用且效果 较好的分类器,具有较严密的理论基础。对SVM分类器进行了分析,提出了利用增量模式实现多类文本分类的算法。实验表明:增量方法大大减少新类增加时分类 器更新所需要的学习步骤和时间,是一种较好的分类算法。
[19] 李勇男, 梅建明, 秦广军.

反恐情报分析中的数据预处理研究

[J]. 情报科学, 2017, 35(11): 103-107,113.

[本文引用: 1]     

(Li Yongnan, Mei Jianming, Qin Guangjun.

Research on Data Preprocessing in the Field of Counter Terrorism Intelligence Analysis

[J]. Information Science, 2017, 35(11): 103-107,113.)

[本文引用: 1]     

[20] 古丽阿扎提·吐尔逊.

“东突”恐怖势力个体特征及其发展趋势评析

[J]. 现代国际关系, 2014(1):56-62.

URL      [本文引用: 1]      摘要

恐怖分子的个体因素在恐怖犯罪活动中起着决定性的作用,“东突”恐怖分子的个体特征对中国新疆所发生的暴力恐怖犯罪有很大影响.这些个体特征包括“东突”分子的个人年龄、文化水平、性别特征等.通过分析中国公安部认定的三批“东突”分子和2013年国内法院所审理的“东突”恐怖案件,可看出“东突”恐怖势力的个人特征及其对恐怖活动的影响,并能观察未来“东突”恐怖势力的发展趋势.

(Tursun Gulazat.

On Individual Features of “Eastern Turkistan” Terrorism and Its Future Developments

[J]. Contemporary International Relations, 2014(1): 56-62.)

URL      [本文引用: 1]      摘要

恐怖分子的个体因素在恐怖犯罪活动中起着决定性的作用,“东突”恐怖分子的个体特征对中国新疆所发生的暴力恐怖犯罪有很大影响.这些个体特征包括“东突”分子的个人年龄、文化水平、性别特征等.通过分析中国公安部认定的三批“东突”分子和2013年国内法院所审理的“东突”恐怖案件,可看出“东突”恐怖势力的个人特征及其对恐怖活动的影响,并能观察未来“东突”恐怖势力的发展趋势.
[21] 石河子大学.

宗教极端活动的75种具体表现

[EB/OL]. [2018-06-09]. .

URL      [本文引用: 1]     

(Shihezi University.

75 Types of Manifestation of Religious Extremism

[EB/OL]. [2018-06-09].

URL      [本文引用: 1]     

[22] 网易新闻.

穿戴蒙面罩袍是极端化的行为表现

[EB/OL]. [2018-06-09]. .

URL      [本文引用: 1]     

(NetEase News.

It is Extreme Behavior to Wear a Face-covering Burqa

[EB/OL]. [2018-06-09].

URL      [本文引用: 1]     

[23] 李勇男.

基于雅卡尔系数的反恐情报聚类分析

[J]. 现代情报, 2018, 38(1): 51-55.

URL      [本文引用: 1]     

(Li Yongnan.

Clustering Analysis of Counter Terrorism Intelligence Based on Jaccard Index

[J]. Journal of Modern Information, 2018, 38(1): 51-55.)

URL      [本文引用: 1]     

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn

/