Advanced Search
数据分析与知识发现, 2018, 2(10): 2-8
doi: 10.11925/infotech.2096-3467.2018.0742
在线极端主义和激进化监测技术综述*
Review of Techniques Detecting Online Extremism and Radicalization
王欣, 冯文刚

摘要:

【目的】分析并评述当前在网络上监测极端主义思想传播和个体思想激进化的主要技术。【方法】在文献分析的基础上, 对相关技术的解决思路、数据来源、标注方法、算法进行分析归纳。【结果】在社交网络极端主义检测与发现领域, 研究者更多地借鉴心理学和社会学研究成果, 细化检测指标和检测方法, 构造多样化的检测模式。主要技术分为基于词典和基于机器学习两类, 由于基于机器学习的方法具有准确率高、速度快的优势, 因此使用较基于词典的方法更加频繁, 但是如何科学有效地标注训练数据集是研究难点。【结论】该领域的技术应用尚处于初级探索阶段, 需要将更多的量化研究投入到对激进化过程的分析中。检测技术研究者应更多地与社会学和心理学研究者合作, 以开发出更加精细的模型。需要投入更多的研究资源以提高训练数据集的标注速度和准确性。

关键词: 知识发现 ; 机器学习 ; 激进化 ; 极端主义

Abstract:

[Objective] This paper reviews the technical solutions for detecting online extremism and radicalization. [Methods] First, we retrieved the needed literature by conducting keyword search with several popular academic databases. Then, we reviewed these papers and summarized their theoretical frameworks, data sources, labelling method, and algorithms. [Results] Researchers have obtained insights from the latest psychology and sociology studies, which helped them refine the detection indicators and methods. The two popular techniques used in this field were based on lexicon method and machine learning algorithm. Although machine-learning methods had the advantages of better accuracy and faster speed, it is very hard for us to construct the training data sets. [Limitations] We did not compare the effectiveness of different solutions. [Conclusions] The reviewed techniques are still developing and more quantitative research is required to analyze the radicalization process. We need to co-operate with sociology and psychology researchers to develop new models and better training data sets.

Key words: Knowledge Discovery ; Machine Learning ; Radicalization ; Extremism

1 引 言

自“9·11”事件后, 美国政府不仅对国家的情报制度做出改革, 还出台一系列政策推动信息技术在反恐行动中的应用, 情报与安全信息学(Intelligence and Security Informatics, ISI)就是这一时期提出的概念, 其主要内容是如何利用信息技术服务于国家安全、国际安全以及执法工作, 是一门涉及计算机技术以及犯罪、反恐、情报、安全研究的交叉学科。2005年, 中国科学院王飞跃教授作为ISI主要发起者之一介绍了情报与安全信息学的概念[1]。单纯从定义出发, ISI应囊括一切计算机技术在执法部门的应用研究, 然而实际上, 与情报获取和分析相关的数据共享、数据融合、数据挖掘与分析等才是ISI最重要的研究主题。反恐作为安全工作的重要组成部分, 也是ISI研究中最重要的主题。在ISI领域, 对反恐的研究主要关注如何利用信息技术分析和挖掘数据, 例如基于通话记录和电子邮件的社会网络挖掘、对恐怖主义暗网的挖掘, 以及“网络恐怖主义”(Cyber Terrorism)。伦敦地铁爆炸案、波士顿马拉松爆炸案等由独狼或本土成长的恐怖分子实施的恐怖事件发生后, 各国政府认识到恐怖分子滥用网络宣传极端思想、招募和培训人员的危害巨大, 很多无前科的青少年仅仅因为阅读网络上传播的极端主义宣传材料或者通过社交网络接触持极端主义思想的个人, 就发生思想激进化, 甚至有一些因此成为制造恐怖袭击的罪犯[2]。面对这种情况, 欧盟、英国都有在相关的反恐战略和政策文件中提及应推动相关技术研究, 遏制极端思想在互联网上的传播以及恐怖主义对互联网的滥用。近年, 如何利用各种技术方法监测、鉴别、阻止恐怖主义信息在线传播和个体激进化的研究不断增加, 而国内对该领域的研究和介绍比较少见。本文在对相关文献和政策文件调研的基础上, 对该领域的研究进行梳理, 介绍主要研究方向、应用的技术方法和应用效果。

2 概念定义和相关研究
2.1 网络极端主义和反激进化

激进化是指个体逐步接纳极端主义思想, 从温和中立走向极端的过程[3], 反激进化指对这一过程的阻止和预防工作。在激进化过程中, 极端主义的意识形态引导是关键因素, 而网络为极端主义思想的传播提供便利, 也给某些恐怖组织的招募提供便利。已有对激进化的研究表明, 激进化是一个进程, 这个过程从在社会上受挫到不正确的解释和归因, 最终全面接纳极端主义思想[4]。激进化的初级阶段, 很多人可能只是有不满情绪, 偶而会在社交网络上发泄这种情绪, 在此过程中可能被网络上的极端主义群体吸引, 随后互联网信息传播的特性使其进入一个由大量相同观点构成的在线封闭环境, 这种环境使其偏激的认知得到强化, 最终这一群体中有一小部分人实施恐怖活动[5]。因此遏制极端主义在线传播成为反激进化工作的重要组成部分, 同时在网络上监控和发现那些思想正在发生激进化、走在风险边缘的个人也可以给反恐、教育等部门以预警, 通过教育、帮扶或逮捕等方式及时清除危险因素。

欧洲各国政府陆续推出各种政策以打击极端主义信息的在线传播, 防止脆弱群体通过在线途径发生思想激进化。2011年, 英国政府出台的反恐战略预测互联网和虚拟空间成为恐怖组织发展策略的重要组成部分, 并将“在互联网上隔离恐怖分子和极端分子”作为反恐战略预防分支的重要任务[6]。2012年, 欧洲刑警组织创建Check the Web组织, 并创建Clean IT项目, 试图与互联网企业在法律框架内共同解决极端主义信息在线传播问题[7]。2018年1月, 欧盟委员会提出一系列措施和建议以应对恐怖主义信息肆意传播, 其中包括建议所有社交媒体在一小时内清除涉恐信息[8]。但是, 由于各国对恐怖主义的定义不同、对极端主义思想的容忍度和衡量标准相异, 彻底在互联网上杜绝极端主义思想和言论既存在技术上的困难也存在政策上的障碍, 同时还有一些知名智库认为简单地删除和关闭极端主义网站会将正处在极端化进程中的个体和恐怖组织推向暗处, 更加难以监控[9]。在这样的背景下, 使用简单粗放的技术方法对涉及极端思想的信息一删了之是行不通的, 必须使用更精确的技术方法发现、监控、分析、取证这些在线极端主义信息。

2.2 主要技术思路和已有研究

目前, 遏制网络极端主义思想的传播和反激进化一般有以下策略:

(1) 使用人工举报+网络信息自动发现的方法, 发现在线极端主义和恐怖主义网站、信息, 包括文本、图像和视频, 及时隔离或删除;

(2) 寻找潜藏在互联网中的恐怖分子、极端分子和高风险易感染用户, 通过社交网络信息分析用户情感, 寻找那些思想处于极端边缘, 很容易受极端主义思想蛊惑而实施恐怖活动的个体, 预测个体实施恐怖行动的风险;

(3) 通过极端分子和恐怖组织的在线痕迹, 寻找在线极端主义社群(Community), 分析社区中的关键角色和人物, 采取一定措施加以监控或摧毁。

Correa等调查2003年至2011年这一领域发表的40篇文献, 对这些文献进行分类, 分析主要技术和研究趋势, 探讨面临的主要问题和限制[10]。Agarwal等在2015年收集从2001年到2015年在这一领域发表的文献, 并根据发表的载体、年份、数据源、机器学习方法、评估方法、特征标记进行分类统计[11]。本文重点调研2011年之后, 基于社交网络数据的极端主义和激进化检测与发现技术。特别针对机器学习这一主流技术, 重点比较和分析在具体的技术研发和应用中, 数据集的获取、选择与标记方法、分类特征项以及应用模式。

3 极端主义信息、激进化个人的自动发现与鉴别

在线极端主义信息和激进化个人的监测是网络知识发现技术的一个具体应用领域, 因此该领域论文多数为应用型研究, 其创新性主要体现在技术应用模式以及如何与本领域的社会学、心理学研究相结合方面。文本挖掘技术、情感分析技术以及社会网络挖掘技术是这一领域的技术基础。根据对互联网在激进化进程中作用的已有研究, 技术人员主要提出以下思路对抗极端主义信息传播和激进化。

(1) 检测和发现极端主义、恐怖主义信息, 这是最早出现也是最直接的解决思路。早期有很多文献采用这一思路, 通过网络爬虫等链接追踪技术逐个获取分析对象的内容, 使用基于字典或机器学习的文本分类技术判断该对象是否宣扬极端主义或恐怖主义信息, 这方面的研究已有很多[12,13,14,15]。在社交网络上对极端主义信息的判断不仅仅依赖于内容, 信息发布的时间、地点等数据也可以为判断分类提供有效信息, 因此在近年也逐渐被应用于机器学习分类模型的特征构造中。从2011年到现在, 单纯检测信息内容的论文并不多, 有一些新的研究或是将极端主义信息的分类细化, 专门检测某一种类型的极端主义信息, 或是测试各种分类方法在本领域的效果。例如Scanlon 等测试和比较多种机器学习算法检测网络上恐怖组织招募信息的效果[16]; Agarwal等比较几种常见分类器对Twitter中仇恨言论和极端主义信息检测的表现[17]; Badjatiya等比较深度学习方法和其他机器学习算法检测Twitter上仇恨言论的效果[18]

(2) 帮助警方发现那些处在感染极端主义思想边缘的脆弱个体。正如兰德公司报告所称, 打击极端思想在线传播, 要从供给侧和需求侧两方入手[19]。脆弱个体的检测主要依靠情感分析技术及在此基础上的行为分析和预测。情感分析是舆情分析领域中研究较为深入的一个领域, 其经典模型为三元组或四元组以及更细微的五元组, 将问题抽象为对三元组元素(对象, 持有者, 观点)或四元组元素(主题, 持有者, 陈述, 情感)的建模和分类。情感分析同样需要在前期的预处理中使用各种自然语言处理技术, 然后使用基于WordNet、SentiWordNet等词典的语义分析技术或机器学习方法进行情感态度分类处理。笔者调研发现当前对情感分析技术的应用不局限于对用户的情感感知分析, 还可以构建用户行为预测模型, 主要有以下模式。

模式1: 基于对社交网络的情感分析结果预测用户参与恐怖活动的风险。Azizan等通过检测用户当前Twitter中的情感状态和其Twitter历史内容, 从而推断其信息模式和情感倾向, 基于情感状态模式序列和简单贝叶斯模型预测该用户成为恐怖主义招募对象的风险[20]

模式2: 基于用户历史转发、应答等社交网络行为预测用户未来的社交网络行为。这一类技术已经有不少文献进行过深度探讨, 本质上仍然是一个基于用户特征数据的分类问题, 近年也有研究者将其应用于极端主义信息采纳和转发的研究。如Ferrara等基于用户Twitter转发和评论行为预测普通用户是否会接纳极端主义信息, 以及预测用户与发表极端主义信息用户的交互行为[21]

模式3: 结合对激进化的心理学研究以及情感分析技术衡量用户的激进化程度与风险。根据激进化进程的心理学研究成果, Lara-Cabrera等提出5个指标衡量用户的激进化风险和程度, 每个用户的各项指标值可以基于Twitter内容计算, 从而自动化地对用户风险进行精细评估, 欧洲的在线激进化检测系统就是使用这套指标法进行计算机自动评判[22]

(3) 发现在线极端主义社群, 寻找社群中的关键节点, 鉴别关键人物和关键关系。Saidi等曾对恐怖分子社区分析方法进行比较和综述, 将主流方法归为人工、连接分析和社会网络挖掘三种[23]。社会网络挖掘主要包括网络聚类、关键节点识别、子图发现等方法。在具体研究中, 很多研究将内容挖掘、文本分析、情感分析、观点挖掘等技术与社会网络分析相结合, 从多角度对在线极端主义社区进行精细化挖掘。例如Benigni等把极端主义社区的角色划分为战士、宣传者、雇佣者、信仰学者、同情者, 使用迭代顶点聚类方法分析在线极端主义社区[24]。Wadhwa等结合文本分析与社交网络分析方法来分析和预测极端主义社区的行为动态[25]

4 数据来源、特征构造和主要算法
4.1 数据来源和标记方法

在本次文献调研范围内, Twitter信息是研究者使用最多的数据集, 除此之外也有一些研究使用Facebook、Tumblr、YouTube等其他社交网络的数据。通常研究中需要两类数据, 第一类是用来训练算法的数据集, 多数需要人工进行标记; 第二类是用来测试算法有效性的混合数据集, 由普通信息和极端主义信息混合构成。在本领域中使用机器学习算法多数采用有监督的学习, 而有监督的学习方法则需解决数据标记的难题: 首先, 人工标记数据集是一件耗时耗力的工作; 其次, 相比其他人工智能数据的标记工作, 极端主义信息的识别专业性较强, 而请专家标记造价高, 请普通人又会带来标记不准确的问题。这种影响已经被研究所证实: 例如与极端主义信息相似的仇恨言论的检测和分类就受人工标记工作质量影响[26], Waseem等通过实验对比专家标记与业余标记的效果证实了这种说法[27,28]

用于训练的样本数据一般有三个来源: 官方公布的数据、众包网站的数据、研究者使用半自动化方法获取和标记的数据, 同时也有极少数研究使用专家标注的方法。

(1) 使用官方公布禁用的涉恐Twitter账户及信息作为训练集。为打击在线极端主义的传播, Twitter成立反恐特别行动小组, 每年都根据用户举报和人工识别禁用一些账号, 而这些账号也成为研究者分析和使用的数据集。例如Ferrara等使用Twitter2015年1月- 6月期间发现并禁用的ISIS支持者账号, 以他们的Twitter信息、账号、以及关注者作为对象数据集开展研究[21]

(2) 众包方式标记的数据。众包(Crowd Source)也就是大众自发标记和推荐的信息, 是机器学习中常见的标记数据来源。黑客组织“匿名者”(Anonymous)在2015年公布9 200个ISIS支持者账号。研究机器学习技术的网站Kaggle提供从2015年巴黎恐怖袭击之后来自ISIS支持者Twitter账号共17 000条数据, 该数据集由一家名为第五部落(Fifth Tribe)的公司收集并处理[22]。一家名为Luck Troll Club的众包网站上提供 25 000个被标记为ISIS支持者的Twitter账户[21]

(3) 采用各种半自动化方法自行提取和标记数据。一些研究者使用Twitter API获取数据, 然后采用恐怖主义或极端主义等特定词汇过滤, 例如Azizan等使用美国国土安全部列出的涉恐高频词汇, 包括“ISIS”、“Muslim”、“bomb”、“terrorist”等从Twitter API中过滤和获取数据[20]。Benigni采用滚雪球采样的方法获取数据, 人工挑选一些ISIS账号作为种子, 通过Twitter API获取这些种子中关注频率最高的关注者作为新样本加入种子, 再分析新的种子获得更多关联账户, 通过这样的方法获取共计119 156个账号[24]。Agarwal等使用HashTag标签提取法自动标注, 首先人工标注少量信息, 然后提取这些信息的HashTag, 利用这些HashTag挖掘到更多的Twitter信息, 再次分析这些信息生成新的HashTag, 进行多次循环后获得最终的训练数据集。还有研究者使用已有的关于极端主义网站的目录如Hate Directory、Dark Web Forum上的网页中的信息训练内容分类器, 再使用这样的分类器在社交网络中寻找极端主义信息[16, 29]

可以发现, 方法(1)只依赖历史信息, 人工发现和举报往往在时间上是滞后的, 在内容上也不够新鲜, 依赖此类信息训练的分类器很可能对新型信息不够敏感。方法(2)依赖大众标记, 但是极端主义信息的识别与普通人工智能的信息标记不同, 这种判断需要专业培训, 在不同国家会因意识形态差异而不同, 因此一定存在准确性误差。方法(3)自动化程度高、速度快, 但是显然非常粗糙, 是准确性和高效率的一种平衡。如何高效、准确地标注数据是机器学习方法在这一领域得到大规模实际应用必须要解决的问题, 研究更优的半自动化方法是未来发展的方向。

4.2 数据特征向量的构成

多种信息都可以用来构造用于机器分类识别的数据特征向量, 用户元数据、用户发布的内容信息、时间空间信息以及网络特征是最常用的数据项。

(1) 社交网络用户元数据。用户元数据主要包括账户名称、关注者人数、好友数、账号创建日期、发推文数量、最喜欢的Twitter数量、转发比率、@提及比率、使用热标签数量等。

(2) 时空特征数据。包括每日发推文数、发Twitter时间间隔、转发间隔、@提及间隔等。空间特征包括注册地址、发推时的定位信息。

(3) 网络统计特征数据。包括该用户关注者中转发其Twitter的分布、好友中转发其信息的分布、关注者中@提及该用户的分布、好友中@提及该用户的分布、以及传统社会网络分析中的接入中心度、引出中心度、合计中心度等特征。

(4) 在社交网络上发布的内容信息。包括用户自己发布的文本信息内容和使用的热标签(HashTag)。

(5) 其他特征。还有研究创造一些新的特征量, 例如期望碰撞时间, 指普通用户在网络中随机游走时与恐怖分子支持者相遇的期望时间[30], 事实上这些特征量可以看作是传统网络统计特征的一种变化。

更多的数据被用于构造用户特征向量, 得益于相关的量化研究成果。例如布鲁斯金学会的ISIS报告中显示多数ISIS支持者账号地理位置分布在叙利亚周边地区, 与ISIS活动地区相吻合。这表明, 用户的注册地点、地理位置、发送信息的规律和时间有助于识别极端主义账户, 能够用来构建特征值。而用户发帖的频率、时间、用词等特征很有可能与其心理状态、性格特征相关。因此, 对高风险脆弱用户的识别也可以引入这些信息, 构建多维特征向量。目前对容易被激进化的个人在社交媒体上的行为分析还不足, 如果能在这方面做更多定量研究, 将有助于创造更好的社交媒体激进高风险人群发现技术。

4.3 主要算法及其效果评估方法

基于词典的分析和基于机器学习的分类是本领域中两种主要技术。在线信息的检测与分析主要可以划分为内容分析和情感分析两类, 而这两类均可以通过基于词典的技术和基于机器学习的技术实现。这两大类的技术仍然都出现在现阶段的研究中, 并没有哪一种明显胜出, 还有一些研究同时使用两种方法。本次调研文献中的计算方法如表1所示。

表1 主要计算方法

在实际使用中, 基于语法分析和机器学习的方法各有所长。很多研究者通过实验测得机器学习方法具有更好的结果, 但是现有的机器学习算法多数使用有监督的方法, 必须对训练数据集进行标注, 而不准确的标注会带来偏差。极端主义信息的判断需要较为专业的训练, 大规模地请专家标注对于普通研究者来说非常困难。基于词典的分析方法优点是无监督, 不需要事先进行标注, 因此仍然具有价值。机器学习算法中, 朴素贝叶斯是本次调研中被使用率最高的算法。有学者对比过不同机器学习算法在情感分析中的效果, SVM的准确率最高、神经网络的准确率最低、朴素贝叶斯中等, 但是朴素贝叶斯的训练时间最短, 而且能够处理大规模的数据, 分类速度远快于其他几种。社交网络数据量庞大, 朴素贝叶斯这种吞吐能力强、训练时间短、运算速度快的特性更适合实际应用[31]。在具体应用中, 需根据数据量、数据特征复杂度、分类精确度等需求, 寻找最为适合的方法。

5 结 语

监控在线极端主义信息传播和个体激进化是当前深受恐怖主义困扰的各国政府的强烈需求。欧美各国政府都出台了一系列政策鼓励工业界、学术界与政府密切合作, 合力打击极端主义思想的在线传播, 防止极端思想对民众的侵害。这一项工作从2008年就已经开始, 近年随着反恐形势变得严峻更加受到重视。本文搜寻近年此领域发表的文献, 从技术思路、数据获取和标记方法、数据特征项的构成以及主要算法等方面进行综述, 为进一步研究提供可用信息。

极端主义信息和激进化个体的发现在技术上主要依赖较为成熟的网络信息监控、舆情监控、社会网络挖掘等技术。在此领域的创新主要在于如何综合运用知识发现技术以及关于极端主义和激进化的量化研究, 构造新的发现模式。例如2015年美国智库布鲁斯金学会发布了一份ISIS Twitter用户调查, 得出关于ISIS支持者的人口统计信息[9], 为很多自动探测和发现模型提供参考。兰德公司于2013年通过对15个已经被起诉定罪或被政府鉴定为高风险个体人员的访谈, 分析互联网在他们激进化过程中的作用[19]。Torok基于几个恐怖分子案件中涉及的10个极端主义团伙的Facebook社交媒体在一定时期内的信息, 验证几条关于在线激进化的假设并构建在线激进化进程的解释模型[5]。这些实证的定量研究都为构造新的极端信息和激进化监测模型和模式提供了有效信息。在未来研究中, 应进一步开展更多对在线极端社区、极端主义信息传播和个人激进化的定量实证研究, 这些研究成果与知识发现技术的深度结合是未来这一领域的技术发展方向。

作者贡献声明:

王欣: 提出思路, 撰写论文;

冯文刚: 制定研究方案, 修订论文。

利益冲突声明:

所有作者声明不存在利益冲突关系。

参考文献

[1] 王飞跃, 王珏. 情报与安全信息学研究的现状与展望[J]. 中国基础科学, 2005, 7(2): 24-29.
本文简要介绍了情报与安全信息学研究的历史、现状和发展趋势,并重点讨论了当前开展情报与安全信息学研究的主要目的、关键问题、核心任务和内容,以及可能的重要应用。
DOI:10.3969/j.issn.1009-2412.2005.02.005      URL     [本文引用:1]
(Wang Feiyue, Wang Jue.Intelligence and Security Informatics: The State of the Art and Outlook[J]. China Basic Science, 2005, 7(2): 24-29.)
[2] Locicero A.Why “Good Kids” Turn into Deadly Terrorists: Deconstructing the Accused Boston Marathon Bombers and Others Like Them[M]. Santa Barbara: Praeger, 2014: 37-53.
[本文引用:1]
[3] Borum R.Radicalization into Violent Extremism II: A Review of Conceptual Models and Empirical Research[J]. Journal of Strategic Security, 2011, 4(4): 37-62.
Over the past decade, analysts have proposed several frameworks to explain the process of radicalization into violent extremism (RVE). These frameworks are based primarily on rational, conceptual models which are neither guided by theory nor derived from systematic research. This article reviews recent (post-9/11) conceptual models of the radicalization process and recent (post-9/11) empirical studies of RVE. It emphasizes the importance of distinguishing between ideological radicalization and terrorism involvement, though both issues deserve further empirical inquiry.Finally, it summarizes some recent RVE-related research efforts, identifies seven things that social science researchers and operational personnel still need to know about violent radicalization, and offers a set of starting assumptions to move forward with a research agenda that might help to thwart tomorrow's terrorists.
DOI:10.5038/1944-0472.4.4.2      URL     [本文引用:1]
[4] Kundnani A.Radicalisation: The Journey of a Concept[J]. Race & Class, 2012, 54(2): 3-25.
[本文引用:1]
[5] Torok R.Developing an Explanatory Model for the Process of Online Radicalisation and Terrorism[J]. Security Informatics, 2013, 2(1): 1-10.
DOI:10.1186/2190-8532-2-1      URL     [本文引用:2]
[6] UK Government.CONTEST: UK Strategy for Countering Terrorism[R]. 2011.
[本文引用:1]
[7] Argomaniz J.European Union Responses to Terrorist Use of the Internet[J]. Cooperation and Conflict, 2014, 50(2): 250-268.
[本文引用:1]
[8] Brussels. A Europe that Protects: Commission Reinforces EU Response to Illegal Content Online[EB/OL]. [2018-04-01]. .
URL     [本文引用:1]
[9] Berger J M, Morgan J.The ISIS Twitter Census: Defining and Describing the Population of ISIS Supporters on Twitter[A]// The Brookings Project on U.S. Relations with the Islamic World[M]. The Brookings Institution. https://www.brookings. edu/wp-content/uploads/2016/06/isis_Twitter_census_berger_morgan.pdf.
[本文引用:2]
[10] Correa D, Sureka A.Solutions to Detect and Analyze Online Radicalization: A Survey[OL]. arXiv Preprint. arXiv: 1301.4916.
[本文引用:1]
[11] Agarwal S, Sureka A.Applying Social Media Intelligence for Predicting and Identifying On-line Radicalization and Civil Unrest Oriented Threats[OL]. arXiv Preprint. arXiv: 1511.06858.
[本文引用:1]
[12] Last M, Markov A, Kandel A.Multi-lingual Detection of Terrorist Content on the Web[M]. Berlin, Heidelberg: Springer, 2006: 16-30.
[本文引用:1]
[13] Huang C, Fu T, Chen H.Text-based Video Content Classification for Online Video-sharing Sites[J]. Journal of the Association for Information Science and Technology, 2010, 61(5): 891-906.
[本文引用:1]
[14] Greevy E, Smeaton A F.Classifying Racist Texts Using a Support Vector Machine[C]// Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2004: 468-469.
[本文引用:1]
[15] Fu T, Huang C N, Chen H.Identification of Extremist Videos in Online Video Sharing Sites[C]// Proceedings of the 2009 IEEE International Conference on Intelligence and Security Informatics. 2009: 179-181.
[本文引用:1]
[16] Scanlon J R, Gerber M S.Automatic Detection of Cyber- recruitment By Violent Extremists[J]. Security Informatics, 2014, 3(1): 5.
Growing use of the Internet as a major means of communication has led to the formation of cyber-communities, which have become increasingly appealing to terrorist groups due to the unregulated nature of Internet communication. Online communities enable violent extremists to increase recruitment by allowing them to build personal relationships with a worldwide audience capable of accessing uncensored content. This article presents methods for identifying the recruitment activities of violent groups within extremist social media websites. Specifically, these methods apply known techniques within supervised learning and natural language processing to the untested task of automatically identifying forum posts intended to recruit new violent extremist members. We used data from the western jihadist website Ansar AlJihad Network , which was compiled by the University of Arizona’s Dark Web Project. Multiple judges manually annotated a sample of these data, marking 192 randomly sampled posts as recruiting (Yes) or non-recruiting (No) . We observed significant agreement between the judges’ labels; Cohen’s κ =(0.5,0.9) at p =0.01. We tested the feasibility of using naive Bayes models, logistic regression, classification trees, boosting, and support vector machines (SVM) to classify the forum posts. Evaluation with receiver operating characteristic (ROC) curves shows that our SVM classifier achieves an 89% area under the curve (AUC), a significant improvement over the 63% AUC performance achieved by our simplest naive Bayes model (Tukey’s test at p =0.05). To our knowledge, this is the first result reported on this task, and our analysis indicates that automatic detection of online terrorist recruitment is a feasible task. We also identify a number of important areas of future work including classifying non-English posts and measuring how recruitment posts and current events change membership numbers over time.
DOI:10.1186/s13388-014-0005-5      URL     [本文引用:2]
[17] Agarwal S, Sureka A.Using KNN and SVM Based One-Class Classifier for Detecting Online Radicalization on Twitter[C]// Proceedings of the 11th International Conference on Distributed Computing and Internet Technology. 2015: 431-442.
[本文引用:1]
[18] Badjatiya P, Gupta,M S, Gupta M, et al. Deep Learning for Hate Speech Detection in Tweets[C]//Proceedings of the 26th International Conference on World Wide Web Companion. 2017: 759-760.
[本文引用:1]
[19] Behr I V, Reding A, Edwards C, et al.Radicalisation in the Digital Era: The Use of the Internet in 15 Cases of Terrorism and Extremism[R]. Rand Corporation, 2013.
[本文引用:2]
[20] Azizan S A, Aziz I A.Terrorism Detection Based Sentiment Analysis Using Machine Learning[J]. Journal of Engineering and Applied Sciences, 2017, 12(3): 691-698.
The advancement in technology especially a micro-blogging site such as Twitter has brought a new era in terrorism where social media is being used as a platform of communication, incite the act of terrorism, recruitment and much more. Terrorist and people supporting this group tend to include sentiment leads to terrorism when sharing their opinions and comments. Thus, sentiment analytics can help to explore and classify the opinion from users to different polarity. Sentiment analysis is an opinion mining process from computer linguistics perspective. There are many existing techniques that have been improved to determine user s opinions in social media but most of the current techniques and algorithms are not explicit to sense the acts of terrorism. Thus, this research is one of the approach to sense user s act leading to terrorism based on the tweets they shared at the Twitter platform. A comparative study between sentiment analysis techniques has been conducted and analysed. In this report, it is proposed to improvise the current sentiment analysis techniques by using machine learning to detect the acts of terrorism more accurately. The novelty about this research is after the sentence have being categorized into positive, negative and neutral categories, all these categories will be compared against the previous sentence of a particular account holder based on the sentiment score for the latest and previous sentence. This means, the tweet s history of a particular account holder on each category will be extracted and the sentiment score calculated. Then, the sentiment score of previous statement will be compared with the sentiment score of the latest statement detected. Machine learning is being proposed to be used in this research as it is more accurate as compared to lexicon-based approach.
URL     [本文引用:2]
[21] Ferrara E, Wang W Q, Varol O, et al.Predicting Online Extremism, Content Adopters, and Interaction Reciprocity[C]// Proceedings of the 2016 International Conference on Social Informatics. Springer, 2016: 22-39.
[本文引用:3]
[22] Lara-Cabrera R, Pardo A G, Benouaret K, et al.Measuring the Radicalisation Risk in Social Networks[J]. IEEE Access, 2017(5): 10892-10900.
Social networks (SNs) have become a powerful tool for the jihadism as they serve as recruitment assets, live forums, psychological warfare, as well as sharing platforms. SNs enable vulnerable individuals to reach radicalized people, hence triggering their own radicalization process. There are many vulnerability factors linked to socio-economic and demographic conditions that make jihadist militants suitable targets for their radicalization. We focus on these vulnerability factors, studying, understanding, and identifying them on the Internet. Here, we present a set of radicalization indicators and a model to assess them using a data set of tweets published by several Islamic State of Iraq and Sham sympathizers. Results show that there is a strong correlation between the values assigned by the model to the indicators.
URL     [本文引用:2]
[23] Saidi F, Trabelsi Z, Salah K, et al.Approaches to Analyze Cyber Terrorist Communities: Survey and Challenges[J]. Computer and Security, 2017, 66: 66-80.
Cyber terrorism has become a major threat to world peace and global economic prosperity. The exponential growth of cyber terrorist communities has given rise to the need for the development of effective approaches, techniques, and tools to gain in-depth understanding of the ecosystem of these communities (specifically, in terms of inner structure, working strategies, and operation tactics). In the literature, numerous research works on the detection and analysis of cyber terrorist communities have been conducted. More notably, Social Networks Analysis (SNA) has emerged to be a key research field that attempts to analyze such cyber terrorist communities. In this paper, we survey, study, and classify the main approaches related to the analysis of cyber terrorist communities. We also discuss their characteristics, strengths and limitations. The approaches have been categorized into two main categories, namely, SNA based approaches and hybrid approaches. Furthermore, we identify areas that entail further research works with the aim of devising and developing more effective approaches that aid in analyzing cyber terrorist communities.
DOI:10.1016/j.cose.2016.12.017      URL     [本文引用:1]
[24] Benigni M C, Joseph K, Carley K M.Online Extremism and the Communities that Sustain It: Detecting the ISIS Supporting Community on Twitter[J]. PLoS ONE, 2017, 12(12): e0181405.
The Islamic State of Iraq and ash-Sham (ISIS) continues to use social media as an essential element of its campaign to motivate support. On Twitter, ISIS’ unique ability to leverage unaffiliated sympathizers that simply retweet propaganda has been identified as a primary mechanism in their success in motivating both recruitment and “lone wolf” attacks. The present work explores a large community of Twitter users whose activity supports ISIS propaganda diffusion in varying degrees. Within this ISIS supporting community, we observe a diverse range of actor types, including fighters, propagandists, recruiters, religious scholars, and unaffiliated sympathizers. The interaction between these users offers unique insight into the people and narratives critical to ISIS’ sustainment. In their entirety, we refer to this diverse set of users as an online extremist community or OEC. We present Iterative Vertex Clustering and Classification (IVCC), a scalable analytic approach for OEC detection in annotated heterogeneous networks, and provide an illustrative case study of an online community of over 22,000 Twitter users whose online behavior directly advocates support for ISIS or contibutes to the group’s propaganda dissemination through retweets.
DOI:10.1371/journal.pone.0181405      PMID:29194446      URL     [本文引用:2]
[25] Wadhwa P, Bhatia M P S. Tracking On-line Radicalization Using Investigative Data Mining[C]// Proceedings of the 2013 National Conference on Communications. 2013: 1-5.
[本文引用:1]
[26] Ross B, Rist M, Carbonell G, et al.Measuring the Reliability of Hate Speech Annotations: The Case of the European Refugee Crisi[OL]. arXiv Preprint. arXiv:1701.08118.
[本文引用:1]
[27] Waseem Z.Are You a Racist or am I Seeing Things? Annotator Influence on Hate Speech Detection on Twitter[C]// Proceedings of the 2016 EMNLP Workshop on Natural Language Processing and Computational Social Science. 2016: 138-142.
[本文引用:1]
[28] Waseem Z, Hovy D.Hateful Symbols or Hateful People? Predictive Features for Hate Speech Detection on Twitter[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2016: 88-93.
[本文引用:1]
[29] Gitari N D, Zuping Z, Damien H, et al.A Lexicon-based Approach for Hate Speech Detection[J]. International Journal of Multimedia and Ubiquitous Engineering, 2015, 10(4): 215-230.
[本文引用:1]
[30] Thakkar H, Patel D.Approaches for Sentiment Analysis on Twitter: A State-of-Art Study[OL]. arXiv Preprint. arXiv: 1512.01043.
[本文引用:1]
[31] Medhat W, Hassan A, Korashy H.Sentiment Analysis Algorithms and Applications: A Survey[J]. Ain Shams Engineering Journal, 2014, 5(4): 1093-1113.
Sentiment Analysis (SA) is an ongoing field of research in text mining field. SA is the computational treatment of opinions, sentiments and subjectivity of text. This survey paper tackles a comprehensive overview of the last update in this field. Many recently proposed algorithms' enhancements and various SA applications are investigated and presented briefly in this survey. These articles are categorized according to their contributions in the various SA techniques. The related fields to SA (transfer learning, emotion detection, and building resources) that attracted researchers recently are discussed. The main target of this survey is to give nearly full image of SA techniques and the related fields with brief details. The main contributions of this paper include the sophisticated categorizations of a large number of recent articles and the illustration of the recent trend of research in the sentiment analysis and its related areas.
DOI:10.1016/j.asej.2014.04.011      URL     [本文引用:1]
资源
PDF下载数    
RichHTML 浏览数    
摘要点击数    

分享
导出

相关文章:
关键词(key words)
知识发现
机器学习
激进化
极端主义

Knowledge Discovery
Machine Learning
Radicalization
Extremism

作者
王欣
冯文刚

Wang Xin
Feng Wen’gang
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn