[Objective] A method to detect Internet fake public opinion based on combined optimization decision tree is proposed. [Methods] It gives three definitions of fake public opinion based on the analysis of characteristics, namely A, B and C. Evaluation index is constructed and decision tree is established by discretization, attributes selection of normalization input-output correlation value. [Results] The test on Matlab shows the model based on combined optimization decision tree has higher predict accuracy. [Limitations] The model and data focus on network media. The rise of mobile social software may change the features of fake public opinion which needs further improvement to the method. [Conclusions] The paper proposes a new method for intelligent multiple classification of fake public opinion.
随着信息技术、移动互联、智能手机等技术的发展, 网络成为大众舆情的主要载体并以前所未有的深度、广度和速度影响着人们生活的各个方面。网络舆情不仅是人们对某些事件、话题、观点的反应, 同时也对人们的思想和行为有着巨大的影响和反作用。伪舆情利用网络的影响力和人们的从众心理, 掀起网络谣言, 歪曲事实真相, 混淆视听, 对正常的网络生活造成了负面的影响, 甚至造成社会恐慌和危机[1]。因此如何尽早识别伪舆情, 科学监督控制网络舆论健康发展是舆情管理面临的严峻问题。
伪舆情的概念最早由宋常青[2]提出, 刘勘等[3]、方付建[4]进一步扩展了对网络伪舆情的认知, 并对伪舆情的成因、特征和影响进行了深入分析。综合以上观点, 本文认为伪舆情是指在诸如网络推手炒作或虚假信息刺激等手段的推动下, 使民众产生的带有倾向性的多种评论、情绪、态度、意见的总和。目前针对在线虚假评论识别的研究已充分开展, 如孟美任等[5]采用CRFs模型对在线中文商品评论进行可信度分类。
陈燕方等[6]提出一种基于评论产品属性情感倾向评估模型, 其共同特点是对文本语料进行低可信度的判断。刘勘等[7]提出基于支持向量机的网络真伪舆情分类模型, 采用多项式核函数以及优化之后的径向基核函数产生的分类器, 预测准确率高, 但该文只是笼统地将舆情分为真舆情与伪舆情, 有关伪舆情的严格界定并没有提及。而实际上事件观点本身的真伪和舆情形成过程的真伪都会对舆情的真伪造成影响, 进一步还会形成不同类型的伪舆情。因此本文在特征分析的基础上, 对伪舆情进行分类, 并提出一种基于组合优化决策树算法的伪舆情识别方法。
(1) 虚假性
伪舆情主要表现在引起网络舆论的话题事件、网络言论等的不真实的、夸大的、歪曲的成分。如果引起某种网络舆情的发帖存在真实性的问题, 那么这个舆情的展开实际上是个伪命题, 也就必然成为伪舆情。具体表现在数据造假、捏造事实、隐瞒真相、夸大事实等。
(2) 人为性
舆情是舆论的总和。网络话题事件演变成广泛的共识或观点, 必然需要大量传播和发酵。真实的舆情可能由一些话题事件或鲜明的观点引发, 通过网络的传播和讨论, 由于符合了某种需要或规律自然而然形成舆情。伪舆情却是打破了舆论发展的正常规律, 通过人为的干预使大众对某些话题事件或观点的看法向某些特定方向发展。这些伪舆情与真实舆情的根本区别在于是否是自然形成的舆论, 这些舆论是否真实地反映了大部分网民的观点和认识。因此, 人为制造干预舆论的形成走势可以说是伪造了舆情, 也是某种伪舆情的突出特点。例如使用打压、误导、欺骗、攻击、删帖等各种干扰手段使舆论向自己希望发展的方向发展; 利用“ 水军” 、“ 五毛党” 、不法网络公关公司或组织、黑客等手段有组织有计划地跟帖造势等。
研究伪舆情特征的一个重要目的是为辨识和监控伪舆情提供理论基础。然而并不是所有伪舆情都同时具备虚假性和人为性。定义A、B、C三类伪舆情如下:
(1) 如果某些舆情具备虚假性, 即引起舆情的事件或观点本身是不符合事实的, 那么无论是否有人为干预或者发布者本身对观点有没有倾向性, 由此引发的舆情讨论也都是伪舆情。此类伪舆情为A类伪舆情, 如“ 萝卜能治疗癌症” 等虚假信息。虚假性是A类伪舆情的必要条件。
(2) 如果伪舆情本身引用真实的事件或者个人的某种观点、好恶, 但采用人为干预的手段制造引导舆论, 最终形成的违背网络舆情客观发展规律的舆情也是一种伪舆情, 称为B类伪舆情, 即舆情的观点或事件不是虚假的或不涉及真伪但形成的过程为伪。制造这类伪舆情往往都带有明确的目的性, 所持观点都有明确的倾向性, 否则人为制造干预话题事件或言论的传播就失去意义。从根本上讲, B类伪舆情之所以称为伪舆情是采用了人为干预舆论形成和发展的手段, 即人为性的特征是B类伪舆情的必要条件。
(3) 相当一部分伪舆情可能同时具备虚假性和人为性的特征, 称为C类伪舆情。采用虚假、伪造、篡改、夸大的事件并为了达到自己的目的不惜采用各种手段诱导或误导网民, 这种伪舆情的危害往往是最严重的也是网络舆论监督要重点管控的对象。虚假性、人为性是C类伪舆情的充分必要条件。
因此, 伪舆情特征与类型关系如图1所示:
伪舆情的识别相对较为复杂, 主要原因有以下几点:
(1) 制造伪舆情往往是有组织和经过周密部署和策划的行为, 具有较大的隐蔽性和迷惑性, 通过简单判别往往难以准确识别。
(2) 舆论形成是一个带有偶然性的过程, 同样类型或影响程度的话题事件或观点在不同时期、不同背景下形成舆论的快慢、形式可能不尽相同。比如, “ 三聚氰胺” 事件被人们广泛关注形成舆论焦点的条件下, “ 香港奶粉限购” 、“ 海淘奶粉黑幕” 等相关的话题事件会迅速形成舆论。
(3) 网络技术发展迅速, 新传播方式的出现周期很短, 可能随时改变舆情形成机制。如微博的出现改变了论坛为主导的主要讨论方式, 而社交软件的兴起改变了传播速度和路径, 微信等改良的移动互联社交软件使舆论形成变得更加便捷。网络传播的方式不同, 形成的传播曲线、扩散特征等有较大区别, 难以用统一标准判别。
(4) 网络数据每时每刻都在爆炸式增长, 大数据的管理和实时模式识别对现有算法提出严峻挑战。
舆情的发展规律表现在各项数据指标中, 采集有效的舆情监测指标能够提高伪舆情识别的效率和准确率。目前有关网络舆情的指标很多。如杨永军[8]从客观和主观两个方面构建了社会舆情的监测预警指标体系。冯江平等[9]从政府、网媒、网民三大网络舆情主体相互作用的角度, 构建了网络舆情评价指标体系。孙玲芳等[10]在考虑网络舆情危机产生、发展、变化规律及特点的基础上, 建立了网络舆情危机预警的指标体系。这些指标体系侧重于对舆情的总体监测, 能够表达出舆论的总体态势, 但是难以使用定量的智能算法有效识别舆情的真伪。综合相关文献, 本文选取以下9个主要指标作为伪舆情识别指标:
(1) 首发媒介。网络信息的发布媒介有很多, 根据媒介性质可以归纳为以下几类: I类媒介指全国性官方新闻媒体及其网络媒介, 一般对信息真伪和发布流程严格把关, 可信度、真实度最高, 如新华网等; II类媒介指地方性媒体, 以及搜狐、网易等知名门户网站, 这些媒介可信度较高, 对信息真伪有一定的把关; III类媒介指各类论坛、微博、专业性网站、各类可自由上载或共享内容的视频网站等, 对信息的发布自由度较高。
(2) 转发媒介种类及个数。从话题信息发布到形成舆论, 转发是重要的传播途径。而以上三类媒介中分别有多少媒介对信息进行了转发可在一定程度上反映话题信息的影响。有些信息即使首发媒介可信度不高, 但是得到了官方媒介的转发则可信度大大提升, 而使用官方媒介对某些话题信息进行操作和干预推动舆论的形成也是伪舆情难以做到的。比如, 某新型飞机首飞成功的消息最早由军事论坛发布, 再由各种I、II类媒体大量转发引发网友热议, 最终形成真实的舆情。
(3) 总发帖数。从信息发布到统计时间点的事件话题的信息发布总量。这里的信息发布不仅包括新信息发布还包括转发、跟帖、评论等。
(4) 48小时发帖数。从信息发布开始48小时之内的事件话题下包括转发、跟帖、评论等信息发布的总量。
(5) 一周发帖数。从信息发布开始一周内的事件话题下包括转发、跟帖、评论等信息发布的总量。
(6) 持续时长。首次发布话题事件相关信息开始到发帖量低于高峰时间单日发帖量3%的天数。因为事件话题的讨论高峰期过后普遍存在长时间零星的发帖造成的长尾现象, 但尾部特征趋同已不足以刻画舆情发展规律, 如果计算到完全结束反而会使数据失真。
(7) 观点数。话题事件相关信息中对话题事件的观点的数量。基本可以分为客观转发、完全正面、部分正面、完全负面、部分负面、引申等几个大类。
(8) 最大观点占比。话题事件相关信息中对话题事件最多的一类观点的发帖量与总发帖量的比值。
(9) 转发数。对话题事件信息的发布数量, 包括新开帖、转发帖、转述、复述等, 只要是独立新发布的相关信息都可计入。和它相对应的是在已发布的话题事件信息下的跟帖、评论等。转发数是衡量传播活跃度的一项指标。
以上9个指标中, 总发帖数、48小时发帖数和一周发帖数是刻画事件话题演变为舆情的过程特征的重要指标。
决策树是数据挖掘中的有效方法, 它是用属性作为节点, 用属性取值作为分支的树型结构。通过决策树对新样本属性值的测试, 从树的根节点开始, 按照样本属性的取值, 逐渐沿着决策树向下, 直到树的叶节点, 叶节点表示的类别就是新样本的类别。相比于神经网络、支持向量机等其他智能算法, 决策树方法的突出优点是可以抽取可读性规律, 在准确分类的同时建立对客观规律的认知, 对伪舆情发展规律和相关背景的研究极为有利。
组合优化决策树(Combined Optimization Decision Tree, CODT)[11]是一种适合处理大规模高维数据的改良决策树算法。该算法以属性重要性为标准对高维数据进行属性裁剪降维, 以提高后续建树效率。该算法采用输入输出关联值标准建立决策树, 进一步简化计算。由于舆情数据大部分为连续值, 而CODT采用高效的BMIC(Boundary Point’ s Attribute Values Merging and Inconsistency Checking)离散化算法[12]可以使离散化更加简单有效。经过一系列改进, CODT决策树大大减小了计算量, 同时省去了剪枝过程而直接生成最小决策树, 并且预测精度和生成规则简明性较传统决策树有了明显提高。
基于CODT决策树算法的伪舆情识别模型建立步骤可归纳为:
(1) 建立伪舆情指标体系, 搜集并整理数据。
(2) 将数据按一定比例随机分为训练集和测试集。
(3) 升序排列属性值, 以边界点属性值为切点分割属性集合, 合并临界点及少数点区间, 进行不一致度检验, 得到最终的离散切点集合, 使连续数据离散化。
基于正规增益(Normalized Gain, NG)的离散化算法一般是计算各个属性的NG[13], 再选择NG的极值对应的属性值作为离散分割点。正规增益计算公式如下:
其中,
BMIC算法证明了分割点是升序排列后边界点的集合, 并通过不一致度检验使算法具有全局性, 大大降低了计算量。
(4) 计算各样本属性的归一化输入输出关联值作为评价属性重要性的指标。本文提出用以下公式计算属性的归一化输入输出关联值:
(2)
其中, x(i, k)表示第i个样本的第k个属性的取值, y(i)、y(j)表示第i、j个样本的决策属性值。sign(x)为符号函数。
对于定性属性利用公式(3)计算输入输出关联值:
(5) 将各属性依据IOC值的大小排序, 选出取值最大的一半属性作为基本属性集合, 其余为备选属性集合。
(6) 在基本属性集合的范围内, 以归一化输入输出关联值为节点属性选择标准建立决策树。
(7) 在错误率较高的分支从备选属性集合中选取该节点处输入输出关联值最大的属性续建决策树直到满足精度要求。
(8) 提取并解读规则。
伪舆情的识别过程如图2所示。
在实验材料准备阶段, 搜集2009年-2013年244条有效舆情话题, 其中真实舆情118条, A类伪舆情19条, B类伪舆情31条, C类伪舆情76条。根据目前网络传播特征总结出实验数据结构, 如表1所示, 并对信息来源进行相似性分类。根据表1的数据结构在主要网络载体上进行数据搜集和整理形成数据库。除首发媒介为定性属性, 其余搜集记录的数据均为连续量化数据。实验采用4组交叉验证法, 将样本随机均分为4组, 第i组作为测试集, 其他3组作为训练集。i取1至4, 可得到4组数据用来构建模型, 使用Matlab实现识别过程。
实验是对每个验证集子例是属于三类伪舆情中哪一类或者属于真实舆情的判断, 属于4分类问题, 辨识准确率如表2所示。可以看出, 一方面本文方法对舆情识别的总体准确率较高, 说明各类舆情内部存在着一定的共性和规律。另一方面A、B两类伪舆情的预测准确率相对较低, 这与A、B类伪舆情样本数相对较少且其或命题正确或形成过程无人为干预的特征有关, 较容易造成误判。
为了进一步验证本文方法的有效性, 将A、B、C三类舆情统一合并为伪舆情, 将4组实验数据分别应用于文献[5]提出的支持向量机模型, 其中核函数采用径向基核函数, 并通过粒子群参数寻优方法对参数进行优化。4组验证集的识别准确率如表3所示:
与表2中的第8、9列对比, 发现两种模型对真舆情的预测准确率较高, 均达到96%以上。有关伪舆情的预测准确率除第2组外, 本文方法均高于支持向量机方法。值得注意的是文献[5]中的模型只是对舆情进行真伪的划分, 而本文提出的方法则要对伪舆情的具体类别进一步划分。对于任意伪舆情样例, 如果只要划分为伪舆情即为判别正确, 而不必考虑具体是A、B、C哪类伪舆情的话, 基于本文方法的第2组数据的伪舆情预测准确率将提升为90.3%, 和支持向量机方法的预测精度持平。
因为训练集的子例是随机选取, 使离散化后的区间分界点及区间个数存在差别, 但大致稳定在由高到低的4或5个区间。每次实验的规则也不完全一致。通过对生成规则的解读可以归纳出以下几个主要规律:
(1) B、C类伪舆情到达高峰的时间较短而且持续时间较长, 可以通过图3中两条规模体量相当的真伪舆情曲线得到直观的比较。B、C类伪舆情发帖数上升的曲线往往斜率比较高, 而下降的斜率比较低, 形成长尾效应, 而且有一定的反复。
(2) A、C类伪舆情没有首先发布在I类媒介中的情况。
(3) 伪舆情主要活跃在III类媒介中, 且观点一致率较高。
在建立决策树辨识模型的过程中, 首发媒介、48小时发帖数、持续时长、最大观点占比是作为根节点最多的属性, 达到根节点的86%。说明这4个属性是识别伪舆情的最重要属性。而转发数和总发帖数在属性筛选环节是最常被去除的属性。各个规模的舆情都有真舆情或伪舆情。
本文将决策树技术引入伪舆情识别领域, 提出了基于CODT决策树的伪舆情识别方法。该方法具有识别能力强、分类精度高的特点, 不仅可以对舆情的真伪做出判别, 还可以根据伪舆情的特征进一步将其细分, 为虚假舆情的识别提供了一个新的方法, 也为舆情的监管提供了依据。随着移动社交软件的兴起, 微信等传播形式正在成为舆论形成的又一主要途径, 移动社交软件的信息不容易统计和监控而且在扩散规律上有了新的变化, 这是伪舆情研究的新课题。同时, 随着伪舆情制造者的技术手段的升级, 其特征将会更加隐秘而接近自然舆情, 对于伪舆情新特性的监控和管理也是未来研究的主要方向之一。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|