数据分析与知识发现  2022, Vol. 6 Issue (2/3): 396-408
1吉林财经大学管理科学与信息工程学院 长春 130117
2吉林财经大学经济信息管理研究所 长春 130117
Predicting Public Opinion Reversal Based on Evolution Analysis of Events and Improved KE-SMOTE Algorithm
Wang Nan1,2,Li Hairong1(),Tan Shuru3
1School of Management Science and Information Engineering, Jilin University of Finance and Economics, Changchun 130117, China
2Institute of Economic Information Management, Jilin University of Finance and Economics, Changchun 130117, China3College of Information Science and Engineering, Guilin University of Technology, Guilin 541006, China
【目的】 当新的舆情事件出现时,准确高效地预测出该事件是否会发生反转。【方法】 首先,根据舆情反转事件反转点前的演化特点及演化过程构建事件特征;其次,通过设计聚类中心数自动寻优过程提出改进的KE-SMOTE算法,对正负样本分布悬殊的事件集合进行均衡处理;再次,基于均衡处理后的事件集构建以神经网络为基础的集成学习分类模型,实现舆情反转预测;最后,选取2021年发生的30个热点舆情事件对所构建的模型进行验证,并对预测结果与真实结果不符的事件逐一分析错误原因,同时对于如何避免舆情反转现象提出相应的对策建议。【结果】 本文构建的集成学习分类模型在测试集上的预测准确率为99.7%,同时,较高的召回率显示所有反转事件均被预测正确,与舆情反转预测任务的要求相符。【局限】 随着舆情反转事件从发生到反转之间的时长越来越短,可以获取的数据集也越来越少,所提出的特征和模型是否依然有效值得深入研究。【结论】 所构建的基于改进KE-SMOTE算法的舆情反转预测模型可以在事件发生初期较为精准地识别出舆情反转事件。

关键词 舆情反转KE-SMOTE算法神经网络集成学习对策研究    

[Objective] This paper tries to accurately predict online public opinion reversal. [Methods] First, we retrieved the features of public opinion events based on their evolution characteristics and development process before the reversal points. Then, we used the improved KE-SMOTE algorithm to create an automatic optimization process, which balanced the event set with very skewed positive and negative samples. We also constructed a neural network ensemble learning model using the balanced event set. Finally, we examined our model with 30 trending public opinion events from 2021, and discussed the causes of errors for the inconsistent prediction results. We also provided corresponding countermeasures and suggestions on avoiding the reversal of public opinion. [Results] We found that the prediction accuracy of the proposed model on the test sets reached 99.7%, and all reversal events were predicted. [Limitations] While the time interval becoming much shorter between the occurrence and reversal of public opinion events, more research is needed to examine the proposed model with smaller data sets. [Conclusions] Our new model can accurately identify the public opinion reversal events in advance.

Key wordsPublic Opinion Reversal    KE-SMOTE Algorithm    Neural Network    Ensemble Learning    Countermeasure Research
收稿日期: 2021-08-05      出版日期: 2022-04-14
ZTFLH:  G353  
通讯作者: 李海荣,ORCID:0000-0002-4884-7783     E-mail:
王楠, 李海荣, 谭舒孺. 基于舆情事件演化分析及改进KE-SMOTE算法的舆情反转预测研究*[J]. 数据分析与知识发现, 2022, 6(2/3): 396-408.
Wang Nan, Li Hairong, Tan Shuru. Predicting Public Opinion Reversal Based on Evolution Analysis of Events and Improved KE-SMOTE Algorithm. Data Analysis and Knowledge Discovery, 2022, 6(2/3): 396-408.
特征 赋值依据
x1持续时长(天/单位) 0≤x1<5 1;5 ≤x1<10 2;10≤x1<15 3;15≤x1<20 4 ;20≤x1<40 5;x1≥40 6
x2事件规模 国内局部 1;全国范围 2;国际范围 3
x3事件从产生到初次报道的时间差(天/单位) x3<1 1;1≤x3<2 2;2≤x3<3 3;3≤x3<4 4;x3≥4 5
x4事件人物的年龄 0≤x4<20 1;20≤x4<40 2;40≤x4<60 3;60≤x4<80 4; x4≥80 5
x5首发平台 微博 1;微信 2;网媒 3
x6转发量 0≤x6<5000 1;5000≤x6<10000 2;10000≤x6<15000 3;15000≤x6<20000 4;20000≤x6<25000 5;25000≤x6 <30000 6;x6≥30000 7
x7评论量 0≤x7<5000 1;5000≤x7<10000 2;10000≤x7<15000 3;15000≤x7<20000 4;20000≤x7<25000 5;25000≤x7 <30000 6;x7≥30000 7
x8点赞量 0≤x8<5000 1;5000≤x8<10000 2;10000≤x8<15000 3;15000≤x8<2000 4;20000≤x8<25000 5;25000≤x8<30000 6;x8≥30000 7
x9博文数 0≤x9<100 1;100≤x9<200 2;200≤x9<300 3;300≤x9<400 4;400≤x9<500 5;500≤x9<600 6;x9≥600 7
x10影响力指数 0≤x10<20 1;20≤x10<40 2;40≤x10<60 3;60≤x10<80 4;80≤x10≤100 5
x11事件当事人身份类型 医生1;女性2;警察3;大学生4;快递员5;其他6
x12该事件是否与现实生活联系紧密 是 1;否 0
x13该事件背后是否带有某种社会情绪 是 1;否 0
x14事件的相关信息是否被模糊化处理 是 1;否 0
x15事件当事人是否为弱势群体 是 1;否 0
x16当事人是否被人肉搜索,并遭遇网络暴力 是 1;否 0
x17事件是否存在争议 是 1;否 0
x18是否引起线下事件 是 1;否 0
x19网民的观点是否存在刻板效应 是 1;否 0
x20是否进行了议程设置 是 1;否 0
x21内容爆点是否多 是 1;否 0
x22是否产生次生舆情 是 1;否 0
x23网民是否对事件进行了带有明显倾向性的预判 是 1;否 0
Table 1  特征赋值依据
Fig.1  聚类数寻优过程中的迭代次数与CH值和聚类数变化情况
Fig.2  样本均衡前后分布对比
Fig.3  单个神经网络(个体学习器1)
Fig.4  单个神经网络(个体学习器2)
Fig.5  改进KE-SMOTE分类模型构建
指标名 含义 计算公式
准确率 分类模型所有预测正确的结果占总观测值的比重 Accuracy = TP + TN TP + FP + FN + TN
精确率 模型预测是正例的所有结果中,模型预测对的比重 Precision = TP TP + FP
召回率 真实值是正例的所有结果中,模型预测对的比重 Recall = TP TP + FN
特异度 真实值是反例的所有结果中,模型预测对的比重 Specificity = TN TN + FP
F PrecisionRecall加权调和平均数,并假设两者一样重要 F 1 - Score = 2 Precision Recall Precision + Recall
Table 2  评价分类模型的部分指标
评估指标 准确率 精确率 召回率 特异度 F
Model1 0.958 2 0.540 9 1.00 0.956 0 0.702 1
Model2 0.997 0 0.967 2 1.00 0.996 7 0.983 3
Table 3  评估指标值对比
Fig.6  神经网络集成学习分类模型ROC曲线
序号 事件名称 预测概率值 预测分类 真实分类
Model1 Model2 Model1 Model2
1 货拉拉女乘客坠车死亡 1 0.941 63 1 1 1
2 杭州辣椒水事件 1 0.953 04 1 1 1
3 成都四十九中一学生在校坠楼身亡事件 1 0.996 22 1 1 1
4 首汽约车平台网约车事件 1 0.982 82 1 1 1
5 马金瑜事件 1 0.985 47 1 1 1
6 广州一特斯拉撞树后自燃 1 0.452 39 1 0 0
7 河南一学校发表熟鸡蛋返生孵小鸡论文 1 0.998 19 1 1 0
8 上海金山区厂房火灾导致8人遇难 0.999 68 0.405 35 1 0 0
9 杀毒软件死于巴塞罗监狱 0.999 59 0.374 00 1 0 0
10 央美教师徐天华性侵未成年女生 1 0.985 85 1 1 0
11 谭鸭血老火锅为泄露肖战行踪公开道歉 0.999 61 0.400 74 1 0 0
12 神州十二号载人飞船发射圆满成功 0.999 72 0.415 38 1 0 0
13 江西通报专升本考试有关考点作弊事件 1 0.405 89 1 0 0
14 复旦大学数学科学学院党委书记遇害身亡 0.999 88 0.440 31 1 0 0
15 王者荣耀被指侵害未成年人权益 0.999 99 0.460 44 1 0 0
16 国航回应粉丝飞机上船舱追星事件 0.999 91 0.459 95 1 0 0
17 黑龙江科技大学学生不雅视频遭传播 1 0.983 27 1 1 0
18 长沙教师招聘男性应聘者4分进面试 1 0.990 24 1 1 0
19 内蒙古文旅厅副厅长李晓秋自杀身亡 0.999 97 0.483 50 1 0 0
20 上海一女子持刀伤人致5伤 0.999 80 0.448 44 1 0 0
21 西安一的车内猝死仍被贴罚单 0.999 87 0.586 31 1 0 0
22 武汉在校博士后因套路贷自杀 0.999 96 0.480 30 1 0 0
23 重庆一15岁女孩校内坠亡 0.999 87 0.242 27 1 0 0
24 B站招聘争议 0.999 89 0.374 52 1 0 0
25 红黄蓝幼儿园幼师发男童闻脚图 0.999 96 0.568 76 1 0 0
26 台铁一列车发生脱轨事故 0.999 98 0.477 61 1 0 0
27 黑龙江15岁女生弑母藏尸冷库 0.996 45 0.482 70 1 0 0
28 河北5名10岁儿童遭校园欺凌 0.999 78 0.430 32 1 0 0
29 江苏一女辅警勒索多名公职人员 0.997 37 0.419 83 1 0 0
30 网传河南一智障女孩嫁给中年男子 0.999 96 0.605 33 1 0 0
Table 4  舆情事件预测结果对比(2021年)
Fig.7  舆情反转和非反转事件客观特征取值情况
Fig.8  舆情反转和非反转事件主观特征取值为1的比例情况
