数据分析与知识发现  2021, Vol. 5 Issue (4): 37-48
吉林财经大学管理科学与信息工程学院 长春 130117
Predicting of Public Opinion Reversal with Improved SMOTE Algorithm and Ensemble Learning
Wang Nan,Li Hairong,Tan Shuru()
School of Management Science and Information Engineering, Jilin University of Finance and Economics, Changchun 130117, China
【目的】 基于网络舆情事件展开分析,确定其属性特征及分类。当出现新的网络舆情事件时,可提前预测该事件是否会发生反转,既能帮助政府及时调整舆论导向,又能防止政府媒体的公信力受到负面影响。【方法】 收集近5年发生的具有代表性的网络舆情事件,设计改进的SMOTE算法对事件数据集进行平衡分布处理,构建基于神经网络集成学习的舆情反转预测模型,并采用精确率、召回率等指标对模型的预测效果进行评估。选取2020年最新发生的网络舆情事件案例对提出的模型进行测试,进一步揭示所构建的反转预测模型的内在机制。【结果】 通过实证研究,构建的神经网络集成学习分类模型准确率达99%,F值和AUC值均为0.99,验证了模型的可行性和较强的泛化性能。【局限】 只选取舆情反转事件的部分特征进行研究,对未来发生的舆情反转事件表征不够全面。【结论】 所构建的舆情反转预测模型可以提前准确预测舆情事件是否会发生反转。

关键词 舆情反转SMOTE算法神经网络集成学习实证研究    

[Objective] This paper analyzes online public opinion events to determine their attributes and classification. When an online public opinion event occurs, we can predict whether it will reverse in advance. This study not only helps the governments adjust the direction of public opinion in time but also protect the credibility of the governments and media. [Methods] First, we retrieved representative online public opinion events from the past five years. Then, we used the improved SMOTE algorithm to conduct a balance distribution treatment on the data set. Third, we built a prediction model for online public opinion reversal based on the neural network ensemble learning. Finally, we evaluated the model’s performance and internal mechanism with online public opinion events from 2020. [Results] The accuracy of the proposed model reached 99% and the F and AUC values were both 0.99. [Limitations] We only chose some characteristics from public opinion reversal events. Therefore, it cannot comprehensively represent all reversal events occurring in the future. [Conclusions] The constructed model can accurately predict whether or not a public opinion event will reverse.

Key wordsOnline Public Opinion Reversal    SMOTE Algorithm    Neural Network    Ensemble Learning    Empirical Study
收稿日期: 2020-08-26      出版日期: 2020-12-21
ZTFLH:  分类号: G353  
通讯作者: 谭舒孺     E-mail:
王楠,李海荣,谭舒孺. 基于改进SMOTE算法与集成学习的舆情反转预测研究*[J]. 数据分析与知识发现, 2021, 5(4): 37-48.
Wang Nan,Li Hairong,Tan Shuru. Predicting of Public Opinion Reversal with Improved SMOTE Algorithm and Ensemble Learning. Data Analysis and Knowledge Discovery, 2021, 5(4): 37-48.
Fig.1  舆情反转识别模型构建
Fig.2  改进的SMOTE算法生成新样本分布对比
Fig.3  单个神经网络模型(个体学习器)
舆情反转事件 舆情非反转事件
陕西榆林产妇跳楼案 西安奔驰女司机维权事件 河南开封通许再曝28名村医集体辞职 “冰花男孩”走红
小学生自带桌板地铁赶作业 周口男婴丢失案 广东一女孩搭摩的被杀害 “河间驴肉”黑作坊造假
红黄蓝幼儿园虐童案 黑龙江男子赵宇福州见义勇为案 江苏徐州机场内飞机被吹跑 女博士举报北航教授陈小武性骚扰
00后CEO狂怼成年人事件 安徽女子称遭“奸杀”威胁 河南一女子醉驾玛莎拉蒂致两死 长沙民警棒杀金毛引网友“声讨”
女子扒高铁门事件 女子网购18件衣服旅拍后退货 湖南益阳教师李尚平举报腐败被枪杀案 北林大四名女生去雪乡途中遇车祸身亡
鸿茅药酒事件 网红摆拍捡垃圾 网曝北京早高峰地铁多人席地而坐 上海地铁一男子跳入轨道被列车冲撞身亡
高考答题卡被掉包 重庆公交车坠江事件 老太向发动机投硬币致航班延误 证监会官司打输:责令答复顾雏军
王风雅小朋友去世事件 成都女司机被打事件 上海一老人立遗嘱遗产给女儿1元 考研数学被指现“神押题”疑发生泄题
网红saya殴打孕妇 大学生救落水儿童溺亡事件 网曝主播为拍段子让智障人士互殴 南昌大学一副院长被指长期性侵女生
Table 1  网络舆情事件案例
Table 2  属性赋值依据
指标名 含义 计算公式
准确率 分类模型所有预测正确的结果占总观测值的比重 Accuracy=TP+TNTP+FP+FN+TN
精确率 模型预测是正例的所有结果中,模型预测正确的比重 Precision=TPTP+FP
召回率 真实值是正例的所有结果中,模型预测正确的比重 Recall=TPTP+FN
特异度 真实值是反例的所有结果中,模型预测正确的比重 Specificity=TNTN+FP
F PrecisionRecall加权调和平均数,并假设两者一样重要 F1-Score=2Precision·RecallPrecision+Recall
Table 3  评价分类模型的部分指标
评估指标 准确率 精确率 召回率 特异度 F
数值 0.99 0.98 1.00 0.99 0.99
Table 4  评估指标值
Fig.4  神经网络集成学习分类模型ROC曲线
案例 真实值 预测值
4月29日北京市延庆区医院伤医事件 0 0
官方通报班主任给女生发暧昧信息 0 0
西安苏福记一厨师向锅里吐口水 0 0
湖南张家界天门山翼装飞行女生身亡 0 0
中国成功发射第54颗北斗卫星 0 0
双黄连口服液可抑制新型冠状病毒事件 1 1
丈夫实名举报妻子婚内出轨绿地高管 1 1
Table 5  真实情况与预测情况对比
Fig.5  “双黄连口服液可抑制新型冠状病毒”事件阶段划分与基本走势
Fig.6  相关系数矩阵热力图
