Please wait a minute...
Advanced Search
数据分析与知识发现  2021, Vol. 5 Issue (4): 37-48     https://doi.org/10.11925/infotech.2096-3467.2020.0838
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于改进SMOTE算法与集成学习的舆情反转预测研究*
王楠,李海荣,谭舒孺()
吉林财经大学管理科学与信息工程学院 长春 130117
Predicting of Public Opinion Reversal with Improved SMOTE Algorithm and Ensemble Learning
Wang Nan,Li Hairong,Tan Shuru()
School of Management Science and Information Engineering, Jilin University of Finance and Economics, Changchun 130117, China
全文: PDF (1880 KB)   HTML ( 16
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 基于网络舆情事件展开分析,确定其属性特征及分类。当出现新的网络舆情事件时,可提前预测该事件是否会发生反转,既能帮助政府及时调整舆论导向,又能防止政府媒体的公信力受到负面影响。【方法】 收集近5年发生的具有代表性的网络舆情事件,设计改进的SMOTE算法对事件数据集进行平衡分布处理,构建基于神经网络集成学习的舆情反转预测模型,并采用精确率、召回率等指标对模型的预测效果进行评估。选取2020年最新发生的网络舆情事件案例对提出的模型进行测试,进一步揭示所构建的反转预测模型的内在机制。【结果】 通过实证研究,构建的神经网络集成学习分类模型准确率达99%,F值和AUC值均为0.99,验证了模型的可行性和较强的泛化性能。【局限】 只选取舆情反转事件的部分特征进行研究,对未来发生的舆情反转事件表征不够全面。【结论】 所构建的舆情反转预测模型可以提前准确预测舆情事件是否会发生反转。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王楠
李海荣
谭舒孺
关键词 舆情反转SMOTE算法神经网络集成学习实证研究    
Abstract

[Objective] This paper analyzes online public opinion events to determine their attributes and classification. When an online public opinion event occurs, we can predict whether it will reverse in advance. This study not only helps the governments adjust the direction of public opinion in time but also protect the credibility of the governments and media. [Methods] First, we retrieved representative online public opinion events from the past five years. Then, we used the improved SMOTE algorithm to conduct a balance distribution treatment on the data set. Third, we built a prediction model for online public opinion reversal based on the neural network ensemble learning. Finally, we evaluated the model’s performance and internal mechanism with online public opinion events from 2020. [Results] The accuracy of the proposed model reached 99% and the F and AUC values were both 0.99. [Limitations] We only chose some characteristics from public opinion reversal events. Therefore, it cannot comprehensively represent all reversal events occurring in the future. [Conclusions] The constructed model can accurately predict whether or not a public opinion event will reverse.

Key wordsOnline Public Opinion Reversal    SMOTE Algorithm    Neural Network    Ensemble Learning    Empirical Study
收稿日期: 2020-08-26      出版日期: 2020-12-21
ZTFLH:  分类号: G353  
基金资助:*吉林省教育厅“十三五”科学技术研究项目(JJKH20210131KJ);吉林省教育科学“十三五”规划基金重点项目(ZD20024);国家自然科学基金项目的研究成果之一(61702213)
通讯作者: 谭舒孺     E-mail: 1070929014@qq.com
引用本文:   
王楠,李海荣,谭舒孺. 基于改进SMOTE算法与集成学习的舆情反转预测研究*[J]. 数据分析与知识发现, 2021, 5(4): 37-48.
Wang Nan,Li Hairong,Tan Shuru. Predicting of Public Opinion Reversal with Improved SMOTE Algorithm and Ensemble Learning. Data Analysis and Knowledge Discovery, 2021, 5(4): 37-48.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2020.0838      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2021/V5/I4/37
Fig.1  舆情反转识别模型构建
Fig.2  改进的SMOTE算法生成新样本分布对比
Fig.3  单个神经网络模型(个体学习器)
舆情反转事件 舆情非反转事件
陕西榆林产妇跳楼案 西安奔驰女司机维权事件 河南开封通许再曝28名村医集体辞职 “冰花男孩”走红
小学生自带桌板地铁赶作业 周口男婴丢失案 广东一女孩搭摩的被杀害 “河间驴肉”黑作坊造假
红黄蓝幼儿园虐童案 黑龙江男子赵宇福州见义勇为案 江苏徐州机场内飞机被吹跑 女博士举报北航教授陈小武性骚扰
00后CEO狂怼成年人事件 安徽女子称遭“奸杀”威胁 河南一女子醉驾玛莎拉蒂致两死 长沙民警棒杀金毛引网友“声讨”
女子扒高铁门事件 女子网购18件衣服旅拍后退货 湖南益阳教师李尚平举报腐败被枪杀案 北林大四名女生去雪乡途中遇车祸身亡
鸿茅药酒事件 网红摆拍捡垃圾 网曝北京早高峰地铁多人席地而坐 上海地铁一男子跳入轨道被列车冲撞身亡
高考答题卡被掉包 重庆公交车坠江事件 老太向发动机投硬币致航班延误 证监会官司打输:责令答复顾雏军
王风雅小朋友去世事件 成都女司机被打事件 上海一老人立遗嘱遗产给女儿1元 考研数学被指现“神押题”疑发生泄题
网红saya殴打孕妇 大学生救落水儿童溺亡事件 网曝主播为拍段子让智障人士互殴 南昌大学一副院长被指长期性侵女生
Table 1  网络舆情事件案例
Table 2  属性赋值依据
指标名 含义 计算公式
准确率 分类模型所有预测正确的结果占总观测值的比重 Accuracy=TP+TNTP+FP+FN+TN
精确率 模型预测是正例的所有结果中,模型预测正确的比重 Precision=TPTP+FP
召回率 真实值是正例的所有结果中,模型预测正确的比重 Recall=TPTP+FN
特异度 真实值是反例的所有结果中,模型预测正确的比重 Specificity=TNTN+FP
F PrecisionRecall加权调和平均数,并假设两者一样重要 F1-Score=2Precision·RecallPrecision+Recall
Table 3  评价分类模型的部分指标
评估指标 准确率 精确率 召回率 特异度 F
数值 0.99 0.98 1.00 0.99 0.99
Table 4  评估指标值
Fig.4  神经网络集成学习分类模型ROC曲线
案例 真实值 预测值
4月29日北京市延庆区医院伤医事件 0 0
官方通报班主任给女生发暧昧信息 0 0
西安苏福记一厨师向锅里吐口水 0 0
湖南张家界天门山翼装飞行女生身亡 0 0
中国成功发射第54颗北斗卫星 0 0
双黄连口服液可抑制新型冠状病毒事件 1 1
丈夫实名举报妻子婚内出轨绿地高管 1 1
Table 5  真实情况与预测情况对比
Fig.5  “双黄连口服液可抑制新型冠状病毒”事件阶段划分与基本走势
Fig.6  相关系数矩阵热力图
[1] 中国互联网信息中心. 第45次中国互联网络发展状况统计报告[R/OL].[ 2020- 6- 12]. http://www.cac.gov.cn/2020-04/27/c_1589535470378587.htm.
[1] ( China Internet Network Information Center. The 45th China Statistical Report on Internet Development[R/OL]. [ 2020- 6- 12]. http://www.cac.gov.cn/2020-04/27/c_1589535470378587.htm.
[2] 布署. 全媒体语境下对“舆情反转新闻常态化”的反思[J]. 传媒, 2020(3):94-96.
[2] ( Bu Shu. Reflection on the “Normalization of Public Opinion Reversal News” in the Context of All Media[J]. Media, 2020(3):94-96.)
[3] 黎勇. 舆情反转:一种反向的群体极化[J]. 青年记者, 2019(7):42-44.
[3] ( Li Yong. Public Opinion Reversal: A Kind of Reverse Group Polarization[J]. Youth Journalist, 2019(7):42-44.)
[4] 林榕, 郭华君. 网络舆情反转的构成、机理探析[J]. 传播力研究, 2019,3(20):280.
[4] ( Lin Rong, Guo Huajun. A Study on the Composition and Mechanism of Internet Public Opinion Reversal[J]. Research on Transmission Competence, 2019,3(20):280.)
[5] Proietti C. The Dynamics of Group Polarization[C]// Proceedings of International Workshop on Logic, Rationality and Interaction. 2017: 195-208.
[6] 孙翠平. 网络舆情反转的传播及演化研究[D]. 广州: 华南理工大学, 2018.
[6] ( Sun Cuiping. A Study on the Spread and Evolution of Internet Public Opinion Reversal[D]. Guangzhou: South China University of Technology, 2018.)
[7] 夏一雪, 兰月新, 刘茉, 等. 大数据环境下网络舆情反转机理与预测研究[J]. 情报杂志, 2018,37(8):92-96, 207.
[7] ( Xia Yixue, Lan Yuexin, Liu Mo, et al. Inversion Mechanism and Prediction of Network Public Opinion in Big Data Environment[J]. Journal of Intelligence, 2018,37(8):92-96, 207.)
[8] 汪明艳, 余丽彬, 胡华. 基于行为意愿与反转信息可靠性的舆论反转演变研究[J]. 情报杂志, 2019,38(4):125-131.
[8] ( Wang Mingyan, Yu Libin, Hu Hua. The Research on Reverse Evolution of Public Opinion Based on Behavioral Intention and Reliability of Reverse Information[J]. Journal of Intelligence, 2019,38(4):125-131.)
[9] 田俊静, 兰月新, 夏一雪, 等. 基于决策树方法的网络舆情反转识别与实证研究[J]. 情报杂志, 2019,38(8):121-125, 171.
[9] ( Tian Junjing, Lan Yuexin, Xia Yixue, et al. Recognition and Empirical Study of Network Public Opinion Reversal Based on Decision Tree Method[J]. Journal of Intelligence, 2019,38(8):121-125, 171.)
[10] 田世海, 孙美琪, 张家毓. 基于贝叶斯网络的自媒体舆情反转预测[J]. 情报理论与实践, 2019,42(2):127-133.
[10] ( Tian Shihai, Sun Meiqi, Zhang Jiayu. Prediction of We-media Public Opinion Reversion Based on Bayesian Network[J]. Information Studies: Theory & Application, 2019,42(2):127-133.)
[11] 蒋叶莎. 后真相时代真相何以接近真实——基于成都七中实验学校食品安全事件的舆情分析[J]. 东南传播, 2019(10):91-93.
[11] ( Jiang Yesha. How the Truth Approaches the Truth in the Post-truth Era-An Analysis of Public Opinion Based on the Food Safety Incident in Chengdu No.7 Experimental School[J]. Southeast Communication, 2019(10):91-93.)
[12] 宋凯, 袁奂青. 后真相视角中的网民情绪化传播[J]. 现代传播(中国传媒大学学报), 2019,41(8):146-150, 156.
[12] ( Song Kai, Yuan Huanqing. The Emotional Communication of Internet Users from the Perspective of Post-truth[J]. Modern Communication (Journal of Communication University of China), 2019,41(8):146-150, 156.)
[13] 谭艳霞, 化存才. 网络舆情反转问题的模糊聚类分析[J]. 云南大学学报(自然科学版), 2019,41(S1):16-20.
[13] ( Tan Yanxia, Hua Cuncai. Analysis of Cluster on the Inversion Problem of Network Public Opinion Events[J]. Journal of Yunnan University (Natural Science Edition), 2019,41(S1):16-20.)
[14] 詹婷. 热点事件中的舆论反转路径研究[D]. 哈尔滨: 黑龙江大学, 2017.
[14] ( Zhan Ting. Research on the Path of Public Opinion Reversal in Hot Issues[D]. Harbin: Heilongjiang University, 2017.)
[15] 张春颜, 刘煊. 后真相视角下网络舆论反转的主体行为、情境类型与规避策略分析[J]. 学习论坛, 2019(7):58-63.
[15] ( Zhang Chunyan, Liu Xuan. Analysis on the Subject Behavior, Situation Types and Avoidance Strategies of the Network Public Opinion Reversal From the Post-truth Perspective[J]. Tribune of Study, 2019(7):58-63.)
[16] 鲜宁, 蒋睿萍, 张静. 自媒体时代网络募捐的优化途径——以“小凤雅”事件为例[J]. 新闻知识, 2019(4):59-62.
[16] ( Xian Ning, Jiang Ruiping, Zhang Jing. The Optimized Way of Network Fund-raising in the Age of We-media-Taking the Case of “Xiao Fengya” as an Example[J]. News Research, 2019(4):59-62.)
[17] 王璐瑶. 网络舆情博弈中的舆情反转研究——以“王凤雅事件”为例[J]. 新闻前哨, 2019(4):43.
[17] ( Wang Luyao. Research on Public Opinion Reversal in Online Public Opinion Game-Taking the “Wang Fengya Event”as an Example[J]. Press Outpost, 2019(4):43.)
[18] 金林, 毛浩. 农民工社会角色的媒体框架构建[J]. 中国青年研究, 2008(11):54-57.
[18] ( Jin Lin, Mao Hao. Construction of Media Framework of Social Roles of Migrant Workers[J]. China Youth Study, 2008(11):54-57.)
[19] 郝永华, 芦何秋. 风险事件的框架竞争与意义建构——基于“毒胶囊事件”新浪微博数据的研究[J]. 新闻与传播研究, 2014,21(3):20-33.
[19] ( Hao Yonghua, Lu Heqiu. Framework Competition and Meaning Construction of Risk Events - A Study Based on Sina Weibo Data of “Toxic Capsule Event”[J]. Journalism & Communication, 2014,21(3):20-33.)
[20] 王正祥. 反转新闻的“病理”特征与角色失范探讨——基于51个反转新闻样本的统计分析[J]. 天水师范学院学报, 2016,36(6):95-100.
[20] ( Wang Zhengxiang. Discussion on “Pathological” Characteristics and Role Anomia of Reversal News-A Statistical Analysis Based on 51 Reversal News Samples[J]. Journal of Tianshui Normal University, 2016,36(6):95-100.)
[21] 杨峥嵘. 后真相时代下的舆情反转和传媒自律[J]. 传播力研究, 2019,3(20):37,39.
[21] ( Yang Zhengrong. Public Opinion Reversal and Media Self-discipline in the Post-truth Era[J]. Research on Transmission Competence, 2019,3(20):37,39)
[22] Jud C M, Park B. Definition and Assessment of Accuracy in Social Stereotypes[J]. Psychological Review, 1993,100(1):109-128.
doi: 10.1037/0033-295X.100.1.109
[23] 董方玉. 民间引爆网络事件的舆情特点——以“北电性侵事件”为例[J]. 新闻传播, 2018(21):45-48.
[23] ( Dong Fangyu. The Characteristics of Public Opinion of Network Events Triggered by Civil Society-Taking the “Sexual Assault at Nortel” as an Example[J]. Journalism Communication, 2018(21):45-48.)
[24] Stoner J A F. A Comparison of Individual and Group Decisions Involving Risk[D]. Cambridge: University of Cambridge, 1961.
[25] 刘茜. 网络群体极化现象定量研究——基于新浪微博的个案分析[D]. 北京: 清华大学, 2011.
[25] ( Liu Qian. Quantitative Research on Network Group Polarization Phenomenon-A Case Analysis Based on Sina Twitter[D]. Beijing: Tsinghua University, 2011.)
[26] 麦克斯韦尔·麦考姆斯, 郭镇之 邓理峰. 议程设置理论概览: 过去, 现在与未来[J]. 新闻大学, 2007(3):55-67.
[26] ( Maxwell McCombs, Guo Zhenzhi, Deng Lifeng. A Look at Agenda-Setting: Past, Present and Future[J]. Journalism Quarterly, 2007(3):55-67.)
[27] 毕宏音, 田华. 舆情“类反转”现象分析与反思——以“万州公交车坠江事件”为例[J]. 情报杂志, 2019,38(7):103-110.
[27] ( Bi Hongyin, Tian Hua. Analysis and Reflection on the Phenomenon of “Quasi-reversal” in Public Opinion-Taking the “Wanzhou Bus Falling into the River Incident” as an Example[J]. Journal of Intelligence, 2019,38(7):103-110.)
[1] 范少萍,赵雨宣,安新颖,吴清强. 基于卷积神经网络的医学实体关系分类模型研究*[J]. 数据分析与知识发现, 2021, 5(9): 75-84.
[2] 车宏鑫,王桐,王伟. 前列腺癌预测模型对比研究*[J]. 数据分析与知识发现, 2021, 5(9): 107-114.
[3] 范涛,王昊,吴鹏. 基于图卷积神经网络和依存句法分析的网民负面情感分析研究*[J]. 数据分析与知识发现, 2021, 5(9): 97-106.
[4] 顾耀文, 张博文, 郑思, 杨丰春, 李姣. 基于图注意力网络的药物ADMET分类预测模型构建方法*[J]. 数据分析与知识发现, 2021, 5(8): 76-85.
[5] 徐良辰, 郭崇慧. 基于集成学习的胃癌生存预测模型研究*[J]. 数据分析与知识发现, 2021, 5(8): 86-99.
[6] 张乐, 冷基栋, 吕学强, 崔卓, 王磊, 游新冬. RLCPAR:一种基于强化学习的中文专利摘要改写模型*[J]. 数据分析与知识发现, 2021, 5(7): 59-69.
[7] 韩普,张展鹏,张明淘,顾亮. 基于多特征融合的中文疾病名称归一化研究*[J]. 数据分析与知识发现, 2021, 5(5): 83-94.
[8] 孟镇,王昊,虞为,邓三鸿,张宝隆. 基于特征融合的声乐分类研究*[J]. 数据分析与知识发现, 2021, 5(5): 59-70.
[9] 李丹阳, 甘明鑫. 基于多源信息融合的音乐推荐方法 *[J]. 数据分析与知识发现, 2021, 5(2): 94-105.
[10] 邱云飞, 郭蕾. 面向非均衡数据的糖尿病并发症预测[J]. 数据分析与知识发现, 2021, 5(2): 116-128.
[11] 程铁军, 王曼, 黄宝凤, 冯兰萍. 基于CEEMDAN-BP模型的突发事件网络舆情预测研究*[J]. 数据分析与知识发现, 2021, 5(11): 59-67.
[12] 丁浩, 艾文华, 胡广伟, 李树青, 索炜. 融合用户兴趣波动时序的个性化推荐模型*[J]. 数据分析与知识发现, 2021, 5(11): 45-58.
[13] 尹浩然,曹金璇,曹鲁喆,王国栋. 扩充语义维度的BiGRU-AM突发事件要素识别研究*[J]. 数据分析与知识发现, 2020, 4(9): 91-99.
[14] 邱尔丽,何鸿魏,易成岐,李慧颖. 基于字符级CNN技术的公共政策网民支持度研究 *[J]. 数据分析与知识发现, 2020, 4(7): 28-37.
[15] 王思迪,胡广伟,杨巳煜,施云. 基于文本分类的政府网站信箱自动转递方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 51-59.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn