Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (2): 11-18     https://doi.org/10.11925/infotech.2096-3467.2017.02.02
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
改进潜在语义分析和支持向量机算法用于突发安全事件舆情预警*
田世海, 吕德丽()
哈尔滨理工大学管理学院 哈尔滨 150040
An Early Warning Algorithm for Public Opinion of Safety Emergency
Tian Shihai, Lyu Deli()
School of Management, Harbin University of Science and Technology, Harbin 150040, China
全文: PDF (1443 KB)   HTML ( 26
输出: BibTeX | EndNote (RIS)      
摘要 

目的】针对现有预警体系多以企业自身和监管部门为主体、忽视网络舆情, 导致预警力度不强、缺乏透明度及敏感性、使突发性安全问题时有发生且无法得到及时处理的现状, 提出一种新的舆情预警模型。【方法】通过元搜索技术挖掘舆情信息, 增加基准偏移值优化情感特征项倾向性权重, 添加修正因子以改进潜在语义分析和支持向量机(LSA+SVM)算法, 构建舆情分类预警模型。【结果】以多组突发性安全事件为例, 应用Matlab进行仿真实验。结果证明该舆情预警模型切实可行, 反应迅速, 在语义维度为10时准确率可达85.75%。【局限】此方法对于能引起关注和讨论的安全事件更加有效。【结论】改进算法适用于舆情预警, 可为企业和监管部门根据分类结果及时采取有效的预警措施提供合理化建议。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
田世海
吕德丽
关键词 潜在语义分析支持向量机舆情预警情感倾向性分析    
Abstract

[Objective] This study proposes a new early warning model to track the public sentiment online, aiming to improve transparency and responding speed of the safety emergencies. [Methods] We used the modified LSA+SVM algorithm to build an early warning model, which retrieved public opinion data by meta search. [Results] We examined the new model with three different incidents, and found it was practical and fast. The precision rate was 85.75% when the semantic dimension was kept at 10. [Limitations] This method was more effective for the safety incidents drawing public attention and discussion. [Conclusions] The proposed algorithm helps us build an early warning system for public opinion, which provides suggestions to related companies and government organizations.

Key wordsLatent Semantic Analysis(LSA)    Support Vector Machine(SVM)    Public Opinion Early Warning    Emotional Orientation Analysis
收稿日期: 2016-08-29      出版日期: 2017-03-27
ZTFLH:  G203  
基金资助:*本文系国家自然科学基金项目“高技术虚拟产业集群运行模式研究”(项目编号: 70873029)、黑龙江省自然科学基金项目“高新技术企业物流模式选择技术研究”(项目编号: G201203)和黑龙江省博士后科研启动资金资助项目“黑龙江省制造企业动态联盟信誉保障机制研究”(项目编号: LBH-Q12065)的研究成果之一
引用本文:   
田世海, 吕德丽. 改进潜在语义分析和支持向量机算法用于突发安全事件舆情预警*[J]. 数据分析与知识发现, 2017, 1(2): 11-18.
Tian Shihai,Lyu Deli. An Early Warning Algorithm for Public Opinion of Safety Emergency. Data Analysis and Knowledge Discovery, 2017, 1(2): 11-18.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.02.02      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I2/11
  舆情分类预警流程
  舆情分类情感特征词分类流程
  奇异值分解过程
  修正后的奇异值相关性跳跃曲线
  URL获取列表
  语义维度对分类结果准确率影响
  算法实现结果
突发性安全事件 负面文档
占比(%)
中性文档
占比(%)
正面文档
占比(%)
百度“莆田系”事件 59.8 6.7 33.5
滨海化工厂泄露事件 65.5 27.3 7.2
蒙牛黄曲霉素事件 76.3 9.8 13.9
  三个突发性安全事件正负面文档比率
突发性安全事件 主要舆情词汇 舆情等级 区间 数量 是否含基准偏移值
百度“莆田系”
事件
作恶; 丑闻; 互相勾结; 虚假宣传; 垂死挣扎; 医疗伦理缺失; 无底线; 贪心; 造假系; 谋财害命; 毒瘤; 作孽; 肮脏的广告手段; 不道德; 放纵; 缺乏监督; 不作为 S [-1, -0.8) 31 Y
A [-0.8, -0.6) 29 N
B [-0.6, -0.4) 21 N
C [-0.4, -0.2) 13 N
D [-0.2, 0.1) 7 N
滨海化工厂
泄露事件
毒害百姓; 强烈抗议; 生命财产得不到保护; 气味刺鼻; 恶心头晕; 告状无门; 不顾百姓死活; 隐患巨大; 污染; 寝食难安; 惨烈; 极度危险; 扼腕堵心; 吸取教训 S [-1, -0.8) 41 Y
A [-0.8, -0.6) 27 Y
B [-0.6, -0.4) 25 N
C [-0.4, -0.2) 8 N
D [-0.2, 0.1) 20 N
蒙牛黄曲
霉素事件
无需怜悯; 毫无原则; 显然不足以说服公众; 严重威胁生命安全; 空头文件; 一纸空文; 吃惊; 一而再再而三; 犯错成本实在太低; 重大缺陷; 不能用道歉来消除; 最强化学致癌物; 信心脆弱 S [-1, -0.8) 37 Y
A [-0.8, -0.6) 35 Y
B [-0.6, -0.4) 30 N
C [-0.4, -0.2) 21 N
D [-0.2, 0.1) 15 N
  三个突发性安全事件等级分类及主要舆情词汇
[1] 吴鹏, 杨爽, 张晶晶, 等. 突发事件网络舆情中网民群体行为演化的Agent 建模与仿真研究[J]. 现代图书情报技术, 2015(7/8): 65-72.
[1] (Wu Peng, Yang Shuang, Zhang Jingjing, et al.Agent-Based Modeling and Simulation of Evolution of Netizen Crowd Behavior in Unexpected Events Public Opinion[J]. New Technology of Library and Information Service, 2015 (7/8): 65-72.)
[2] Li W, Miao D, Wang W.Two Level Hierarchical Combination Method for Text Classification[J]. Expert Systems with Applications, 2011, 38(3): 2030-2039.
doi: 10.1016/j.eswa.2010.07.139
[3] 王兰成. 基于网络舆情分析的突发事件情报支援研究[J]. 情报理论与实践, 2015, 38(7): 72-75.
doi: 10.16353/j.cnki.1000-7490.2015.07.014
[3] (Wang Lancheng.Research on Emergency Information Support Based on Network Public Opinion Analysis[J]. Information Studies: Theory & Application, 2015, 38(7): 72-75.)
doi: 10.16353/j.cnki.1000-7490.2015.07.014
[4] Papetti P, Costa C, Antonucci F, et al.A RFID Web-based Infotracking System for the Artisanal Italian Cheese Quality Trace Ability[J]. Food Control, 2012, 27(1): 234-241.
doi: 10.1016/j.foodcont.2012.03.025
[5] 董凯欣, 傅荧, 孙晓峰, 等. 基于社会网络分析的企业网络舆情预警机制研究——以食品安全网络舆情为例[J]. 电子商务, 2015, 23(8): 54-55, 57.
doi: 10.3969/j.issn.1009-6108.2015.08.027
[5] (Dong Kaixin, Fu Ying, Sun Xiaofeng, et al.Research on Early Warning Mechanism of Enterprise Public Opinion Based on Social Network Analysis[J]. E-Business Journal, 2015, 23(8): 54-55, 57.)
doi: 10.3969/j.issn.1009-6108.2015.08.027
[6] 陈福集, 陈婷. 舆情突发事件演化探析——基于意见领袖引导作用视角[J]. 情报资料工作, 2012, 36(2): 23-28.
[6] (Chen Fuji, Chen Ting.Research on Public Opinion Emergencies Evolution: Based on the Perspective of Opinion Leaders Guiding Role[J]. Information and Documentation Services, 2012, 36(2): 23-28.)
[7] 宣云干, 朱庆华. 基于LSA的社会化标注系统标签语义检索研究[J]. 图书情报工作, 2011, 55(4): 11-14.
[7] (Xuan Yungan, Zhu Qinghua.Research on Tag Semantic Retrieval in Social Tagging System Based on LSA[J]. Library and Information Service, 2011, 55(4): 11-14.)
[8] 范玉华, 秦世引. 基于潜在语义分析的场景分类优化决策方法[J]. 计算机辅助设计与图形学学报, 2013, 25(2): 175-182.
doi: 10.3969/j.issn.1003-9775.2013.02.006
[8] (Fan Yuhua, Qin Shiyin.Optimizing Decision for Scene Classification Based on Latent Semantic Analysis[J]. Journal of Computer-Aided Design & Computer Graphics, 2013, 25(2): 175-182.)
doi: 10.3969/j.issn.1003-9775.2013.02.006
[9] 商丽媛, 谭清美. 基于支持向量机的突发事件分级研究[J]. 管理工程学报, 2014, 28(1): 119-123.
[9] (Shang Liyuan, Tan Qingmei.Emergency Classification Based on Support Vector Machine[J]. Journal of Industrial Engineering and Engineering Management, 2014, 28(1): 119-123.)
[10] 张建娥. 基于TFIDF和词语关联度的中文关键词提取方法[J]. 情报科学, 2012, 30(10): 1542-1555.
[10] (Zhang Jian’e.A Chinese Keywords Extraction Approach Based on TFIDF and Word Correlation[J]. Information Science, 2012, 30(10): 1542-1555.)
[11] 张长利. 面向特定领域的互联网舆情分析技术研究[D]. 长春: 吉林大学, 2011.
[11] (Zhang Changli.Research on Domain- Oriented Public Sentiment Analysis Technologies [D]. Changchun: Jilin University, 2011.)
[12] 高宏岩, 王建辉. 在线自调整修正因子模糊控制方法和应用[J]. 微计算机信息, 2006, 22(13): 83-84.
doi: 10.3969/j.issn.1008-0570.2006.13.031
[12] (Gao Hongyan, Wang Jianhui.A Fuzzy Control Method with Online Self-turning Correction Factor and Its Application[J]. Microcomputer Information, 2006, 22(13): 83-84.)
doi: 10.3969/j.issn.1008-0570.2006.13.031
[13] Goñi S M, Oddone S, Segura J A.Prediction of Foods Freezing and Thawing Times: Artificial Neural Networks and Genetic Algorithm Approach[J]. Journal of Food Engineering, 2011, 84(1): 164-178.
doi: 10.1007/s11947-010-0401-x
[14] 谭光兴, 刘臻晖. 基于SVM的局部潜在语义分析算法研究[J]. 计算机工程与科学, 2016, 38(1): 177-182.
doi: 10.3969/j.issn.1007-130X.2016.01.029
[14] (Tan Guangxing, Liu Zhenhui.A Local Latent Semantic Analysis Algorithm Based on Support Vector Machine[J]. Computer Engineering and Science, 2016, 38(1): 177-182.)
doi: 10.3969/j.issn.1007-130X.2016.01.029
[15] Sengupta A S, Balaji M S, Krishnan B C.How Customers Cope with Service Failure? A Study Does Brand Reputation and Customer Satisfaction[J]. Journal of Business Research, 2015, 68(3): 655-674.
doi: 10.1007/978-3-319-10951-0_253
[16] 朱舸, 齐佳音. 企业危机事件网络舆情态势评估[J]. 情报科学, 2015, 33(6): 48-53.
[16] (Zhu Ge, Qi Jiayin.Situation Evaluation of Online Public Opinion on Enterprise Crisis Event[J]. Information Science, 2015, 33(6): 48-53.)
[17] 马宁, 刘怡君. 基于超网络的舆情演化多主体建模[J]. 系统管理学报, 2015, 24(6): 785-804.
[17] (Ma Ning, Liu Yijun.Multi-Agent Modeling of Public Opinion Evolution Based on SuperNetwork Analysis[J]. Journal of Systems & Management, 2015, 24(6): 785-804.)
[1] 丁晟春,俞沣洋,李真. 网络舆情潜在热点主题识别研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 29-38.
[2] 龚丽娟,王昊,张紫玄,朱立平. Word2Vec对海关报关商品文本特征降维效果分析*[J]. 数据分析与知识发现, 2020, 4(2/3): 89-100.
[3] 秦贺然,刘浏,李斌,王东波. 融入实体特征的典籍自动分类研究 *[J]. 数据分析与知识发现, 2019, 3(9): 68-76.
[4] 王若佳,张璐,王继民. 基于机器学习的在线问诊平台智能分诊研究[J]. 数据分析与知识发现, 2019, 3(9): 88-97.
[5] 李纲,周华阳,毛进,陈思菁. 基于机器学习的社交媒体用户分类研究 *[J]. 数据分析与知识发现, 2019, 3(8): 1-9.
[6] 曾庆田,戴明弟,李超,段华,赵中英. 轨迹数据融合用户表示方法的重要位置发现*[J]. 数据分析与知识发现, 2019, 3(6): 75-82.
[7] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[8] 张智雄,刘欢,丁良萍,吴朋民,于改红. 不同深度学习模型的科技论文摘要语步识别效果对比研究 *[J]. 数据分析与知识发现, 2019, 3(12): 1-9.
[9] 丁良萍,张智雄,刘欢. 影响支持向量机模型语步自动识别效果的因素研究 *[J]. 数据分析与知识发现, 2019, 3(11): 16-23.
[10] 侯君,刘魁,李千目. 基于ESSVM的分类推荐*[J]. 数据分析与知识发现, 2018, 2(3): 9-21.
[11] 黄孝喜,李晗雨,王荣波,王小华,谌志群. 基于卷积神经网络与SVM分类器的隐喻识别*[J]. 数据分析与知识发现, 2018, 2(10): 77-83.
[12] 曾金,陆伟,丁恒,陈海华. 基于图像语义的用户兴趣建模*[J]. 数据分析与知识发现, 2017, 1(4): 76-83.
[13] 杨爽,陈芬. 基于SVM多特征融合的微博情感多级分类研究*[J]. 数据分析与知识发现, 2017, 1(2): 73-79.
[14] 刘红光,马双刚,刘桂锋. 基于降噪自动编码器的中文新闻文本分类方法研究*[J]. 现代图书情报技术, 2016, 32(6): 12-19.
[15] 赵夷平,毕强. 关联数据在学术资源网相似文献发现中的应用研究*[J]. 现代图书情报技术, 2016, 32(3): 41-49.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn