Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (2): 73-79     https://doi.org/10.11925/infotech.2096-3467.2017.02.10
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于SVM多特征融合的微博情感多级分类研究*
杨爽(), 陈芬
南京理工大学经济管理学院 南京 210094
Analyzing Sentiments of Micro-blog Posts Based on Support Vector Machine
Yang Shuang(), Chen Fen
School of Economics and Management, Nanjing University of Science & Technology, Nanjing 210094, China
全文: PDF (466 KB)   HTML ( 27
输出: BibTeX | EndNote (RIS)      
摘要 

目的】为更精确地识别网民态度, 监测网络舆情, 提出一种基于SVM多特征融合的情感5级分类方法。【方法】从词性特征、情感特征、句式特征、语义特征4个方面, 提取动词、名词、情感词、否定词等14个特征, 运用SVM方法对微博情感进行5级分类。【结果】实验结果表明, 该方法对情感5级分类的准确率为82.40%, 召回率为81.91%, F值为82.10%。【局限】训练语料的规模有待进一步提高。【结论】该方法在情感5级分类方面取得较好的效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
杨爽
陈芬
关键词 微博情感倾向性支持向量机句法分析    
Abstract

[Objective] This paper proposes a new method based on the Support Vector Machine to monitor online public opinion. [Methods] We extracted fourteen linguistic characteristics of the micro-blog posts and analysed their sentiments with Support Vector Machine. [Results] The precision, recall and F value of the proposed method were 82.40%, 81.91%, and 82.10%, respectively. [Limitations] The size of training corpus needs to be expanded. [Conclusions] The proposed method could effectively analyze sentiments of micro-blog posts.

Key wordsMicroblog    Sentiment Analysis    Support Vector Machine    Parsing
收稿日期: 2016-08-29      出版日期: 2017-03-27
ZTFLH:  G35 TP391  
基金资助:*本文系国家自然科学基金项目“基于情感倾向性分析的网络舆情意见领袖识别与对策研究”(项目编号: 71303111)、国家自然科学基金项目“突发事件网络舆情演变过程中的人群仿真研究”(项目编号: 71273132)和国家自然科学基金项目“基于聚合的社会化短文本信息处理与细粒度倾向性分析”(项目编号: 71503126)的研究成果之一
引用本文:   
杨爽, 陈芬. 基于SVM多特征融合的微博情感多级分类研究*[J]. 数据分析与知识发现, 2017, 1(2): 73-79.
Yang Shuang,Chen Fen. Analyzing Sentiments of Micro-blog Posts Based on Support Vector Machine. Data Analysis and Knowledge Discovery, 2017, 1(2): 73-79.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.02.10      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I2/73
权重 示例 个数
2.0 百分之百、绝对、非常、超、过于…… 99
1.5 很、多么、更加、不胜…… 78
1.0 比较、较为、多多少少…… 13
0.5 稍微、略为、不怎么、不为过…… 54
  程度副词表
特征类型 含义
词性特征 微博中含有的动词数量(F1)
微博中含有的形容词数量(F2)
微博中含有的副词数量(F3)
情感特征 微博中含有的正面情感词数量(F4)
微博中含有的负向情感词数量(F5)
微博中程度副词的最高权重(F6)
微博的情感得分(F7)
句式特征 否定词的数量(F8)
感叹号的数量(F9)
问号的数量(F10)
语义特征 与情感词有关的副词性修饰语(F11)
与情感词有关的形容词性修饰语(F12)
与情感词有关的名词性主语(F13)
  特征类型及含义
  情感分类模型
类别 数量
非常正面 217
正面 1 149
中立 2 081
负面 1 239
非常负面 304
  实验数据分布
特征
情感值
F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12 F13
+2 1: 2 2: 0 3: 2 4: 2 5: 0 6: 2.0 7: 4.0 8: 0 9: 3 10: 0 11: 1 12: 0 13: 1
+1 1: 4 2: 2 3: 3 4: 3 5: 0 6: 0.0 7: 1.0 8: 0 9: 1 10: 0 11: 0 12: 2 13: 2
-2 1: 2 2: 2 3: 0 4: 0 5: 2 6: 2.0 7: -4.0 8: 1 9: 0 10: 1 11: 2 12: 0 13: 0
-1 1: 3 2: 5 3: 3 4: 1 5: 4 6: 1.0 7: -2.0 8: 3 9: 0 10: 6 11: 1 12: 3 13: 0
0 1: 3 2: 2 3: 3 4: 1 5: 0 6: 0 7: 1.0 8: 2 9: 1 10: 1 11: 2 12: 3 13: 0
  部分特征提取结果
实验 特征组合 准确率
1 词性 57.60%
2 词性+情感词 80.93%
3 词性+情感词+程度副词权重 81.76%
4 词性+情感词+程度副词权重+情感得分 81.95%
5 词性+情感词+程度副词权重+情感得分+
否定词
82.14%
6 词性+情感词+程度副词权重+情感得分+
否定词+问号和感叹号
82.22%
7 词性+情感词+程度副词权重+情感得分+
否定词+问号和感叹号+语义特征
82.40%
  不同特征组合实验结果
方法 准确率 召回率 F1值
本文方法 82.40% 81.91% 82.10%
层叠CRFs方法 75.31% 73.30% 74.30%
  对比实验结果
[1] 王雪猛, 王玉平. 基于情感倾向分析的突发事件网络舆情预警研究[J]. 西南科技大学学报: 哲学社会科学版, 2016, 33(1): 63-66.
doi: 10.3969/j.issn.51-1660/C.2016.01.011
[1] (Wang Xuemeng, Wang Yuping.Research of Emergency Network Public Sentiment Warning Based on the Analysis of Emotional Tendency[J]. Journal of Southwest University of Science and Technology: Philosophy and Social Science Edition, 2016, 33(1): 63-66.)
doi: 10.3969/j.issn.51-1660/C.2016.01.011
[2] Kamps J, Marx M, Mokken R J, et al.Using WordNet to Measure Semantic Orientations of Adjectives[C]// Proceedings of the 4th International Conference on Language Resources and Evaluation. 2004.
[3] Shen Y, Li S, Zheng L, et al.Emotion Mining Research on Micro-blog[C]// Proceedings of the 1st IEEE Symposium on Web Society. 2009.
[4] 郑诚, 杨希, 张吉赓. 结合情感词典与规则的微博情感极性分类方法[J]. 电脑知识与技术, 2014, 10(13): 3111-3113.
[4] (Zheng Cheng, Yang Xi, Zhang Jigeng.Micro-blog Sentiment Analysis of Combined Sentiment Dictionary and Rules[J]. Computer Knowledge and Technology, 2014, 10(13): 3111-3113.)
[5] 张阳, 刘晓霞, 孙凯龙, 等. 基于情感描述项的文本倾向性识别研究[J]. 计算机工程与应用, 2015, 51(4): 158-161, 195.
doi: 10.3778/j.issn.1002-8331.1304-0321
[5] (Zhang Yang, Liu Xiaoxia, Sun Kailong, et al.Research on Text Orientation Identification Based on Emotional Description Item[J]. Computer Engineering and Applications, 2015, 51(4): 158-161, 195.)
doi: 10.3778/j.issn.1002-8331.1304-0321
[6] Pang B, Lee L, Vaithyanathan S.Thumbs up? Sentiment Classification Using Machine Learning Techniques[C]// Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing. 2002.
[7] Borbosa L, Feng J.Robust Sentiment Detection on Twitter from Biased and Noisy Data [C]//Proceedings of the 23rd International Conference on Computational Linguistics. Beijing: Tsinghua University Press. 2010.
[8] Davidov D, Tsur O, Rappoport A.Enhanced Sentiment Learning Using Twitter Hashtags and Smileys[C]// Proceedings of the 23rd International Conference on Computational Linguistics: Posters, 2010: 241-249.
[9] 夏梦南, 杜永萍, 左本欣. 基于依存分析与特征组合的微博情感分析[J]. 山东大学学报: 理学版, 2014, 49(11): 22-30.
doi: 10.6040/j.issn.1671-9352.3.2014.074
[9] (Xia Mengnan, Du Yongping, Zuo Benxin.Micro-blog Opinion Analysis Based on Syntactic Dependency and Feature Combination[J]. Journal of Shandong University: Natural Science, 2014, 49(11): 22-30.)
doi: 10.6040/j.issn.1671-9352.3.2014.074
[10] Ding S, Jiang T, Wen N.Research on Sentiment Orientation of Product Reviews in Chinese Based on Cascaded CRFs Models[C]//Proceeding of the 2012 International Conference on Machine Learning and Cybernetics (ICMLC 2012). IEEE, 2012.
[11] 魏晶晶, 吴晓吟. 电子商务产品评论多级情感分析的研究与实现[J]. 软件, 2013, 34(9): 65-67, 94.
doi: 10.3969/j.issn.1003-6970.2013.09.020
[11] (Wei Jingjing, Wu Xiaoyin.Research on Multi-level Sentiment Analysis System of E-Commerce Product Review and Implementation[J]. Software, 2013, 34(9): 65-67, 94.)
doi: 10.3969/j.issn.1003-6970.2013.09.020
[12] 廖健, 王素格, 李德玉, 等. 基于观点袋模型的汽车评论情感极性分类[J]. 中文信息学报, 2015, 29(3): 113-120.
[12] (Liao Jian, Wang Suge, Li Deyu, et al.The Bag-of-Opinions Method for Car Review Sentiment Polarity Classification[J]. Journal of Chinese Information Processing, 2015, 29(3): 113-120.)
[13] Word2Vec [EB/OL]. [2015-01-12]. .
[14] Liu Z, Yu W, Chen W, et al.Short Text Feature Selection for Micro-blog Mining[C]//Proceedings of the 2010 International Conference on Computational Intelligence and Software Engineering. IEEE, 2010.
[15] 吴明芬, 陈涛. 基于SVM的以词性和依存关系为特征的句子倾向性判断分析[J]. 五邑大学学报: 自然科学版, 2012, 26(4): 66-71.
doi: 10.3969/j.issn.1006-7302.2012.04.015
[15] (Wu Mingfen, Chen Tao.Sentences Tendency Judgement by POS and Dependency Based on SVM[J]. Journal of Wuyi University: Natural Science Edition, 2012: 26(4): 66-71.)
doi: 10.3969/j.issn.1006-7302.2012.04.015
[16] 刘海涛. 依存语法的理论与实践[M].北京: 科学出版社, 2009.
[16] (Liu Haitao.Dependency Grammar: From Theory to Practice [M]. Beijing: Science Press, 2009.)
[17] Stanford Parser [EB/OL]. [2015-06-16]. .
[18] 彭玥. 基于文本倾向性的网络意见领袖识别[D]. 南京: 南京理工大学, 2014.
[18] (Peng Yue.Internet Opinion Leader Detection Based on Text Sentiment Analysis [D]. Nanjing: Nanjing University of Science and Technology, 2014.)
[19] NLPIR/ICTCLAS [EB/OL]. [2015-12-02]. .
[20] LibSVM [EB/OL]. [2015-07-12].https://www.csie.ntu.edu.tw/~cjlin/libsvm/.
[1] 邱尔丽,何鸿魏,易成岐,李慧颖. 基于字符级CNN技术的公共政策网民支持度研究 *[J]. 数据分析与知识发现, 2020, 4(7): 28-37.
[2] 李铁军,颜端武,杨雄飞. 基于情感加权关联规则的微博推荐研究*[J]. 数据分析与知识发现, 2020, 4(4): 27-33.
[3] 梁艳平,安璐,刘静. 同类突发公共卫生事件微博话题共振研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 122-133.
[4] 徐月梅,刘韫文,蔡连侨. 基于深度融合特征的政务微博转发规模预测模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 18-28.
[5] 丁晟春,俞沣洋,李真. 网络舆情潜在热点主题识别研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 29-38.
[6] 龚丽娟,王昊,张紫玄,朱立平. Word2Vec对海关报关商品文本特征降维效果分析*[J]. 数据分析与知识发现, 2020, 4(2/3): 89-100.
[7] 李博诚,张云秋,杨铠西. 面向微博商品评论的情感标签抽取研究 *[J]. 数据分析与知识发现, 2019, 3(9): 115-123.
[8] 秦贺然,刘浏,李斌,王东波. 融入实体特征的典籍自动分类研究 *[J]. 数据分析与知识发现, 2019, 3(9): 68-76.
[9] 王若佳,张璐,王继民. 基于机器学习的在线问诊平台智能分诊研究[J]. 数据分析与知识发现, 2019, 3(9): 88-97.
[10] 李纲,周华阳,毛进,陈思菁. 基于机器学习的社交媒体用户分类研究 *[J]. 数据分析与知识发现, 2019, 3(8): 1-9.
[11] 曾庆田,戴明弟,李超,段华,赵中英. 轨迹数据融合用户表示方法的重要位置发现*[J]. 数据分析与知识发现, 2019, 3(6): 75-82.
[12] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[13] 安璐,梁艳平. 突发公共卫生事件微博话题与用户行为选择研究*[J]. 数据分析与知识发现, 2019, 3(4): 33-41.
[14] 赵明清,武圣强. 基于微博情感分析的股市加权预测方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 43-51.
[15] 张智雄,刘欢,丁良萍,吴朋民,于改红. 不同深度学习模型的科技论文摘要语步识别效果对比研究 *[J]. 数据分析与知识发现, 2019, 3(12): 1-9.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn