Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (3): 46-53     https://doi.org/10.11925/infotech.2096-3467.2017.03.06
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
结合话题相关性的热点话题情感倾向研究*
何跃, 肖敏(), 张月
四川大学商学院 成都 610064
Sentiment Analysis of Trending Topics Based on Relevance
He Yue, Xiao Min(), Zhang Yue
Business School, Sichuan University, Chengdu 610064, China
全文: PDF (641 KB)   HTML ( 20
输出: BibTeX | EndNote (RIS)      
摘要 

目的】热点话题具有很大的影响力,针对热点话题及其情感对象的情感倾向进行相关研究。【方法】提出一个结合话题相关性的主客观分类模型, 帮助抽取与热点话题相关的主观微博; 利用基于机器学习改进的情感分类方法对抽取博文的情感极性进行分析; 通过召回率、准确率、F值对情感分类效果进行详细评估。【结果】实证分析结果表明, 结合话题相关性有效提升了热点话题微博主客观分类和情感极性分类效果, 其中F值分别提升7.4%和2.2%。【局限】待需深入考虑数据的分布状态、情感分类粒度细化、情感对象的情感趋势变化等。【结论】考虑话题相关性, 提升微博情感分类的效果, 并通过抽取热点话题中关键情感对象的情感倾向, 为微博精准营销提供相关情报信息。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
何跃
肖敏
张月
关键词 热点话题主客观分类情感倾向分类TF-IDF-SIM机器学习    
Abstract

[Objective] This paper tries to effectively analyze the sentiment of trending topics with machine learning techniques. [Methods] First, we proposed a new classification model based on trending topic relevance to extract subjective microblog posts. Second, we analyzed sentiment tendency with an improved machine learning method. [Results] We found that the modified model improved the subjective-objective classification of trending topics. The F-measures were increased by 7.4% and 2.2% respectively. [Limitations] More research is needed to study the distribution of data, the particle of emotion and the changes of sentiment trends. [Conclusions] Adding topic relevance factor to the model could improve the performance of sentiment analysis of micro-blog posts, and extract tendency of key objects from the trending topics, which provides intelligence for micro-blog marketing.

Key wordsTrending Topic    Subjective-Objective Classification    Emotion Orientation Classification    TF-IDF-SIM    Machine Learning
收稿日期: 2016-10-17      出版日期: 2017-04-20
ZTFLH:  G350  
基金资助:*本文系四川大学中央高校基本科研业务费项目“基于中文微博的负面情绪预警研究”(项目编号: skqy201406)的研究成果之一
引用本文:   
何跃, 肖敏, 张月. 结合话题相关性的热点话题情感倾向研究*[J]. 数据分析与知识发现, 2017, 1(3): 46-53.
He Yue,Xiao Min,Zhang Yue. Sentiment Analysis of Trending Topics Based on Relevance. Data Analysis and Knowledge Discovery, 2017, 1(3): 46-53.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.03.06      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I3/46
对比项 特征 取值
常用的五
维分类
特征
是否含有情感词 0, 1
是否含有感叹号 0, 1
是否含有问号 0, 1
是否含有主张词 0, 1
是否含有程度副词 0, 1
张想[19]
入的三维
新特征
是否含有代词或名词 0, 1
微博句子数目 Real
微博所含词的个数 Real
  八维主客观分类特征[19]
特征类型 特征内容 描述 特征取值
表情符号 情感表情
符号个数
新浪微博默认表情类 Real
情感词 情感词出
现个数
HowNet情感分析用词语集 Real
网络用语 网络用语词
出现个数
人工收集的网络用语词典,
含褒义词和贬义词
Real
否定词 是否出现
否定词
是否情感词前面存在否定词(否定词23个, 来源是HowNet词典) 0, 1
程度副词 是否含有
程度副词
HowNet词典中的程度词词典 0, 1
语气词 是否含有
语气词
“呀”、“啦”、“呢”、“吧”、
“啊”等25个语气词
0, 1
  主客观文本分类特征
特征类型 特征内容 描述 特征
取值
正面表情
符号
正面表情
符号个数
新浪微博默
认表情类
Real
负面表情
符号
负面表情
符号个数
新浪微博默
认表情类
Real
正面情感词 正面情感词
个数
HowNet中的
正面情感词
Real
负面情感词 负面情感词
个数
HowNet中的
负面情感词
Real
正面网络
用语
正面网络用语
词个数
褒义的网络
用语词典
Real
负面网络
用语
负面网络用语
词个数
贬义的网络
用语词典
Real
否定词 是否出现
否定词
是否情感词前面
存在否定词(情感
词前3个词之内)
0, 1
程度副词 是否含有
程度副词
HowNet词典中的
程度词词典
0, 1
语气词 是否含有
语气词
“呀”、“啦”、“呢”、
“吧”、“啊”等25个
0, 1
转折词 是否含有
转折词
“但是”、“可是”、“然
而”等7个常用词
0, 1
  情感极性分类特征
  结合话题相关性的主客观分类模型
情感极性 主观且相关 其余
正面 负面 主观且无关 客观且相关 客观且无关
合计 38 022 24 598 10 596 11 071 4 284
62 620 10 596 15 355
  分类标记结果(单位:条)
对比项 数量/条 准确率
(%)
召回率(%) F值(%)
SVM分类 主观文本 话题相关 53 356 82.5 89.3 85.8
话题无关 10 127 76.7 93.3 84.2
客观文本 话题相关 15 365 68.5 73.8 71.1
话题无关 9 723 53.9 55.6 54.7
Logistic回归 话题相关
且主观文本
53 285 83.6 89.0 86.2
  主客观文本分类结果
对比项 主观(%) 客观(%) 总体(%)
准确率 召回率 F值 准确率 召回率 F值 F值
未加话题相关性分类子模型 76.8 94.1 84.6 66.6 42.1 51.6 72.3
加入话题相关性分类子模型 88.2 92.3 90.2 81.5 53.8 66.8 79.7
  是否加入话题相关性分类子模型对热点话题主客观文本分类的影响
对比项 情感倾向 数量(条) 准确率(%) 召回率(%) F值(%)
改进前 正面倾向 34 479 80.5 87.6 83.9
负面倾向 18 806 73.2 79.1 76.0
改进后 正面倾向 33 941 84.3 90.3 87.2
负面倾向 19 344 79.8 77.6 78.7
  话题情感倾向分类结果对比
对比项 正面(%) 负面(%) 总体
准确率 召回率 F值 准确率 召回率 F值 F值
未加结合话题相关性的主客观分类模型 81.5 92 86.4 67.9 82.8 74.6 81.7
加入结合话题相关性的主客观分类模型 84.3 90.3 87.2 79.8 77.6 78.7 83.9
  是否加入结合话题相关性的主客观分类模型对情感倾向分类的影响
对比项 Hashtag 冯小刚 私人订制 小故事 葛优
正面情感数量(条) 13 526 7 158 2 330 417 532
负面情感数量(条) 7 945 4 415 3 052 508 365
  情感对象及其情感倾向
[1] 陈国兰. 基于情感词典与语义规则的微博情感分析[J]. 情报探索, 2016(2): 1-6.
doi: 10.3969/j.issn.1005-8095.2016.02.001
[1] (Chen Guolan.Microbiog Sentiment Analysis Basing on Emotion Dictionary and Semantic Rule[J]. Information Research, 2016(2): 1-6.)
doi: 10.3969/j.issn.1005-8095.2016.02.001
[2] 桂斌, 杨小平, 张中夏, 等. 基于微博表情符号的情感词典构建研究[J]. 北京理工大学学报, 2014, 34(5): 537-541.
[2] (Gui Bin, Yang Xiaoping, Zhang Zhongxia, et al.Research on Building Lexicon for Sentiment Analysis Based on the Chinese Microblogging Smiley[J]. Transactions of Beijing Institute of Technology, 2014, 34(5): 537-541.)
[3] Bravo-Marquez F, Frank E, Pfahringer B.Building a Twitter Opinion Lexicon from Automatically-annotated Tweets[J]. Knowledge-Based Systems, 2016, 108(SI). DOI: 10.1016/j.knosys.2016.05.018.
doi: 10.1016/j.knosys.2016.05.018
[4] 宁慧, 杨松, 赵勇, 等. 基于语义特征的微博情感分析研究[J]. 应用科技, 2016, 43(3): 70-74.
doi: 10.11991/yykj.201506036
[4] (Ning Hui, Yang Song, Zhao Yong, et al.Study of Microblog Sentiment Analysis Based on Semantic Feature[J]. Applied Science and Technology, 2016, 43(3): 70-74.)
doi: 10.11991/yykj.201506036
[5] Zhou Z, Zhang X, Sanderson M.Sentiment Analysis on Twitter Through Topic-Based Lexicon Expansion[A]// Databases Theory and Applications[M]. Springer International Publishing, 2014:98-109.
[6] Saif H, Fernandez M, He Y, et al.SentiCircles for Contextual and Conceptual Semantic Sentiment Analysis of Twitter[A]// The Semantic Web: Trends and Challenges[M]. Springer, Cham, 2014: 83-98.
[7] Saif H, He Y, Fernandez M, et al.Adapting Sentiment Lexicons Using Contextual Semantics for Sentiment Analysis of Twitter[A]// The Semantic Web: ESWC 2014 Satellite Events[M]. Springer, Cham, 2014: 54-63.
[8] Saif H, He Y, Fernandez M, et al.Contextual Semantics for Sentiment Analysis of Twitter[J]. Information Processing & Management, 2015, 52(1): 5-19.
doi: 10.1016/j.ipm.2015.01.005
[9] Saif H, Fernandez M, Kastler L, et al.A Linked Open Data Approach for Sentiment Lexicon Adaptation[C]// Proceedings of the 15th International Semantic Web Conference. 2016.
[10] Zhao J, Cao X.Combining Semantic and Prior Polarity for Boosting Twitter Sentiment Analysis[C]//Proceedings of the 2015 IEEE International Conference on Smart City/ Socialcom/Sustaincom. IEEE, 2015:832-837.
[11] Le B, Nguyen H.Twitter Sentiment Analysis Using Machine Learning Techniques[A]// Advanced Computational Methods for Knowledge Engineering [M]. Springer International Publishing, 2015: 279-289.
[12] Qasem M, Thulasiram R, Thulasiram P.Twitter Sentiment Classification Using Machine Learning Techniques for Stock Markets[C]//Proceedings of the 2015 International Conference on Advances in Computing, Communications and Informatics. IEEE, 2015.
[13] Palguna D, Joshi V, Chakaravarthy V, et al.Analysis of Sampling Algorithms for Twitter[C]// Proceedings of the 24th International Joint Conference on Artificial Intelligence. AAAI Press, 2015.
[14] Song K, Feng S, Gao W, et al.Personalized Sentiment Classification Based on Latent Individuality of Microblog Users[C]// Proceedings of the 24th International Joint Conference on Artificial Intelligence. AAAI Press, 2015.
[15] Abdelwahab O, Bahgat M, Lowrance C J, et al.Effect of Training Set Size on SVM and Naive Bayes for Twitter Sentiment Analysis[C]// Proceedings of the IEEE International Symposium on Signal Processing and Information Technology. 2015: 46-51.
[16] Saif H, He Y, Alani H, et al.On Stopwords, Filtering and Data Sparsity for Sentiment Analysis of Twitter[C]// Proceedings of the 9th International Conference on Language Resources and Evaluation. 2014.
[17] Ah-Pine J, Morales E P S. A Study of Synthetic Oversampling for Twitter Imbalanced Sentiment Analysis[C]// Proceedings of the Workshop on Interactions Between Data Mining and Natural Language Processing. 2016.
[18] Sabariah M K, Effendy V.Sentiment Analysis on Twitter Using the Combination of Lexicon-based and Support Vector Machine for Assessing the Performance of a Television Program[C]//Proceedings of the International Conference on Information and Communication Technology. 2015.
[19] 张想. 面向热点话题型微博的情感分析研究[D]. 哈尔滨: 哈尔滨工业大学, 2013.
[19] (Zhang Xiang.Research on Sentiment Analysis for Hot Topic Microblog[D]. Harbin: Harbin Institute of Technology, 2013.)
[20] 吴青林, 王焱. 中文微博情感特征选择方法研究[J]. 内蒙古师大学报: 自然汉文版, 2016, 45(1): 84-88.
doi: 10.3969/j.issn.1671-5896.2010.06.011
[20] (Wu Qinglin, Wang Yan.Research on the Emotional Feature Selection Method in the Chinese Microblog[J]. Journal of Inner Mongolia Normal University: Natural Science Edition, 2016, 45(1): 84-88.)
doi: 10.3969/j.issn.1671-5896.2010.06.011
[20] 田久乐, 赵蔚. 基于同义词词林的词语相似度计算方法[J]. 吉林大学学报: 信息科学版, 2010, 28(6): 602-608.
doi: 10.3969/j.issn.1671-5896.2010.06.011
[20] (Tian Jiule, Zhao Wei.Words Similarity Algorithm Based on Tongyici Cilin in Semantic Web Adaptive Learning System[J]. Journal of Jilin University: Information Science Edition, 2010, 28(6): 602-608.)
doi: 10.3969/j.issn.1671-5896.2010.06.011
[1] 陈东,王建冬,李慧颖,蔡思航,黄倩倩,易成岐,曹攀. 融合机器学习算法和多因素的禽肉交易量预测方法研究 *[J]. 数据分析与知识发现, 2020, 4(7): 18-27.
[2] 梁野,李小元,许航,胡伊然. CLOpin:一种面向舆情分析与预警领域的跨语言知识图谱架构*[J]. 数据分析与知识发现, 2020, 4(6): 1-14.
[3] 杨恒,王思丽,祝忠明,刘巍,王楠. 基于并行协同过滤算法的领域知识推荐模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 15-21.
[4] 王若佳,张璐,王继民. 基于机器学习的在线问诊平台智能分诊研究[J]. 数据分析与知识发现, 2019, 3(9): 88-97.
[5] 李纲,周华阳,毛进,陈思菁. 基于机器学习的社交媒体用户分类研究 *[J]. 数据分析与知识发现, 2019, 3(8): 1-9.
[6] 胡佳慧,方安,赵琬清,杨晨柳,任慧玲. 面向知识发现的中文电子病历标注方法研究 *[J]. 数据分析与知识发现, 2019, 3(7): 123-132.
[7] 张金柱,胡一鸣. 融合表示学习与机器学习的专利科学引文标题自动抽取研究*[J]. 数据分析与知识发现, 2019, 3(5): 68-76.
[8] 温廷新,李洋子,孙静霜. 基于多因素特征选择与AFOA/K-means的新闻热点发现方法*[J]. 数据分析与知识发现, 2019, 3(4): 97-106.
[9] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[10] 徐红霞,李春旺. 科技文献内容知识点抽取研究综述[J]. 数据分析与知识发现, 2019, 3(3): 14-24.
[11] 李静,潘舒笑,李雪岩,贾立静,赵宇卓. 基于多目标量子优化分类器的急诊危重患者关键指标筛选 *[J]. 数据分析与知识发现, 2019, 3(12): 101-112.
[12] 沈洋,庄伟超,吴清华,钱玲飞. 基于区间模糊VIKOR的监犯特征风险评估研究 *[J]. 数据分析与知识发现, 2019, 3(11): 70-78.
[13] 张紫玄,王昊,朱立平,邓三鸿. 中国海关HS编码风险的识别研究*[J]. 数据分析与知识发现, 2019, 3(1): 72-84.
[14] 刘丽娜,齐佳音,张镇平,曾丹. 品牌对商品在线销量的影响*——基于海量商品评论的在线声誉和品牌知名度的调节作用研究[J]. 数据分析与知识发现, 2018, 2(9): 10-21.
[15] 贾隆嘉,张邦佐. 高校网络舆情安全中主题分类方法研究*——以新浪微博数据为例[J]. 数据分析与知识发现, 2018, 2(7): 55-62.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn