数据分析与知识发现, 2020, 4(1): 1-11 doi: 10.11925/infotech.2096-3467.2019.0769

综述评介

社交媒体情境下的情感分析研究综述

谭荧,,1, 张进2, 夏立新1

1华中师范大学信息管理学院 武汉430079

2威斯康星大学密尔沃基分校信息研究院 密尔沃基 53211

A Survey of Sentiment Analysis on Social Media

Tan Ying,,1, Zhang Jin2, Xia Lixin1

1School of Information Management, Central China Normal University, Wuhan 430079, China

2School of Information Studies, University of Wisconsin-Milwaukee, Milwaukee 53211, United State

通讯作者: * 谭荧,ORCID:0000-0002-7987-4696,E-mail:tanying1219@qq.com

收稿日期: 2019-06-27   修回日期: 2019-11-5   网络出版日期: 2020-01-25

Received: 2019-06-27   Revised: 2019-11-5   Online: 2020-01-25

摘要

【目的】 调研近年来社交媒体情境下的情感分析相关研究,重点介绍情感挖掘的任务和方法。【文献范围】 利用Web of Science核心数据库检索2015年-2019年间,主题为Social Media和Sentiment Analysis的文献,并结合引文分析和浏览的方法补充文献集,共计收集163篇并引用代表性文献91篇。【方法】 针对社交媒体情境下的情感分析研究方向、技术和应用进行内容分析。【结果】 归纳10余种情感分析任务,总结适用于社交媒体平台的情感分析改进方法,并论述了这些情感分析结果的应用领域。【局限】 未深入解析情感分析算法的步骤和过程。【结论】 本文分析了情感分析研究的现有核心技术和改进方向,发现了该领域在社交媒体情境下的不同任务和挑战。

关键词: 社交媒体 ; 情感分析 ; 情感分析任务

Abstract

[Objective] This paper investigates recent researches addressing sentiment analysis on social media.[Coverage] 163 papers in total are collected and 91 articles are cited for this review, covering articles subject on social media and sentiment analysis retrieved from Web of Science Core Collection during 2015-2019, and a supplement from citation analysis and browsing.[Methods] Content analysis is used for exploring task, technology, and application of sentiment analysis on social media.[Results] A variety of sentiment analysis tasks are summarized, refine sentiment analysis techniques on social media platforms are clarified, application fields are discussed as well.[Limitations] There is no in-depth analysis of the step and procedure for the sentiment analysis algorithm.[Conclusions] The findings provide an overview of sentiment analysis study, including the state-of-the-art technique, application and challenges on social media platforms.

Keywords: Social Media ; Sentiment Analysis ; Sentiment Analysis Task

PDF (756KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

谭荧, 张进, 夏立新. 社交媒体情境下的情感分析研究综述. 数据分析与知识发现[J], 2020, 4(1): 1-11 doi:10.11925/infotech.2096-3467.2019.0769

Tan Ying. A Survey of Sentiment Analysis on Social Media. Data Analysis and Knowledge Discovery[J], 2020, 4(1): 1-11 doi:10.11925/infotech.2096-3467.2019.0769

1 引 言

越来越多的人使用社交媒体,满足信息、商业和娱乐等多个方面的需求。根据第43次中国互联网络发展状况统计报告[1],截止到2018年12月,微信朋友圈和QQ空间用户分别为6.9亿(占83.4%)和4.87亿(占58.8%)。社交媒体提供了接收新闻内容的新途径,用户可以即时参与新闻事件的传播、互动和分享。网络购物、网络金融、网络娱乐用户规模都在不断增加,这些电子商务应用提供的社交平台成为热门话题的产生和交流阵地。同时,人们还可以通过社交平台访问公共服务和政务服务。与传统媒体不同,社交媒体让用户成为内容的生产者、消费者和传播者,一方面用户能与企业和政府交流,另一方面用户能够直接相互交流。发布在社交媒体上的信息往往来自用户的真实感受和亲身体验,这些对于产品或者服务的看法,对任何企业和政府部门都是非常宝贵的资产。

社交媒体产生大量的意见数据,这些数据为理解和挖掘用户对特定主题的观点提供了机会。研究者也开始关注,社交媒体情境下人们的情感和观点问题。不少学者通过分析人们在社交平台上发表的言论,提取和预测了许多实际问题,例如产品意见、股票收益、政治选举结果等。这些研究的核心是分析用户在社交平台上表达的情感(意见),即情感分析。情感分析是一个活跃的研究领域,其动机是改善情感表达的自动识别结果。而利用社交平台上用户分享的个人意见和体验信息,进行情感分析,会产生许多有价值的研究成果。尽管许多学者致力于开发前沿的情感分析技术和应用,目前尚未有人对这些研究成果进行系统地调研和总结。因此,有必要对相关文献进行综合整理,探讨现有社交媒体情境下的情感分析相关研究成果和挑战,为后续研究提供指导方向。

通过文献收集和梳理,笔者发现目前社交媒体情境下的情感分析研究主要探讨情感分析做什么、怎么做和做了有什么作用等问题。因此,本文重点关注社交媒体情境下的情感分析任务、方法和应用三个方面。

(1)通过社交媒体能够获得什么样有价值的情感信息,即情感分析任务,由此可认识情感分析的研究方向。

(2)如何利用社交媒体数据进行情感分析,尤其适用于社交平台的情感分析常用方法,以便进行技术改进和创新。

(3)情感分析技术的应用领域有哪些,社交媒体的情感研究如何帮助解决各种商业或社会问题。

本文旨在对这些问题进行全面地调查和分析,帮助理解社交媒体情境下的情感分析相关研究。

2 研究背景

情感分析和意见挖掘这两个概念被广泛用作同义词。然而,它们的含义并不完全相同,一些学者认为每个概念都有不同的含义。因此,有必要定义一些概念来理解本文所涉及的问题。

意见可以简单地定义为,一个或多个用户对实体(例如,产品、人物、事件、组织或话题)或该实体的一个方面的积极或消极的情感、观点、态度、情绪或评价。Liu认为,意见可以在数学上被定义为5元组(ej; ajk; soijkl; hi; tl),其中ej表示目标实体并且ajk是实体ej的第k个方面或特征。soijkl是意见持有人hi在时间tl对实体ejajk方面的情感值,该值可以是正值、负值或中立,甚至可以使用更精细的评级,hi是意见持有人,而tl是表达意见的时间[2]

意见可以分为不同的类型,例如常规意见、比较意见和暗示意见。大多数意见是常规的,可以细分为直接或间接意见。直接意见表达对实体或实体方面的想法,而间接意见则基于对其他实体的影响来表达对实体或实体方面的看法。相对而言,比较意见考虑两个或多个实体共同方面或特征之间的相似性[3,4]。此外,Qazi等根据技术接受模型(Technology Acceptance Model, TAM)对亚马逊评论的统计测试,发现了第三种意见类型:暗示(Suggestive)。他们认为,暗示意见是以建议的形式指导某人做某事的语言行为[5]

除了情感和观点之外,还有两个与之密切相关的重要概念,即主观和情绪。根据Liu的观点[2],一个主观句子可以表达一些个人感受,观点或信仰;然而,客观句子并不一定意味着有任何情绪。因此,客观和主观句子之间的差异是“客观句子表达一些与世界相关的事实信息,而主观句子表达一些个人感受、观点或信仰”。然而,在表达感情、判断、欣赏、推测、认可时,主观句子在某种程度上会涉及情感。另一方面,情绪可以被看作是自己的主观感受和思想的表达。情绪的概念确实接近情感,事实上,意见强度的测量方式与某些情绪强度的测算相关,例如喜欢、高兴、惊喜、愤怒、悲伤或恐惧。

3 研究方法

为收集科学文献,采用了三种方法:数据库检索、引文分析和浏览。在Web of Science核心数据库中检索与社交网络和情感分析主题相关的期刊或会议出版物,关键词包括社交网络(例如,Twitter、Facebook、微博)和情感分析(例如,情感分析、意见挖掘)的组合,时间设置为2015年-2019年间。为补充检索结果,基于引文分析方法,评估了收集的出版物中引用的早期研究和最近发表的文献,进行第二轮手动检索。此外,笔者还浏览了信息科学和计算机科学的期刊和会议记录,其中可能会出现情感分析和社交媒体相关的研究,如:ACM信息和信息系统、IEEE知识与数据工程学报、美国信息科学与技术学会期刊、AAAI网络与社交媒体会议、计算语言学协会会议、ACM信息与知识管理会议、ACM网络搜索与数据挖掘会议、计算语言学国际会议、自然语言处理经验方法会议、国际万维网会议等,总共有超过10种期刊和会议论文集被浏览。通过这些方法确保包含社交网络和情感分析关键词的文献被纳入,以便尽可能多的相关文献被添加到回顾文献集中。虽然回顾文献集并不是详尽无遗的,但通过关键词搜索、引文分析和浏览的系统方法,已经确定了163篇广泛且具有高水平的科学论文作为本文的研究基础,并选取具有代表性的近90篇作为参考文献。

4 社交媒体情境下的情感分析任务

4.1 情感分类

情感分类,也称为情感极性分类,是情感分析中最常见的任务。它基于这样一个假设:目标文本中的意见是关于一个实体或实体的方面或属性,可以将意见简单地分为两个相反情感极性中的一个,或者将其定位在这两个情感极性之间的连续变量上进行测算[6]。因此,情感分三个主要类别:积极、消极或中立。为表达情感的强度,可以使用不同的测度,例如,常用的测量范围为[-1,1],其中-1表示最大负面情绪,1表示最大正面情绪,0表示中立态度[7,8]。还有些研究将情感评级分为5级,设定0为最大消极,4为最大积极情绪[9]。但是,Thelwall等认为积极和消极的情绪可以共存,并提出了同时测量两个情绪极性的算法,也就是说,对一个句子的情感分类结果中同时存在积极和消极两个数值表达情感强度[10]

4.2 情绪分析

情感心理学研究认为,尽管积极和消极是重要的情感维度,但是仍然存在许多其他的情绪类型和情感强度测量准则,正向和负向极性并不能满足情感分类的需求[11]。这类对情感类型进行细分的分类任务,也被叫做情绪分析。Bollen等根据心理学上测量心情的情绪状态量表(Profile of Mood States),用紧张、抑郁、愤怒、活力、疲劳和困惑6个维度,分析了公众情绪[12]。另一项研究根据普拉奇克的情绪发展心理学理论[13],将愤怒、恐惧、悲伤、厌恶、惊讶、期待、信任和快乐8种情绪映射为4个情感极性对,辨析了Twitter用户在重大事件上的情绪变化[14]

4.3 情感时序分析

时间也是情感分析问题定义的一个重要维度[2]。随着时间的推移,人们可能会坚持或者改变他们的想法,甚至提出新的观点。因此,预测未来意见或者事件在情感分析中很重要。该任务需要判定文本所表达的情感分类,并根据时间序列对情感的变化趋势进行识别和预测,非常类似情感预测[15]。一项研究根据时间序列将Twitter话题分为热门话题高峰期、高峰前期、高峰后期等不同时间段测试话题讨论量,证实了Twitter话题的热度和积极、消极情感强度之间的关系[16]

4.4 主观检测

主观检测的任务在于检测给定句子是否具有主观性。客观句子表达事实信息,而主观句子可表达个人的想法,如意见、评价、情感和信仰,这些句子可以蕴含积极或消极的情绪,但客观句子没有。该任务可视为情感分类的前期步骤,良好的主观性检测可以确保更有效的情感分类[17]。判断句子的主观性,甚至被认为是一个比区分积极、消极或中立情绪更困难的过程[18]

4.5 意见摘要

Beineke等在分析“烂番茄”影评时,为简明扼要地表达评论者对电影评价的关键方面,提出了意见摘要的概念[19]。它与文本摘要的任务相似,但更侧重于提取在一个或多个文本中普遍提及的实体特征以及与其相关的情绪。因此,意见摘要任务可以分为两方面:单文本和多文本意见摘要。单文本意见摘要包括分析文本中存在的事实,例如,文本中情感方向的变化和发现不同实体或特征之间的链接,并且提取描述更好的文本片段[20]。另一方面,多文本意见摘要中一旦检测到实体或特征,就必须对表达那些实体或特征相关情绪的多个句子进行分组或排序,用以提取有意义的陈述。最终摘要的形式可以是文本[21]、数字[22]或者图形,描述主要实体或者特征,并以某种方式量化关于每个实体或特征的情绪[23]。例如,Hu等统计了用户评论中与每个产品特征相关的正面或负面句子的数量,通过计量这些句子的数量来提取用户评论的摘要[22]

4.6 意见检索

意见检索试图根据给定主题词查询包含意见、看法或观点的文档,这也是TREC Blog Track 2006年-2010年的主要任务[24]。在意见检索系统中,通常需要为每个文档计算两个分数:针对查询的相关性分数和关于查询的意见分数,并且最终根据组合分数对文档进行排名[25]

4.7 意见持有者提取

意见持有者提取是识别谁持有意见(或意见来源)的任务[26]。很多文本分析任务侧重于寻找更具表现力和影响力的意见,提取更多与不同人物视角相关的信息,意见持有者的识别对于区分不同角度的意见非常重要[27]。例如,“选美小姐对世界和平的看法是什么?”这句话中,意见持有人是“选美小姐”。为回答这个问题,需要同时提取文本中的意见和意见持有人。该任务基于细粒度的意见挖掘,值得注意的是,意见持有者可以是明确的(来自句子中的命名实体或名词短语),也可以是隐含的(来自发布文本的作者)[28]

4.8 讽刺和反语检测

讽刺和反语检测专注于检测包含讽刺和反语内容的陈述。发现包含讽刺和反语的句子能极大提高情感分析性能,却也是自然语言处理领域面临的最艰巨的任务之一。尤其,因为研究人员(语言学家、心理学家、计算机科学家)之间没有就如何正式定义讽刺或反语及其结构达成一致[29]。现在普遍认同的观点是,反讽句子的一个关键特征是使用积极的词语,但表达负面的意见,且与上下文情境密切相关[29,30,31]

4.9 跨领域情感分析

情感分析中的关键技术缺陷是高度依赖主题领域。也就是说,在一个领域表现很好的方法,在另一个领域中表现不佳。这个问题阻止了本可以共享的大量跨域信息。因此,一些学者已经开始研究跨领域情感分析任务以解决该问题[32,33,34]

4.10 多模态情感分析

文本一直是情感分析研究的热门主题,但是社交媒体数据的形式也并不局限于单一的文本模式。例如,用户在Twitter上发布他们的观点,常常也会伴随着Instagram上传的照片和YouTube中相关的视频。其中,仅视频社交媒体平台就提供了声音和视觉两种模态数据,因此多模态情感分析成为一个新的研究课题。研究者们试图从多模态信号中识别人们在社交多媒体平台中表达的情绪,包括视觉、音频和文本信息[35]。它可以是双模的,包括两种模态的不同组合,也可以是三种模态的组合。例如,Xu等基于合并神经网络,分别提取文本和图片的情感特征组合进行合并,得到双模情感分析模型[36]。Poria等使用文本、视觉和音频的组合特征向量训练分类器,提出了可并行的数据融合方法[37]

与情感分析相关的其他任务还包括多语言情感分析[38]、地理区域的情感监测[39]、虚假意见检测等。其中,虚假意见检测试图检测含有不受信任内容的意见或评论,这些内容会歪曲公众对事件、公司或产品的看法[40]

5 社交媒体情境下的情感分析技术

如今,伴随着自然语言处理技术的逐渐成熟,情感分析技术得到了前所未有的发展和更新,而逐个介绍每种算法的步骤和过程并非本研究关注的重点。因为已经很多研究试图调查和分析情感分析领域的前沿技术[41],他们从技术角度对情感分析常用的算法进行了详细的介绍、评估和比较,例如,自然语言处理技术[42]、机器学习[43]、深度学习[44]等。为从这些情感分析技术研究中找出共同的主题,一些学者从不同角度对它们进行了分类。Feldman将所有情感分析研究分为5类:文献级、句子级、方面级、比较情感分析和情感词表构建[45]。另一项研究归纳了情感分类技术更精细的分类标准[46],包括基于词典和机器学习方法的分类,如图1所示。本文借鉴后者的分类框架,重点探讨情感分析中的常用算法适用于社交媒体特性的改进技术,为未来的相关研究提供技术参考。

图1

图1   情感分类技术

Fig.1   Sentiment Classification Techniques


5.1 数据预处理

为找到并提取人们的观点,情感分析需要在各种社交媒体平台上进行系统性地操作,但充斥着表情、图片和URL元素的零碎信息给数据预处理过程提出了挑战。常见的问题来自于自然语言处理(如词义消岐、主题识别和共指消解等),还有用户生成的高密度噪音文本(如语法不正确、特定符号表达情感、缩写和非文本元素等)。Petz等评估了不同意见挖掘算法对各种社交媒体平台的适用性,发现文本预处理方法对意见挖掘结果中出现的错误非常敏感[47]。实际上,社交媒体数据的预处理步骤与情感分析结果密切相关。Singh等通过文本预处理过程中提取的俚语共存词,提高了Twitter情感分类的性能[48]。数据预处理任务通常包括识别和纠正拼写错误、消除单词之间的空白序列、检测句子边界、消除任意使用的标点符号和识别缩写等。数据预处理的目标是产生清洁文本以便进一步分析,但是很少的情感分析研究可以明确最优的文本预处理方案。上述研究证实,数据预处理和规范化对短文本情感分析效率存在影响,未来可以考虑从噪音、符号、缩写、习语和不明单词等方面改进数据预处理技术,从而提高情感分析效率。

5.2 基于词典的方法

该方法依赖于情感词典,即一个标注好的情感词、短语甚至习语的集合。这里构建情感词典方法可分为两类:基于字典和基于语料库的方法。前者通常以手动方式收集和注释初始情感词(种子),通过搜索字典的同义词和反义词来增加此集合。最常见的例子是SentiWordNet[49],开发自著名的词典WordNet。这种方法的主要缺点是无法结合领域特点和考虑上下文情境,但即便如此,它也给社交媒体情境下的情感极性分析提供了简单有效的解决方案。基于语料库的技术是为了提供与特定领域相关的词表。这些词表先是收集一组种子情感词,然后利用潜在语义分析等统计方法,通过搜索与种子相关的单词扩充词表。

单词的情感通常会随着它们出现的语境而变化,并且可能会遇到词典未涵盖的新单词,特别是在快速且不断变化的社交媒体环境中。因此,不少研究通过更新词典(如收集新词、添加表情元素)或动态构建单词的情感分数,从而改进情感分析结果。Saif等使用从DBpedia提取的上下文和语义信息来更新单词的加权情绪方向并向词典中添加新单词[50]。另一项研究结合名词的语义特征,使用信息增益和余弦相似性修改SentiWordNet中定义的情绪分数,从而改进情感分析性能[51]。Hung认为高质量的信息对消费者行为的影响比低质量的信息更强,将情感词典和文本质量分类的偏好向量结合,以便适用于领域的上下文信息[52]。社交媒体情境下的表情符号作为良好的自然情感标签,也被用来与单词结合强化和构建情感词典[53]

5.3 机器学习方法

机器学习方法可以分为两大类:监督和非监督学习技术。这两类方法都依赖于选择和提取用于情感分析的适当特征集。在特征集中,自然语言处理技术起着非常重要的作用,比较典型的特征包括N-gram、词性特征、情感词特征、句法模式、位置特征、概念特征和修辞特征等[54]。基于监督的学习技术中,支持向量机、朴素贝叶斯、最大熵是一些最常用的算法[55]。但由于缺乏完整标注的语料库,一些研究相继提出了半监督和无监督的学习方法[56]。此外,结合有监督和无监督技术,或者词典的混合方法,近来也被广泛应用于情感分类,甚至表现更胜于单独使用词典或者机器学习方法。例如,Er等结合词典和机器学习的混合方法,试图给用户建立个人档案,提取的个人偏好可用来分析其打字习惯和情绪波动[57]

社交媒体中的内容大多简短而紧凑,而且存在大量的个人感受和对日常生活事件的评论,这种短文加上噪声的特质会给机器学习方法带来很多困难。为比较机器学习算法在不同数据集上的性能差异,Choi等将几种机器学习算法在4种不同社交媒体(IMDB、Twitter、酒店评论和亚马逊评论)数据上进行测试,结果显示情感分析想要获得最佳性能,需满足:①训练集数据至少是数据集的2%;②最佳训练文本长度需在50-150个字符之间;③主观性较高的文档更适合用于训练集[58]。这样的结果也说明,应该根据社交媒体平台不同的特性选择更合适的算法,而不能简单地根据性能对比结果选择情感分析技术。除了根据研究目标选择相应的算法,不同机器学习算法的组合也常常用于克服现有单一机器学习算法的分类不均衡和低召回率问题。Zimbra等在对现有Twitter情感分析系统的性能评估中,发现表现最优的前4名系统中有三个使用了机器学习分类器的集合[41]。其中,BPEF(Bootstrapping Ensemble Frame)[59]结合了参数集合、不同分类器和特征集的组合,对情感分类的平均准确度均超过70%,甚至优于现有最先进深度学习方法。

深度学习方法,受大脑神经系统的启发,对自然语言处理、语音识别和计算机视觉等一系列应用产生了巨大的影响,也成功用于情感分析的研究。与机器学习不同,深度学习模型不依赖于特征提取器,因为这些特征是在训练过程中直接学习的。这项工作的主要思想是使用类似Word2Vec[60]的词嵌入工具将单词嵌入神经网络模型作为学习特征,以训练和分类情感。Shirani-Mehr基于斯坦福情感树库,调查不同深度学习模型用于电影评论的语义分析能力,结果显示深度学习网络在学习复杂决策边界时能自行提取特征并获得更高的性能[61]。证实了深度神经网络提取情感的适用性后,Panthati等使用卷积神经网络和长短记忆架构从客户评论中提取特征,结果显示相比单独的朴素贝叶斯和支持向量机分类器,这两种深度学习方法具有更好的准确性[62]。随着深度学习日益增长的研究热度,这项技术迅速用于情感分析,其表现也超过了传统方法。深度学习模型的优点是准确度高,但也存在一些明显的缺点,例如训练耗时,且无法解释最终决策的语义等。

6 社交媒体情境下的情感分析应用

6.1 医疗与健康

近年来,越来越多的用户开始在社交媒体上寻找健康信息,这些信息也被广泛用于医疗保健和心理健康问题的研究。借助社交媒体平台的丰富资源,情感分析能帮助医疗人员调查各种疾病患者的心理变化和患病程度,帮助医生和患者之间建立沟通和了解的桥梁。例如,很多研究利用现有社交媒体信息为糖尿病[63]、细胞病[64]、抑郁症和罕见病[65]患者提供诊断和治疗意见。其中,一项研究借助社交媒体的情绪分类数据,证实了压力、愤怒、恐惧等负面情绪与心脏病死亡率之间的关系[66]。Hassan等提出,观察和提取抑郁症患者在社交网络上的文字能够帮助判断患者的抑郁程度[67],类似的研究也用于识别用户的自杀倾向[68]

基于对患者观点的挖掘能力,情感分析研究也应用于改善医疗服务和预防疾病。Akay等通过收集用户论坛中积极和消极情绪,以及患者对药物治疗癌症副作用的看法,确定论坛中具有影响力用户的观点,从而为制药行业、医院和医护人员提供来自消费者的意见[69]。同时,这些感受和情绪也被用于对医疗机构和医生进行排名,帮助消费者的医疗决策[70]。不仅如此,Ali等提出分析社交媒体用户情绪的时空属性,可预测疾病爆发的位置,并通过在真实数据集上的模拟实验证实了该预测模型的可行性[71]

6.2 商业与金融

随着社交媒体的普及,分析和发现用户发布的产品潜在意见和满意度已经成为一个热门的研究课题。鉴于情感分析对于识别用户对产品的意见和喜好有重大价值[72],不少研究已经分别探讨了汽车[73]、邮政服务[74]、电视节目[75]等各类产品的用户意见挖掘方法。其中,Dragoni结合来自社交媒体中提取的用户偏好和评论网站上的主流意见,检测人们认为最“有趣”的特征,并用来产生对用户更有吸引力的广告[76]。这类研究为企业开辟了一条了解消费者需求和期望的途径,结果可用于提升品牌形象和制定营销策略,帮助企业获得竞争优势。

推荐系统被证明是在线用户应对信息过载问题的有效解决方式,也是电子商务中最强大和最受欢迎的工具之一。将情感分析整合到推荐系统中,可以克服传统推荐系统中存在的数据稀疏问题,增强推荐系统的推荐质量[77]。比如,Wu等提出了一个基于协同过滤和主题建模的概率模型,通过捕获用户的兴趣分布和不同情绪建立个性化的电影推荐系统,该系统能为网站的新老用户提供有效的电影推荐[78]

对于股票价格的预测是一个非常有吸引力的研究问题。然而,社交媒体的情绪与股票收益之间的有直接关系吗?Ho等对道琼斯股票价格和相应的雅虎财经股票留言板评论这两组数据进行了对比研究,肯定两者存在关联,且随时间而变化[79]。通过网络舆情情绪和现实交易数据的融合,Zhang等改善了现有金融市场预测结果[80]。类似的方法也用于预测美国职业橄榄球比赛[81]、原油价格[82]、汽车销售额[83]和电影票房[84]

6.3 政府与事件

与公众积极合作是改善地方政府行政服务的关键,在社交媒体上进行情感分析则是了解公众情绪和意见的重要工具。一项研究通过与当地政府的合作测试,揭示了许多有意义的公众意见,如剩余零车位的停车场提醒、找到道路上的坑洼地点和节日庆祝活动的改善建议等[85]。出于安全目的对实时社交媒体数据的检测,结果也可用于政府机构安全或情报目的,例如,对世界各地发生的伊斯兰国恐怖主义袭击事件相关文本的情感检测,能帮助发现恐怖分子社交账户、提供机密信息[86]。还有研究将社交媒体情感分析结果作为传统离线民意调查的补充数据,用来监测选举活动,并对选举结果进行预测[87]。此外,提取社交媒体中的仇恨言论和相应的情绪,并结合犯罪心理学知识,能帮助在现实世界中侦破案件[88]

另一个重要的课题是将情感分析应用于重大事件的研究。例如,极端事件或者灾难事件的公众情绪检测,能帮助相应机构适当安抚和管理公众情绪。不仅如此,将情感分析用于在社交媒体上数据流中的突发事件检测,能大大提高事件检测速度和检测准度[89]。时序情感分析对于识别情绪和事件之间的因果关系非常有用,也可以用于事件预测[90]

不可否认的事实是,社交媒体搭档情感分析技术在众多应用领域都有非常重要的研究价值。除了上述几个方面,情感分析也被广泛应用于社会学、心理学、传播学和教育学等学术研究。一项很有趣的研究是,根据电视谈话节目的主持人发布的Twitter内容,利用情绪分析判断这些脱口秀主持人的个人偏见,从而研究媒体集团对大众意见的影响[91]

7 结 语

本文通过关键词搜索、引文分析和浏览的系统方法,收集了社交网络情境下的情感分析主题相关的出版物。通过对这些文献的综合分析和归纳,概述了现有社交网络中的情感分析任务、技术和相关应用。将现有在社交媒体上进行情感分析的研究方向进行分类,总结了包括情感分类、情绪分析、情感时序分析、主观检测、意见摘要、意见持有者提取、讽刺和反讽识别、跨领域情感分析和多模态情感分析等十几种情感分析任务。此外,探讨了情感分析适用于社交媒体特性的改进技术,分别基于数据预处理、基于词典的方法、机器学习和深度学习方法分析现有情感分析技术的主要特征和适用于社交媒体平台的技术改进方向。最后,讨论了现有社交媒体情境下的情感分析应用领域,包括医疗与健康、商业与金融、政府与事件等。情感分析技术正在经历前所未有的发展和更新,本文并未详细介绍这些情感挖掘算法的步骤和过程。总的来说,这篇综述为社交媒体情境下的情感分析主题研究提供了深度总结和诠释。

作者贡献声明

张进:提出研究思路,设计研究方案;

谭荧:收集和分析文献,论文起草;

夏立新:论文修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail:tanying1219@qq.com。

[1] 谭荧.references.xlsx.回顾文献集.

参考文献

CNNIC.

第43次中国互联网络发展状况统计报告

[R]. 中国互联网络信息中心, 2018.

[本文引用: 1]

( CNNIC.

The Report of the 43th China Internet Development Statistics

[R]. InformationCenter of the China Internet Network, 2018.)

[本文引用: 1]

Liu B.

Sentiment Analysis and Subjectivity

[C]. In: Handbook of Natural Language Processing, 2010: 627-666.

[本文引用: 3]

Jindal N, Liu B.

Identifying Comparative Sentences in Text Documents

[C]//Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2006: 244-251.

[本文引用: 1]

Jindal N, Liu B.

Mining Comparative Sentences and Relations

[C]// Proceedings of the 21st National Conference on Artificial Intelligence. 2006: 1331-1336.

[本文引用: 1]

Qazi A, Raj R G, Tahir M , et al.

A Preliminary Investigation of User Perception and Behavioral Intention for Different Review Types: Customers and Designers Perspective

[J]. The Scientific World Journal, 2014: Article No. 872929.

[本文引用: 1]

Pang B, Lee L .

Opinion Mining and Sentiment Analysis

[J]. Foundations and Trends in Information Retrieval, 2008,2(1-2):1-135.

[本文引用: 1]

Li S T, Tsai F C .

A Fuzzy Conceptualization Model for Text Mining with Application in Opinion Polarity Classification

[J]. Knowledge-Based Systems, 2013,39:23-33.

[本文引用: 1]

Martín-Valdivia M T, Martínez-Cámara E, Perea-Ortega J M , et al.

Sentiment Polarity Detection in Spanish Reviews Combining Supervised and Unsupervised Approaches

[J]. Expert Systems with Applications, 2013,40(10):3934-3942.

[本文引用: 1]

Socher R, Perelygin A, Wu J Y, et al.

Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank

[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. 2013: 1631-1642.

[本文引用: 1]

Thelwall M, Buckley K, Paltoglou G .

Sentiment Strength Detection for the Social Web

[J]. Journal of the American Society for Information Science and Technology, 2012,63(1):163-173.

[本文引用: 1]

Cornelius R R .

The Science of Emotion: Research and Tradition in the Psychology of Emotions

[M]. US: Prentice-Hall, 1996.

[本文引用: 1]

Bollen J, Mao H, Pepe A.

Modeling Public Mood and Emotion: Twitter Sentiment and Socio-Economic Phenomena Johan

[C]// Proceedings of the 5th International AAAI Conference on Weblogs and Social Media. 2011: 450-453.

[本文引用: 1]

Plutchik R .

A General Psychoevolutionary Theory of Emaotion[A]//Plutchik R, Kellerman H. Theories of Emotion

[M]. 1980: 3-33.

[本文引用: 1]

Wang C, Wang D, Feng S, et al.

An Approach of Fuzzy Relation Equation and Fuzzy-rough Set for Multi-label Emotion Intensity Analysis

[C]// Proceedings of the 2016 International Conference on Database Systems for Advanced Applications. Springer, 2016: 65-80.

[本文引用: 1]

Li L, Wu Y, Zhang Y , et al.

Time+User Dual Attention Based Sentiment Prediction for Multiple Social Network Texts with Time Series

[J]. IEEE Access, 2019,7:17644-17653.

[本文引用: 1]

Thelwall M, Buckley K, Paltoglou G .

Sentiment in Twitter Events

[J]. Journal of the American Society for Information Science and Technology, 2011,62(2):406-418.

[本文引用: 1]

Raaijmakers S, Kraaij W.

A Shallow Approach to Subjectivity Classification

[C]// Proceedings of the 2008 International AAAI Conference on Weblogs and Social Media. 2008: 216-217.

[本文引用: 1]

Montoyo A, Martínez-Barco P, Balahur A .

Subjectivity and Sentiment Analysis: An Overview of the Current State of the Area and Envisaged Developments

[J]. Decision Support Systems, 2012,53(4):675-679.

[本文引用: 1]

Beineke P, Hastie T, Manning C, et al.

Exploring Sentiment Summarization

[C]// Proceedings of the AAAI Spring Symposium on Exploring Attitude and Affect in Text Theories and Applications. 2004,7:12-15.

[本文引用: 1]

Pang B, Lee L.

A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts

[C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. USA: Association for Computational Linguistics, 2004.

[本文引用: 1]

Wang D, Zhu S, Li T .

SumView: A Web-based Engine for Summarizing Product Reviews and Customer Opinions

[J]. Expert Systems with Applications, 2013,40(1):27-33.

[本文引用: 1]

Hu M, Liu B.

Mining and Summarizing Customer Reviews

[C]// Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM, 2004: 168-177.

[本文引用: 2]

Jalaja G, Kavitha C .

Sentiment Analysis for Text Extracted from Twitter[A]// Krishna A N, Srikantaiah K C, Naveena C. Integrated Intelligent Computing, Communication and Security

[M]. Springer, 2019: 693-700.

[本文引用: 1]

He B, Macdonald C, He J, et al.

An Effective Statistical Approach to Blog Post Opinion Retrieval

[C]// Proceedings of the 17th ACM Conference on Information and Knowledge Management. ACM, 2008: 1063-1072.

[本文引用: 1]

Guo L, Wan X .

Exploiting Syntactic and Semantic Relationships Between Terms for Opinion Retrieval

[J]. Journal of the American Society for Information Science and Technology, 2012,63(11):2269-2282.

[本文引用: 1]

Liu B.

Sentiment Analysis: Mining Opinions, Sentiments, and Emotions

[M]. Cambridge University Press, 2015.

[本文引用: 1]

Seki Y, Kando N, Aono M .

Multilingual Opinion Holder Identification Using Author and Authority Viewpoints

[J]. Information Processing and Management, 2009,45(2):189-199.

[本文引用: 1]

Yang B, Cardie C.

Joint Inference for Fine-grained Opinion Extraction

[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. 2013,1:1640-1649.

[本文引用: 1]

Filatova E.

Irony and Sarcasm: Corpus Generation and Analysis Using Crowdsourcing

[C]// Proceedings of the 8th Edition of the Language Resources and Evaluation Conferences. 2012: 392-398.

[本文引用: 2]

Reyes A, Rosso P, Buscaldi D .

From Humor Recognition to Irony Detection: The Figurative Language of Social Media

[J]. Data and Knowledge Engineering, 2012,74:1-12.

[本文引用: 1]

Reyes A, Rosso P .

Making Objective Decisions from Subjective Data: Detecting Irony in Customer Reviews

[J]. Decision Support Systems, 2012,53(4):754-760.

[本文引用: 1]

Pan S J, Ni X, Sun JT, et al.

Cross-domain Sentiment Classification via Spectral Feature Alignment

[C]// Proceedings of the 19th International Conference on World Wide Web. ACM, 2010: 751-760.

[本文引用: 1]

Bollegala D, Mu T, Goulermas J Y .

Cross-Domain Sentiment Classification Using Sentiment Sensitive Embeddings

[J]. IEEE Transactions on Knowledge and Data Engineering, 2015,28(2):398-410.

[本文引用: 1]

Al-Moslmi T, Omar N, Abdullah S , et al.

Approaches to Cross-Domain Sentiment Analysis: A Systematic Literature Review

[J]. IEEE Access, 2017,5:16173-16192.

[本文引用: 1]

Soleymani M, Garcia D, Jou B , et al.

A Survey of Multimodal Sentiment Analysis

[J]. Image and Vision Computing, 2017,65:3-14.

[本文引用: 1]

Xu N, Mao W.

A Residual Merged Neutral Network for Multimodal Sentiment Analysis

[C]// Proceedings of the IEEE 2nd International Conference on Big Data Analysis. 2017: 6-10.

[本文引用: 1]

Poria S, Cambria E, Gelbukh A.

Deep Convolutional Neural Network Textual Features and Multiple Kernel Learning for Utterance-level Multimodal Sentiment Analysis

[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015: 2539-2544.

[本文引用: 1]

Ahmed S, Hina S, Asif R .

Detection of Sentiment Polarity of Unstructured Multi-Language Text from Social Media

[J]. International Journal of Advanced Computer Science and Applications, 2018,9(7):199-203.

[本文引用: 1]

Haripriya A, Kumari S, Babu C N.

Location Based Real-time Sentiment Analysis of Top Trending Event Using Hybrid Approach

[C]// Proceedings of the 2018 International Conference on Advances in Computing, Communications and Informatics. 2018: 1052-1057.

[本文引用: 1]

Mukherjee A, Liu B, Glance N.

Spotting Fake Reviewer Groups in Consumer Reviews

[C]// Proceedings of the 21st International Conference on World Wide Web. USA: ACM, 2012: 191-200.

[本文引用: 1]

Zimbra D, Abbasi A, Zeng D , et al.

The State-of-the-Art in Twitter Sentiment Analysis: A Review and Benchmark Evaluation

[J]. ACM Transactions on Management Information Systems, 2018, 9(2): Article No. 5.

[本文引用: 2]

Sun S, Luo C, Chen J .

A Review of Natural Language Processing Techniques for Opinion Mining Systems

[J]. Information Fusion, 2017,36:10-25.

[本文引用: 1]

Ahmad M, Aftab S, Bashir M S , et al.

Sentiment Analysis Using SVM: A Systematic Literature Review

[J]. International Journal of Advanced Computer Science and Applications, 2018,9(2):182-188.

[本文引用: 1]

Zhang L, Wang S, Liu B .

Deep Learning for Sentiment Analysis: A Survey

[J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2018,8(4):e1253.

[本文引用: 1]

Feldman R .

Techniques and Applications for Sentiment Analysis

[J]. Communications of the ACM, 2013,56(4):82-89.

[本文引用: 1]

Medhat W, Hassan A, Korashy H .

Sentiment Analysis Algorithms and Applications: A Survey

[J]. Ain Shams Engineering Journal, 2014,5(4):1093-1113.

[本文引用: 1]

Petz G, Karpowicz M, Fürschuß H , et al.

Reprint of: Computational Approaches for Mining User’s Opinions on the Web 2.0

[J]. Information Processing and Management, 2015,51(4):510-519.

[本文引用: 1]

Singh T, Kumari M .

Role of Text Pre-processing in Twitter Sentiment Analysis

[J]. Procedia Computer Science, 2016,89:549-554.

[本文引用: 1]

Baccianella S, Esuli A, Sebastiani F.

SentiWordNet 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining

[C]// Proceedings of the International Conference on Language Resources and Evaluation. 2010,10:2200-2204.

[本文引用: 1]

Saif H, Fernandez M, Kastler L , et al.

Sentiment Lexicon Adaptation with Context and Semantics for the Social Web

[J]. Semantic Web, 2017,8(5):643-665.

[本文引用: 1]

Khan F H, Qamar U, Bashir S .

A Semi-Supervised Approach to Sentiment Analysis Using Revised Sentiment Strength Based on SentiWordNet

[J]. Knowledge and Information Systems, 2017,51(3):851-872.

[本文引用: 1]

Hung C .

Word of Mouth Quality Classification Based on Contextual Sentiment Lexicons

[J]. Information Processing & Management, 2017,53(4):751-763.

[本文引用: 1]

Feng S, Song K, Wang D , et al.

A Word-Emoticon Mutual Reinforcement Ranking Model for Building Sentiment Lexicon from Massive Collection of Microblogs

[J]. World Wide Web, 2015,18(4):949-967.

[本文引用: 1]

Chenlo J M, Losada D E .

An Empirical Study of Sentence Features for Subjectivity and Polarity Classification

[J]. Information Sciences, 2014,280:275-288.

[本文引用: 1]

Singh J, Singh G, Singh R .

Optimization of Sentiment Analysis Using Machine Learning Classifiers

[J]. Human-centric Computing and Information Sciences, 2017, 7(1): Article No. 32.

[本文引用: 1]

Socher R, Pennington J, Huang E H, et al.

Semi-supervised Recursive Autoencoders for Predicting Sentiment Distributions

[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. USA: Association for Computational Linguistics, 2011: 151-161.

[本文引用: 1]

Er M J, Liu F, Wang N, et al.

User-Level Twitter Sentiment Analysis with a Hybrid Approach

[C]// Proceedings of the 13th International Symposium on Neural Networks. 2016: 426-433.

[本文引用: 1]

Choi Y, Lee H .

Data Properties and the Performance of Sentiment Classification for Electronic Commerce Applications

[J]. Information Systems Frontiers, 2017,19(5):993-1012.

[本文引用: 1]

Hassan A, Abbasi A, Zeng D.

Twitter Sentiment Analysis: A Bootstrap Ensemble Framework

[C]//Proceedings of the 2013 International Conference on Social Computing. 2013: 357-364.

[本文引用: 1]

Mikolov T, Chen K, Corrado G , et al.

Efficient Estimation of Word Representations in Vector Space

[OL]. arXiv Preprint, arXiv: 1301. 3781.

[本文引用: 1]

Shirani-Mehr H .

Applications of Deep Learning to Sentiment Analysis of Movie Reviews

[R]. Stanford University, 2014.

[本文引用: 1]

Panthati J, Bhaskar J, Ranga T K, et al.

Sentiment Analysis of Product Reviews Using Deep Learning

[C]// Proceedings of the 2018 International Conference on Advances in Computing, Communications and Informatics. 2018: 2408-2414.

[本文引用: 1]

Yang D, Huang C, Wang M .

A Social Recommender System by Combining Social Network and Sentiment Similarity: A Case Study of Healthcare

[J]. Journal of Information Science, 2017,43(5):635-648.

[本文引用: 1]

Zheng K, Li A, Farzan R.

Exploration of Online Health Support Groups Through the Lens of Sentiment Analysis

[C]// Proceedings of the 13th International Conference on Information. Springer, 2018: 145-151.

[本文引用: 1]

Reguera N, Subirats L, Armayones M.

Mining Facebook Data of People with Rare Diseases

[C]// Proceedings of the IEEE 30th International Symposium on Computer-Based Medical Systems. IEEE, 2017: 588-593.

[本文引用: 1]

Tepe N A, Demirci S.

Investigating Sentimental Relation Between Stress and Heart Disease Mortality

[C]// Proceedings of the 2017 International Conference on Computer Science and Engineering. IEEE, 2017: 677-681.

[本文引用: 1]

Hassan A U, Hussain J, Hussain M, et al.

Sentiment Analysis of Social Networking Sites (SNS) Data Using Machine Learning Approach for the Measurement of Depression

[C]// Proceedings of the 2017 International Conference on Information and Communication Technology Convergence. IEEE, 2017: 138-140.

[本文引用: 1]

Cohan A, Young S, Yates A , et al.

Triaging Content Severity in Online Mental Health Forums

[J]. Journal of the Association for Information Science and Technology, 2017,68(11):2675-2689.

[本文引用: 1]

Akay A, Dragomir A, Erlandsson BE .

Network-Based Modeling and Intelligent Data Mining of Social Media for Improving Care

[J]. IEEE Journal of Biomedical and Health Informatics, 2014,19(1):210-218.

[本文引用: 1]

Abirami A M, Askarunisa A .

Sentiment Analysis Model to Emphasize the Impact of Online Reviews in Healthcare Industry

[J]. Online Information Review, 2017,41(4):471-486.

[本文引用: 1]

Ali K, Dong H, Bouguettaya A, et al.

Sentiment Analysis as a Service: A Social Media Based Sentiment Analysis Framework

[C]// Proceedings of the 2017 IEEE International Conference on Web Services. IEEE, 2017: 660-667.

[本文引用: 1]

Huang Y, Hlongwane N, Kao L.

Using Sentiment Analysis to Determine Users’ Likes on Twitter

[C]//Proceedings of the IEEE 16th International Conference on Dependable, Autonomic and Secure Computing, 16th International Conference on Pervasive Intelligence and Computing, 4th International Conference on Big Data Intelligence and Computing and Cyber Science and Technology Congress. 2018: 1068-1073.

[本文引用: 1]

Shukri S E, Yaghi R I, Aljarah I, et al.

Twitter Sentiment Analysis: A Case Study in the Automotive Industry

[C]//Proceedings of the 2015 IEEE Jordan Conference on Applied Electrical Engineering and Computing Technologies. 2015: 1-5.

[本文引用: 1]

Thakor P, Sasi S .

Ontology-Based Sentiment Analysis Process for Social Media Content

[J]. Procedia Computer Science, 2015,53(1):199-207.

[本文引用: 1]

Sabariah M K, Effendy V.

Sentiment Analysis on Twitter Using the Combination of Lexicon-Based and Support Vector Machine for Assessing the Performance of a Television Program

[C]//Proceedings of the 3rd International Conference on Information and Communication Technology. 2015: 386-390.

[本文引用: 1]

Dragoni M.

Computational Advertising in Social Networks: An Opinion Mining-based Approach

[C]// Proceedings of the 33rd Annual ACM Symposium on Applied Computing. USA: ACM, 2018: 1798-1804.

[本文引用: 1]

Osman N A, Noah S A M.

Sentiment-Based Model for Recommender Systems

[C]// Proceedings of the 4thInternational Conference on Information Retrieval and Knowledge Management. 2018: 1-6.

[本文引用: 1]

Wu CY, Diao Q, Qiu M, et al.

Jointly Modeling Aspects, Ratings and Sentiments for Movie Recommendation

[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. USA: ACM, 2014: 193-202.

[本文引用: 1]

Ho C S, Damien P, Gu B , et al.

The Time-varying Nature of Social Media Sentiments in Modeling Stock Returns

[J]. Decision Support Systems, 2017,101:69-81.

[本文引用: 1]

Zhang G, Xu L, Xue Y .

Model and Forecast Stock Market Behavior Integrating Investor Sentiment Analysis and Transaction Data

[J]. Cluster Computing, 2017,20(1):789-803.

[本文引用: 1]

Schumaker R P, Labedz C S, Jarmoszko A T , et al.

Prediction from Regional Angst—A Study of NFL Sentiment in Twitter Using Technical Stock Market Charting

[J]. Decision Support Systems, 2017,98:80-88.

[本文引用: 1]

Oussalah M, Zaidi A.

Forecasting Weekly Crude Oil Using Twitter Sentiment of U.S. Foreign Policy and Oil Companies Data

[C]// Proceedingsof the 2018 IEEE International Conference on Information Reuse and Integration. 2018: 201-208.

[本文引用: 1]

Pai P, Liu C .

Predicting Vehicle Sales by Sentiment Analysis of Twitter Data and Stock Market Values

[J]. IEEE Access, 2018,6:57655-57662.

[本文引用: 1]

Ding C, Cheng H K, Duan Y , et al.

The Power of the “Like” Button: The Impact of Social Media on Box Office

[J]. Decision Support Systems, 2017,94:77-84.

[本文引用: 1]

Seki Y.

Use of Twitter for Analysis of Public Sentiment for Improvement of Local Government Service

[C]// Proceedings of the 2016 IEEE International Conference on Smart Computing. IEEE, 2016: 1-3.

[本文引用: 1]

Mirani T B, Sasi S.

Sentiment Analysis of ISIS Related Tweets Using Absolute Location

[C]// Proceedings of the 2016 International Conference on Computational Science and Computational Intelligence. 2016: 1140-1145.

[本文引用: 1]

Ceron A, Curini L, Iacus S M .

Using Sentiment Analysis to Monitor Electoral Campaigns: Method Matters——Evidence From the United States and Italy

[J]. Social Science Computer Review, 2014,33(1):3-20.

[本文引用: 1]

Gitari N D, Zuping Z, Damien H , et al.

A Lexicon-Based Approach for Hate Speech Detection

[J]. International Journal of Multimedia and Ubiquitous Engineering, 2015,10(4):215-230.

[本文引用: 1]

Paltoglou G .

Sentiment-Based Event Detection in Twitter

[J]. Journal of the Association for Information Science and Technology, 2016,67(7):1576-1587.

[本文引用: 1]

Preethi P G, Uma V .

Temporal Sentiment Analysis and Causal Rules Extraction from Tweets for Event Prediction

[J]. Procedia Computer Science, 2015,48:84-89.

[本文引用: 1]

Ijaz S, Lali M I, Shahzad B, et al.

Biasness Identification of Talk Show’s Host by Using Twitter Data

[C]// Proceedings of the 13th International Conference on Emerging Technologies. IEEE, 2017: 1-6.

[本文引用: 1]

/