目的 利用情感分析技术提取弹幕评论中包含的情感数据并对其进行可视化, 获取网络视频的情感特征及走势。【应用背景】网络视频弹幕中的评论信息经情感分析及可视化处理后可作为视频的情感标签, 在此基础上建立基于评论情感的视频检索模式。方法 利用句子级别的情感分析方法, 建立基于情感词典的弹幕情感分析模型, 对评论文本进行情感词抽取及情感值计算, 并结合时间序列进行分析。结果 获取弹幕中的情感数据, 绘制弹幕评论的多维情感类别雷达图、情感词标签云和情感趋势曲线等。结论 利用情感分析及可视化方法, 可以帮助用户获取网络视频弹幕数据中包含的情感信息, 进而提供一种新的视频检索途径。
[Objective] By collecting and visualizing the sentiment information from bullet-screen comments, we can extract the emotion features and the trend of online videos. [Context] The visualized information of bullet-screen comments can be considered as sentiment tags. Based on these labels of online video, a new retrieval model focusing on comment emotion can be raised. [Methods] According to sentence level sentiment analysis, the study model of sentiment analysis towards bullet-screen comments is developed, including process of constructing sentiment word dictionary, extracting sentiment words and calculating weight value of comments based on time series. [Results] Analyzing tools of radar map, tag cloud and trend-curve diagram are utilized to present the outcome. [Conclusions] Sentiment analysis and visualization methods utilized in bullet-screen comments can provide a new approach to retrieve online videos.
近年来, 网络视频行业的用户规模一直呈增长趋势。海量的网络视频用户产生了海量的网络视频评论。“ 弹幕” 评论是一种近年来较为流行的视频评论方式, 其评论内容直接显示在视频界面上, 当某个视频有很多评论时, 视频界面上就会产生如同无数子弹飞过的效果。目前国内最著名的两大弹幕视频网站分别是AcFun[1]和哔哩哔哩[2], 网友简称为A站和B站。
弹幕评论数据包含评论文本及其对应的视频时间点信息, 因此与一般的评论数据相比, 弹幕数据能更准确、具体地反映出用户在观看视频时的即时情感和褒贬评价。这些情感和评价信息可以为其他用户在选择视频时提供参考。利用情感分析技术从网络视频弹幕中提取情感信息并结合可视化方法进行展示, 可以帮助用户获取视频评论文本整体的情感倾向, 以及评论情感随时间的变化情况。随着弹幕功能在各大主流视频网站的推广, 弹幕评论中的观点和情感表达将更具普遍性和参考性。在弹幕评论情感分析和可视化的基础上, 可以建立根据评论情感的视频检索新途径, 满足更多元、个性化的检索需求。
基于以上分析, 对情感分析及可视化方法在网络视频弹幕数据分析中的应用进行尝试性探索。
网络评论情感分析的目的在于按照评论文本所表达的情感倾向对评论进行分类。目前针对网络评论的情感分析应用研究多集中在微博舆论和商品评论两个领域: 利用情感分析技术对微博舆论中的热点话题、公众观点等进行提取, 或对面向商品的用户在线评论进行评价的情感褒贬识别。
根据情感分类的方法, 情感分析在微博、网络商品评论领域的应用研究可分为两大类。机器学习方法主要是应用机器学习模型, 对训练集的情感特征进行学习, 估计系统输入输出之间依赖关系, 从而应用于对测试集的分类判断。Pang等[3]利用支持向量机、朴素贝叶斯、最大熵三种方法对电影评论进行分类, 发现支持向量机的分类效果最好, 而最大熵和朴素贝叶斯的分类效果相当。刘志明等[4]研究发现, 采用支持向量机的机器学习算法、信息增益的特征选取算法和TF-IDF的特征项权重计算方法, 三者的结合对微博短文本的情感分类效果最好。Yu等[5]则认为通过机器学习方法对新闻进行自动情感分类时, 同时选取形容词、副词和名词作为情感特征项比选取单一词性的效果要好。
基于情感词的方法通常是先构建一个情感词典, 词典中包含情感词所属的类别及对应的情感值, 如正整数值表示正向情感, 负整数值表示负向情感。Hu等[6]对每一条用户使用反馈中各类别情感词的数量进行统计, 在此基础上判断用户对产品的情感倾向。为了进一步量化用户评论的情感, Yu等[5]把一条评论中所有情感词的情感值平均数作为该条评论的情感值; Kim等[7]考虑到否定词和双重否定对情感值的影响, 采用乘积法判断某一条评论的极性。Yang等[8]通过定义情感词权重词典、否定词词典、程度词词典以及感叹词词典, 综合考虑计算每条微博的情感指数。
随着网络视频资源的日渐丰富, 网络视频用户的数量也在不断增加。用户观看视频后在视频网站、影视论坛等留下的影评能够一定程度上影响其他用户的观看选择。一般的评论界面大多位于视频界面的下方, 用户一般是在观看前或观看后浏览评论区。与传统评论模式不同, 弹幕评论的文本可以直接显示在视频界面内, 即用户可以在观看视频的过程中即时分享自己的感受、观点。包含大量个人观点的弹幕评论作为弹幕视频的重要组成部分, 也成为网络视频用户对视频进行二次编辑的一种方式。
目前针对网络视频弹幕的研究多集中在文化传播领域。弹幕视频的流行是“ 吐槽” 文化发展的结果和动力。社交平台使得人与人之间都能形成交流、互动, 而各种影视作品、原创视频更是经常成为讨论的热点所在。为了满足观众的吐槽欲望, 弹幕视频应运而生, 它使观看视频和评论视频同时进行, 观众可以最大限度地发表对视频的赞叹或批评, 形成现场直播式的互动。
尽管已有研究指出弹幕的“ 吐槽” 特性及其包含的评论热点、情感信息, 但在情感分析领域尚无以弹幕评论数据为对象的研究。随着弹幕功能的流行, 弹幕数据中的情感倾向和观点会更具普遍性和参考性, 这些情感信息可以为用户在选择视频时提供参考, 满足更多元、个性化的视频检索需求。
综上所述, 情感分析在视频评论领域具备一定的应用需求, 弹幕数据即是很有价值的情感分析数据来源。
根据文本粒度分类, 面向弹幕评论的情感分析属于句子级别的情感分析过程。句子情感分析的目的在于按照句子所表达的情感倾向对句子进行分类, 任务包括句子的主客观分类和主观句情感分类。句子的主客观分类又称为主观句识别, 是指对句子的文本进行分析后, 过滤掉不带情感色彩的客观句, 获取含有情感倾向的主观句集合的过程。主观句识别的关键是情感特征的识别。主观句的情感分类方法主要分为两种, 分别是机器学习方法和基于情感词的方法。
本文首先建立弹幕情感词典, 通过识别评论文本中的情感词、情感搭配等来识别出主观弹幕句, 再采用基于情感词语义加权的方法对主观弹幕句进行分类并计算情感值, 根据分类和量化结果对弹幕数据中的情感信息进行可视化处理。
热播影视剧《神雕侠侣》(2014)一经播出就成为社交平台的讨论热点, 网友评价褒贬不一。第1集的评论数多且信息量较大, 第11、31、44、51集均包含剧情、演员、造型或特效等的评论高潮点。抓取这5集在哔哩哔哩弹幕网站[2]的弹幕数据作为情感分析和可视化方法应用研究的实验数据集, 数据采集时间为2015年3月30日22时。提取弹幕数据中的时间信息和评论文本, 部分结果如表1所示:
![]() | 表1 弹幕时间信息和评论文本(部分)①(完整的弹幕多维情感词典请参见: http://wenku.baidu.com/view/22191501b9d528ea81c779dd.) |
情感分析对情感词典的依赖性很强, 为了针对弹幕特点进行情感分析, 本文构建了多维情感分类下的弹幕情感词典, 在此基础上参考句子级别的文本情感分析过程, 提出弹幕评论情感分析模型, 如图1所示:
从弹幕视频中抓取弹幕数据, 提取实验数据集。考虑到弹幕用语的不规范性和自成体系, 常规的中文情感词典不适用于抽取弹幕中的情感词, 因此需要构建弹幕情感词典。部分弹幕数据中的评论文本, 经分词、词性标注和人工筛选等文本预处理后, 可作为词典的语料来源。对实验数据集中的评论文本进行抽取情感词、识别情感搭配和计算弹幕情感值等步骤的处理后, 可获得每一条弹幕评论的情感数据。对情感数据进行分析、整合及可视化处理。
在情感词典构建方面, 本文借鉴徐琳宏等[9]在构建情感语料库时所用的情感分类树, 采用7分类的标准构建弹幕情感词典, 情感维度分别是: 乐(快乐、安心), 好(赞扬、喜爱、感动), 怒, 愁(悲伤、失望、愧疚、郁闷、尴尬、无奈), 惊, 恶(厌恶、贬责、烦、讽刺)和惧(慌、恐惧)。其中, “ 乐” 和“ 好” 属于正向情感类, “ 怒” 、“ 愁” 、“ 惊” 、“ 恶” 、“ 惧” 属于负向情感类。
情感词实例是从实验数据集中随机抽取的10 000条弹幕评论文本析取而来。首先, 利用刨丁解羊中文分词器[10]对弹幕评论文本进行分词处理, 并在分词的基础上为每个有效的分词结果标注词性, 完成词典语料文本的预处理工作。其次, 从形容词、动词和感叹词中筛选出具有明确情感表达的词或短语, 按照7种情感维度进行分类。为了确保情感词对弹幕情感的识别效果, 暂不考虑情感类别不明确或情感强度较低的情感词。部分弹幕多维情感词典如表2所示:
![]() | 表2 弹幕多维情感词典(部分)①(完整的弹幕多维情感词典请参见: http://wenku.baidu.com/view/22191501b9d528ea81c779dd.) |
情感词又称评价词语、极性词, 指带有情感倾向性的词语。在句子级别的文本情感分析过程中, 提取句子中的情感词是识别主观情感句的关键。情感词的抽取和判别往往是一体化工作, 主要分为基于语料库和基于词典两种方法[11]。
本文采用基于多维情感词典的方法对弹幕评论文本中的情感词进行抽取及判别。具体过程包括: 参照情感词典对弹幕评论文本中的情感词进行匹配, 记录各视频弹幕评论中包含该情感词的弹幕数, 即该情感词的词频; 根据情感词在多维情感词典中的类别, 将其替换为对应的情感类别符号, 如表3所示:
![]() | 表3 多维情感类别符号 |
举例说明, 情感词“ 渣” 形容行为、动作或思想不符合常规伦理道德, 属于情感类别中的“ 恶” (厌恶、贬责、烦、讽刺)。利用Excel表格的“ 匹配” 功能, 在弹幕评论文本中对“ 渣” 进行匹配并记录下该情感词的词频; 通过表格的“ 替换” 功能将弹幕评论文本中的“ 渣” 全部替换为情感类别符号“ 【恶】” 。
如果一条弹幕中包含情感词或情感搭配, 则该弹幕为主观弹幕, 需要进一步对该弹幕的情感倾向进行识别及量化。
在计算弹幕情感值的过程中, 除了要考虑弹幕中所包含情感词的情感类别, 还要考虑到句法结构中否定词对情感类别的反向影响。杜振雷[12]在面向微博短文本的情感分析研究中指出, 正向情感类被否定词修饰后, 其情感趋向于负向情感类, 而负向情感类被否定词修饰后, 其情感趋向于无情感, 或稍微倾向于正向情感类。在本研究中, 为了确保情感词对弹幕情感的识别效果, 暂不考虑情感强度较低的情感词, 因此负向情感类被否定词修饰后, 均视为无情感。
谢丽星等[13]在面向微博的情感分析研究中提出根据情感词的数量对评论文本进行情感极性分类。本研究通过统计情感类别符号确定每条弹幕评论文本中各类情感词的个数, 再使用公式(1)计算弹幕的多维情感值, 使用公式(2)计算弹幕的正负二元情感值。
Sentiment1=max(Ni) (1)
Sentiment1表示多维情感分类下的弹幕情感值; Ni表示某一类情感词的个数; 本研究中i的取值为1至7, 每个取值对应的情感类别如表4所示:
![]() | 表4 i的值所对应的情感类别 |
Sentiment2表示正负二元情感分类下的弹幕情感值; Q正表示正向情感词的个数; Q负表示负向情感词的个数。
以部分弹幕为例, 根据情感类别符号、公式(1)和(2)计算出的弹幕情感值如表5所示:
![]() | 表5 部分弹幕的情感值①(完整的弹幕情感值计算结果请参见: http://wenku.baidu.com/view/473ab97e770bf78a652954a1.) |
参照3.2节的步骤从实验数据集的评论文本中抽取情感词, 根据公式(1)和公式(2)计算出每一条主观弹幕句的情感值。根据情感分类和量化的结果对弹幕进行数量统计:
(1) 统计实验数据集中的主、客观弹幕数量。各集主观弹幕数所占的比例都集中在20%-35%区间, 第11集的主观弹幕比例最高, 约占32%; 第51集的主观弹幕数比例最低, 约占22%, 如图2所示:
(2) 根据正负情感值对主观弹幕评论进行分类统计。各视频中情感值为0的弹幕所占比例很接近, 都小于6%, 但正情感值评论和负情感值评论所占比例差异较大。第1集、第31集和第51集中, 正负情感值的弹幕数量基本持平; 第11集和第44集中, 正情感值的弹幕较多, 如图3所示:
(3) 根据多维情感类别对主观弹幕评论进行分类统计, 如表6所示:
![]() | 表6 多维情感类别弹幕数量 |
(1) 多维情感类别雷达图
雷达图是专门用来进行多指标体系比较分析的专业图表, 可用于多维数据对比。根据多维情感类别的弹幕数量, 绘制弹幕情感类别雷达图, 能够体现各个视频的弹幕评论在7种情感类别上的分布情况, 进而分析多维情感分类下的情感倾向性。为了使雷达图更易于识别, 可根据弹幕条数的取值范围分图绘制。
图4(a)中弹幕条数的取值范围为0-1200条, 每200条为一个区间。第11集雷达图的形状在“ 乐” 的方向上最为突出, 意味着该类弹幕评论最多; “ 好” 和“ 恶” 的突出程度接近, 说明这两类评论数相差不多; “ 怒” 、“ 愁” 、“ 惊” 和“ 惧” 这4个方向上的数值点离中心点较近, 都落在0-200条的区间内, 意味着表达愤怒、失望、郁闷、惊讶和恐惧的弹幕评论较少。根据以上分析, 多维情感分类下第11集视频评论的整体情感倾向为快乐、高兴。
图4(b)中弹幕条数的取值范围为0-500条, 每100条为一个区间。观察第1集和第31集的雷达图形状, 可以发现二者都是在“ 恶” 的方向上最为突出, 意味着弹幕评论中表达厌恶或讽刺的较多, 这两集评论整体的情感倾向性都是“ 恶” 。第44集的雷达图在“ 好” 方向上最为突出, 意味着表达赞扬或喜爱的弹幕评论较多; 第51集则是在“ 乐” 方向上最为突出, 意味着表达快乐、高兴的弹幕评论较多。这两集评论的整体情感在“ 好” 和“ 乐” 两类上各有侧重。
(2) 情感词标签云
“ 标签云” 是关键词的视觉化描述, 用于汇总用户生成的标签或文字内容, 通过改变字体大小、颜色来体现标签的重要程度。利用在线标签云制作网站[14]绘制弹幕评论的情感词标签云, 通过情感词标签云中各情感词字体的大小来体现该情感词在评论文本中出现的频率高低。
根据各情感词在实验数据集全部评论文本中的词频, 绘制情感词标签云图, 如图5所示。可以看出, 较为突出的情感词标签有(按图中由上到下、由左到右的顺序): 喜欢、笑、什么鬼、爱、哈哈、好看、贱、萌、醉了、美、帅。
(3) 情感趋势曲线
为研究各集视频中弹幕评论的情感趋势, 绘制横轴为时间、纵轴为二元情感值的“ 时间-弹幕情感值” 曲线。时间轴的单位为分钟, 曲线上各点的取值为对应分钟内所有主观弹幕的情感平均值。第1集、第11集、第31集和第44集视频评论的情感值曲线如图6所示:
从图6(a)中可以看出, 第1集前10分钟曲线上的点基本位于情感值为0的轴上方, 情感倾向为正; 10分钟之后的曲线在0轴上下波动, 情感倾向变化较大。从趋势线可以看出, 第1集弹幕评论情感值的变化趋势为由高到底, 视频结尾部分的情感值小于0。结合曲线的位置和趋势线的变化情况, 第1集视频的弹幕评论情感较为悲观。
从图6(b)可以看出, 第11集曲线基本位于情感值为0的轴上方, 情感倾向为正向。从趋势线可以看出, 视频前20分钟的弹幕评论情感值呈现上升趋势, 之后较为平稳。结合曲线的位置和趋势线的变化情况, 第11集视频的弹幕评论情感较为乐观。
图6(c)为第31集的时间-弹幕情感值曲线, 视频前半部分的曲线基本位于情感值为0的轴上方, 情感倾向为正; 后半部分的曲线在0轴上下波动, 情感倾向变化较大。从趋势线可以看出, 视频前半段的弹幕评论情感值呈下降趋势, 后半段的情感值先升后降。结合曲线的位置和趋势线的变化情况, 第31集视频的弹幕评论情感较为悲观。
图6(d)为第44集的时间-弹幕情感值曲线, 曲线在情感值为0的轴上下波动, 但0轴上方的点较多且绝对值较大。从趋势线可以看出, 前半段视频的弹幕评论情感值先降后升; 中间部分情感值整体较高且大于0; 后半部分的情感值呈下降趋势, 结尾处情感值小于0。结合曲线的位置和趋势线的变化情况, 第44集视频的弹幕评论情感较为乐观。
弹幕平台使得网络视频用户可以在观看视频的同时发送、收看评论, 某些视频的弹幕评论甚至包含比视频本身更多、更受欢迎的信息, 弹幕评论已经成为用户对视频进行二次编辑的新方式。随着弹幕功能的流行和用户数的增多, 弹幕评论中的观点和情感将更具有普遍性和参考性。
本文以热播影视剧《神雕侠侣》的部分弹幕数据作为实验数据集, 利用句子级别的情感分析技术提取评论中的情感特征和相关数据, 通过可视化的手段对情感数据进行展示, 从情感类别、情感关键词、情感趋势等多个角度提供较为直观、简洁的弹幕情感分析报告, 为在线视频检索提供一种新途径。在本文对于弹幕进行情感分析和可视化研究的基础上, 今后将重点针对弹幕质量评级过滤、弹幕热点分析等方面展开进一步研究, 以期充分挖掘弹幕内容资源, 为视频推荐和评论分析提供更加有效的方法。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|