弹幕视频的情感时间曲线聚类与传播效果*

doi:10.11925/infotech.2096-3467.2021.0793

弹幕视频的情感时间曲线聚类与传播效果^*

张腾¹^,², 倪渊^,^,¹^,², 莫同³, 吕学强⁴

¹北京信息科技大学经济管理学院北京 100192

²北京知识管理研究基地北京 100192

³北京大学软件与微电子学院北京 102600

⁴北京信息科技大学网络文化与数字传播北京市重点实验室北京 100192

Sentiment Curve Clustering and Communication Effects of Barrage Videos

Zhang Teng¹^,², Ni Yuan^,^,¹^,², Mo Tong³, Lv Xueqiang⁴

¹School of Economics and Management, Beijing Information Science and Technology University, Beijing 100192, China

²Beijing Knowledge Management Research Base, Beijing 100192, China

³School of Software and Microelectronics, Peking University, Beijing 102600, China

⁴Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100192, China

通讯作者: 倪渊, ORCID:0000-0002-0600-2619, E-mail:niyuan230@163.com。

收稿日期: 2021-08-4 修回日期: 2021-11-15

基金资助:

*北京市社会科学基金规划项目(21GLB027)

Corresponding authors: Ni Yuan, ORCID:0000-0002-0600-2619, E-mail:niyuan230@163.com。

Received: 2021-08-4 Revised: 2021-11-15

Fund supported:

Beijing Social Science Foundation(21GLB027)

摘要

【目的】 构建面向弹幕文本的情感曲线聚类模型,为视频传播效果预测提供新的决策方式。【方法】 提出词向量扩充领域情感词典,优化情感分类器性能;采用综合权重等手段使情感时序平稳平滑;提出SBD度量K-shape聚类模型,分析情感时序模式、特征及传播效果。【结果】 优化情感词典模型在多分类指标（主客观、极性分类）上F1值分别达到0.89和0.79,主客观分类器性能提升123%。对比多种时序度量聚类算法组合,SBD度量K-shape聚类模型在戴维森堡丁指数和轮廓系数指标上均性能更优。【局限】 情感词典算法未完全考虑网络流行语或不含中心形容词的句子情形,情感时序聚类结果描述、解释程度需要进一步加深。【结论】 基于领域情感词典-SBD-Kshape算法可以削弱弹幕文本非规整噪声及时序相位偏移的影响,聚类结果可作为识别传播效果差异的依据。

关键词： 情感词典; 情感曲线; 时间序列

Abstract

[Objective] This paper constructs a clustering model for sentimental time series of bullet screen texts, aiming to predict video communication effects. [Methods] First, we used the Word2Vec to expand the sentiment dictionary and optimize the performance of sentiment classifiers. Then we added comprehensive weights to make the sentiment sequence smooth and stable. Finally, we constructed the SBD measurement and K-shape clustering model to analyze sentiment sequence patterns, characteristics, and communication effects. [Results] The optimized model had F1 values of 0.89 and 0.79 with multi-classification indicators (subjective or objective, and polar classification). The performance of the subjective and objective classifier was improved by 123%. Compared with the existing multiple time series measurement clustering algorithms, the proposed new model generated better Davies-Bouldin Index and Silhouette Index. [Limitations] The new algorithm did not fully utilize the Internet buzzwords or sentence situations without central adjectives. The description and interpretation of sentimental time series clustering results need to be further explored. [Conclusions] The proposed model could reduce the irregular noise and the timing phase shift of the bullet screen texts, while the clustering results are the basis for identifying the different effects.

Keywords： Sentiment Dictionary; Sentiment Curve; Time Series

PDF (1358KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

张腾, 倪渊, 莫同, 吕学强. 弹幕视频的情感时间曲线聚类与传播效果^*[J]. 数据分析与知识发现, 2022, 6(6): 32-45 doi:10.11925/infotech.2096-3467.2021.0793

Zhang Teng, Ni Yuan, Mo Tong, Lv Xueqiang. Sentiment Curve Clustering and Communication Effects of Barrage Videos[J]. Data Analysis and Knowledge Discovery, 2022, 6(6): 32-45 doi:10.11925/infotech.2096-3467.2021.0793

1 引言

伴随平台经济发展,弹幕凭借高互动性和参与性成为视频传播的重要载体。弹幕是一种特殊的实时评论,兼具信息、情感和时间三种属性。在时序变化的弹幕背后,蕴含着一条观众与内容之间情感沟通的隐形通道,即弹幕情感曲线,弹幕情感曲线反映了“故事”演化中用户实时情感的变化趋势^[1-2],是对视频内容的一种侧面刻画,对视频传播效果也具有潜在的重要影响。此外,基于情感曲线把握用户的情感行为与情感模式,是视频市场精细化运营的必然趋势。因此,弹幕视频情感曲线生成与挖掘成为学者关注的热点。

情感曲线本质是情感时间序列。在序列生成阶段,准确量化单一序数情感值是后续处理的基础,由于弹幕文本具有非书面化、随意性的特点,传统基于规范文本的情感量化方法不能直接有效地迁移至弹幕领域。在情感曲线的聚类阶段,弹幕社交属性导致弹幕情感时序间存在相位偏移,另外,弹幕数据在一定时间内的聚集会导致弹幕情感变化的高度不连续,进一步增加了情感曲线生成与挖掘的难度。目前学界关于弹幕情感曲线对视频传播效果的影响与解释仍比较模糊,难以有效支撑视频运营决策。针对上述问题,本文从弹幕领域特定情感词典扩充构建、K-shape算法情感序列聚类和曲线传播效果特征挖掘等三个方面,对弹幕视频情感曲线深度挖掘展开研究。

2 国内外研究现状

弹幕的价值在于同时包含内容传递^[3]、情感互动^[4-5]和即时性^[6]等多方面特殊属性,其中情感互动性^[7]对视频传播效果有重要影响。因此,对于视频弹幕的研究也主要在于主题提取、情感分析和时序分析三个方面。

弹幕评论的主题提取重点关注提取视频及视频片段的主题信息,形成关键词便于用户方的检索、摘要、推荐和平台方的视频组织管理。Wu等^[8]为研究视频弹幕对视频标签化的作用而提出TPTM模型,该模型考虑视频语义、用户偏见并识别用户交互因素作为构建LDA模型的先验知识,以解决弹幕文本噪声大、局部文本稀疏带来的模型准确性问题。Lv等^[9]为消除弹幕文本中大量网络用语、实现时间序列精准匹配而提出T-DSSM模型,该模型采用窗口采样的方法,将时序相隔较近的弹幕作为语义识别的基本单位,而不相关弹幕则直接被剔除。Yang等^[10]在各个时序节点通过社群监测理论进行语义关联聚类,有效消除了弹幕评论的内生交互性干扰。 Filippova等^[11]证明了结合多源异构数据（视频和文本）的监督器强于单一预测分类器,观众评论等文本信息对视频主题分类均有重要的特征贡献。

在20世纪90年代末,学者们已经开始了对弹幕情感属性的探究,主要面向视频和用户分类、热度预测、标签情感标注等问题。Yamamoto等^[12]以弹幕文本中的形容词、单词长度和副歌文本作为特征,使用基于支持向量机分类器实现了对音乐剪辑视频的情感分类。Murakami等^[13]提出一种基于弹幕情感的视频推荐排序方法,使用情感词典算法对弹幕文本进行情感分类,并根据不同情感类别进行加权计算情感值以最终情感值排序确定视频排序。洪庆等^[14]提出一种弹幕用户聚类算法,该方法使用基于大连理工情感本体库情感词典的方法对不同用户进行积极和消极情感值的计算,随后采用K-means进行用户聚类,相关结论可以有效应用于视频推荐。吴法民等^[15]提出一种高鲁棒性、能深度挖掘短文本语义的循环神经网络模型,可以有效识别弹幕隐含语义,以充分理解和分析面向视频的短文本。Tran等^[16]将句法树与循环神经网络（RNN）相结合,通过句法结构分析提取更重要的情感信息,强化特征之间的关联,在情感极性分类任务中表现优异。王晓艳^[17]提出一种结合长短记忆神经网络（LSTM）和RNN的网络结构模型来进行弹幕情感分类,该分类结果用于标注HC-FCM算法提取出的关键帧,有效实现关键帧的精准标注。综上,由于弹幕文本自身具有的种种特性,有逐步与规范文本情感分析发展方向脱离的趋势,具体体现在分析粒度和处理方法上。文本情感分析呈现向细粒度方向发展,弹幕情感分析粒度仍停留在句子级别。尽管LSTM等深度学习模型在处理分词序列中具有优势,相关深度学习网络结构类型和层次构建的方法相当成熟,但弹幕情感分类方法通常仍选用情感词典模型,并借鉴常规文本互信息PMI等模型^[18-19]进行词典扩展以提高模型的准确率。

完全基于弹幕时序属性的研究主要是精彩片段提取和情感时间序列挖掘。庄须强^[20]采用注意力（Attention）机制强化的LSTM网络,优化输入弹幕分词特征变量的同时,加入视频片段重要性评分以提取视频的高光片段。Hao等^[21]提出通过识别视频情节边界来识别和抽取精彩视频部分的方法。Eickhoff等^[22]对YouTube视频用户评论进行分析,利用时间序列推断出视听内容的潜在标签和索引术语,缩小查询和文档描述关键词之间的词汇匹配差距。郑飏飏等^[23]从弹幕情感类别雷达图、情感词词云图、弹幕情感曲线方面探究了情感曲线的可视化。王敏等^[24]则以大连理工情感词典分别构建了字幕、弹幕序列的情感曲线,挖掘出优秀视频片段的字幕弹幕交互趋势。特别地,对于其他具有时间特性的文本,也有值得借鉴参考的研究。例如,熊燕^[25]提出一种从客户体验的情感曲线中提取改善服务方向的方法。李致萱等^[26]通过绘制铁路部门各环节服务的情感曲线量化旅客服务评价,以此为基础得到能够真实反映旅客个性化服务需求的铁路服务指标评价权重体系。Reagan等^[27]基于情感词典方法提出一种有效的小说情感曲线绘制方法,其研究结论表明众多小说的情感曲线存在一些共有的情感模式。周启元^[28]则改进了Reagan等的研究,提出一种小说的可变长情感曲线生成方法,通过引入高斯过程解决了使用情感曲线预测小说下载量的问题。何跃等^[29]、吕建伟^[30]对微博话题进行情感分析序列化,对舆论趋势进行聚类挖掘并采用TF-IDF算法实现情感转折点的事件挖掘。由此可见,完全基于弹幕时间序列视角的已有研究基础还稍显薄弱,应用前景却比较广阔,关于情感曲线的探索工作有待进一步深入。

3 研究思路与方法

3.1 研究思路

本研究主要解决情感时间序列准确生成与聚类的问题,探索优质传播效果影片的情感曲线特征,整体的技术路线如图1所示。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 总体技术路线

Fig.1 Technical Route

首先,应当选择合适的弹幕视频网络平台和弹幕文本题材,确保数据来源的规范。使用网络爬虫和数据库技术对相关视频平台的弹幕数据进行采集、保存和预处理。

在情感曲线的生成阶段。情感曲线是弹幕情感曲线聚类的基础。刻画准确反映观众情绪随时序变动的趋势,依赖于单位文本中包含的弹幕情感值的精准量化。基于对弹幕文本研究的梳理,本研究采用情感词典算法进行量化处理。为提升情感词典模型准确率,适应弹幕领域扩展了情感词典,鉴于弹幕语料大规模和词句简短的特性,采用分布式文本向量表示模型Word2Vec对大量弹幕语料进行训练,通过词性限定,依据余弦相似度计算结果扩展Pos情感词表和Neg情感词表,使用情感词典算法进行弹幕情感极性的量化,该算法基于一般情感词典分词模型,并为准确处理弹幕语境中反语、网络用语等情况而设置了特殊句式词典,以期提升模型鲁棒性。在模型验证阶段,设置了扩展情感词典前后情感词典主客观分类效果的对比实验。最后,随机抽样一定数量的弹幕样本,计算混淆矩阵,验证模型分类有效性。在情感曲线实际的生成阶段,为提升情感时间序列的准确性和平稳性,本研究提出综合权重计算单位序数情感和移动平均法,一定程度上保证了形态失真与时序平稳之间的平衡。

在情感曲线的聚类探索阶段。使用Elbow准则探测不同聚类类别对整体聚类畸变度的影响,从而科学确定最佳的聚类数量。本研究采用K-shape算法进行情感时间序列聚类。该算法时间序列相似度采用基于形状的相似度度量（Shaped-Based Distance,SBD）,在进行时序簇类划分前,会预先动态计算该时序与簇中心的位移时间窗,以一定的边缘形态丢失风险,保证两者情感时间序列不存在滞后或前置性。在聚类中心更新的原则上,K-shape算法在计算聚类中心时,对斯坦纳树问题进行等价转化,极大提升了聚类中心迭代效率,避免了情感时序簇迭代过程中的失真,所提取的中心序列会保持与源簇在升降趋势和变化幅度的一致趋势,以精确表征时间曲线集群的高聚集形态。为对比不同时序相似度设置及算法组合的效果优劣,设置了K-medoids与欧氏距离（Euclidean Distance,ED）、动态时间扭曲距离（Dynamic Time Warping,DTW）与本算法在戴维森堡丁指数（Davies-Bouldin Index, DBI）等指标上的对比实验。最后,采用一定指标作为簇类传播效果的表征差异性分析探索,比对和提取聚类间的传播效果与特征。

3.2 研究方法及模型

（1）情感序列生成

① 情感词典模型

鉴于弹幕文化存在特殊语法和语言习惯,在一般的弹幕情感词典分析之前,需要先确认是否是弹幕否定句式、特殊语言现象,例如“要是……就好了”“希望……是个好人”,或者是“！！！”“233”“2333”,对其作特有的句式分析,其情感权重以人工标注方式取积极、消极情感词典的平均权重。而对于一般弹幕文本 $S$ ,以逗号或者其他符号作为界限划分意群子句 $S_{1}$ , $S_{2}$ … $S_{n}$ 等,对每个子句是否存在情感词进行扫描,如果意群中包含情感词 $W_{s e}$ ,则建立一个以情感词为中心、宽度为3的单侧视窗,在视窗左侧扫描是否包含否定词 $W_{d e}$ 、程度副词 $W_{a d}$ 。分句 $S e n t_{S_{i}}$ 的情感值如公式（1）所示。

(1)

S e n t_{S_{i}} = O_{W_{d e}} \times O_{W_{a d}} \times O_{W_{s e}}

其中, $O_{W_{d e}}$ 、 $O_{W_{a d}}$ 、 $O_{W_{s e}}$ 分别是情感词典中否定词的权重、程度副词的权重、情感词的情感权重。若句子中否定词的数量取 $k$ , $O_{W_{d e}} = {(- 1)}^{k}$ 。句子 $S$ 的情感值如公式（2）所示。

(2)

S e n t_{S} = \sum_{n}^{i = 1} s_{i}

根据 $S e n t_{S}$ 的取值,情感倾向出现三种情况,如公式（3）所示。

(3)

S_{S} = \{\begin{matrix} 1 \\ 0 \\ - 1 \end{matrix} \begin{matrix} S e n t_{S} > 0 \\ S e n t_{S} = 0 \\ S e n t_{S} < 0 \end{matrix}

0、1、 $-$ 1分别对应客观结果、主观积极结果、主观消极结果。

② 综合权重情感值计算

基于情感分类的结果,应确定一定时间间隔作为时间序列单一序数的采样时间窗口,采用一定方法量化单一序数情感值,对情感时间序列进行预处理,以达到聚类的前置条件。

构建可供分析的离散型时间序列,必须选择合适的时间窗口,平衡时间序列的维度和单一时序情感的准确性。在情感分类时,本研究有无法达到实体或属性层次情感粒度的局限性,因此,以弹幕内容情感存在强关联、一般弹幕间情感连续性和控制序列维度三个条件选择时间窗口。鉴于弹幕一般情感极性连续的情况,但在一定时间窗口内,仍必须考虑它们之间的相互作用,聚焦于最突出的情感极性。因此,单一序数情感值计算如公式（4）所示。

(4)

S e n t_{i} = \sum_{S e n {t_{S}}_{i} = P} S e n t_{s i} \times O_{P} + \sum_{S e n t_{S i} = N} S e n t_{s i} \times O_{N}

其中, $\sum_{S e n t_{S} = P} S e n t_{s}$ 、 $O_{P}$ 分别对应单位时间分辨率内的积极情感值之和、积极情感弹幕数量与主观情感弹幕数量比。

③ 移动平均处理

按照以上方法采样弹幕数据,不会存在遗漏,也不会产生重叠,但视频弹幕情感值分布不均匀、不独立,单纯的不重叠采样会在窗口边缘造成较大的波动。根据时间序列理论^[31],对弹幕序列数据进行移动平均,可以保证序列本身的平稳性,还有利于过滤弹幕情感值的高频噪声,使得时间序列形态上更为平滑,如公式（5）所示。

(5)

S' [n] = \frac{1}{M} \sum_{k = 0}^{M - 1} S [n - k]

其中, $S [n]$ 指原始时间序列, $S' [n]$ 指经移动平均后的时间序列,M指移动平均步长,序列平滑能力随 $M$ 值增加而增强。

（2）基于K-shape的时间序列聚类算法

情感时间序列聚类是一种基础而重要的无监督挖掘方法,广泛应用于关键性能指标（KPI）异常检验、股票房价预测、趋势挖掘等领域。K-shape算法^[32]是一种基于时间序列本身的聚类方法,即数据不经过任何处理或稍加处理即可进行时间序列聚类的方法,K-means、K-medoids算法也同属此类。不同于基于特征、基于先验时间序列模型的方法,基于原始时间序列聚类的方法,高度依赖时间序列相似度度量设置。本研究提出SBD-K-shape算法,采用基于形状的相似度度量（SBD）,并据此更新聚类质心,相比于采用传统度量方法的K-means等算法,更有利于挖掘时间序列形态间的相似度,从根本上保证了升降趋势及幅度变化在时移变动情况下仍保持相似度不变性,在时序相位偏移迭代中的趋势保持性能也存在一定优势。此类算法要求较高的算力,在数据采集和处理阶段应保证时间序列的维度,如果时间序列取样的时间分辨率设置得过于精细,则后期需采用降维算法以提高计算的效率。

① 时间序列的相似度衡量

时间序列之间的相似度是衡量两个时间序列相似程度的一个重要指标,是时间序列聚类、分类、异常发现等诸多数据挖掘的基础。欧氏距离和动态时间扭曲距离（DTW）是计算时间序列相似性时经常采用的两种度量方式,如公式（6）和公式（7）所示。欧氏距离对时间序列异常维度非常敏感,一些轻微的变化可能使欧氏距离的变化很大,而动态时间弯曲距离可以有效消除欧氏距离这个缺陷,并且可以使用在时间序数不一致的情形。动态时间弯曲已广泛应用在社会科学、医学、音频信号与处理等领域。

(6)

D^{E D} (X, Y) = \sqrt{\sum_{i = 1}^{n} (x_{i} - y_{i})^{2}}

对于时间序列 $X = [x_{1}, x_{2}, \dots, x_{n}]$ 、 $Y = [y_{1}, y_{2}, \dots, y_{m}]$ ,利用动态时间规整时间序列,即通过拉伸或者放缩的方法,对齐局部矢量,所得到最小规整成本路径时的动态弯曲距离,如公式（7）所示。

(7)

D^{D T W} (X, Y) = t (n, m)

\begin{matrix} t (i, j) = D^{E D} (x_{i}, y_{j}) + m i n {t (i - 1, j - 1), \\ t (i - 1, j), t (i, j - 1)} \end{matrix}

其中, $t (i, j)$ 为 $D^{E D} (x_{i}, y_{j})$ 与相邻元素的最小累计距离之和。其过程是 $(i, j)$ 从 $(0,0)$ 到 $(n, m)$ 的过程中,不断搜索获取的最小代价的弯曲路径和。

② K-shape的时间序列互相关度量方法

在使用K-shape对时间序列进行相似性比较之前,首先对两序列X、Y进行预处理, $X = [x_{1}, x_{2}, \dots, x_{n}]$ , $Y = [y_{1}, y_{2}, \dots, y_{m}]$ 。将序列X的时间窗适量平移以便两序列的全局比较,经过平移后的时间序列如公式（8）所示。

(8)

X_{(s)} = \{\begin{array}{l} [\overset{| s |}{\overset{⏞}{0, \dots, 0}}, x_{1}, x_{2}, \dots, x_{m - s}] & s \geq 0 \\ [x_{1 - s}, \dots, x_{m - 1}, x_{m}, \underset{| s |}{\underset{⏟}{0, \dots, 0}}] & s < 0 \end{array}

其中,s为时间序列X内所有可能的平移量, $s \in [- m, m]$ 。若s≥0,则X的时间序列向右移s个单位;若s<0,则X的时间序列向左移s个单位。

得到互相关序列 $C_{w} (X, Y) = [c_{1}, c_{2}, \dots c_{w}]$ ,其长度为 $2 m - 1$ ,定义如下： $c_{w} = R_{w - m} (X, Y)$ , $w \in {1,2, \dots, 2 m - 1}$ ,其中 $R_{k} (X, Y)$ 如公式（9）所示。

(9)

R_{k} (X, Y) = \{\begin{array}{l} \sum_{l = 1}^{m - k} x_{l} + k y_{l} & k \geq 0 \\ R_{- k} (Y, X) & k < 0 \end{array}

计算使 $c_{w}$ 最大的 $w$ 值,相对于 $Y, X$ 的最佳位移量为 $s = w - m$ 。将互相关序列系数 $C_{w} (X, Y)$ 进行归一化处理,得到 $C_{n, w} (X, Y)$ ,如公式（10）所示,使其归一化到（-1,1）区间。互相关序列系数值越大,两序列正相关度越高。

(10)

C_{n, w} (X, Y) = \frac{C_{w} (X, Y)}{\sqrt{R_{0} (X, X) R_{0} (Y, Y)}}

其中, $R_{0}$ 为完全相似的两序列在不发生相对位移时对应的互相关系数。

基于此时间序列相似性判断 $D^{S B D}$ 的距离量度方法,对其标幺化处理后计算公式如公式（11）所示。

(11)

D^{S B D} (X, Y) = 1 - m a x_{w} \frac{C_{w} (X, Y)}{\sqrt{R_{0} (X, X) R_{0} (Y, Y)}}

其中, $D^{S B D}$ 取值区间为（0,2）,0代表时间序列样本完全不相似。本算法利用 $D^{S B D}$ 距离对时间序列进行相似性量度,并将其作为之后类簇划分的依据。

③ 时间序列聚类中心计算

每类聚类中心代表时间序列曲线在每一个聚类的中心形态特征。K-means算法是通过计算每类数据中各个坐标序列相对应数值的算术平均值来提取每类簇聚类中心,但是这种方式提取的聚类中心往往不能准确反映每类簇的典型特征,K-shape算法提取聚类中心将其视作一个优化选择问题,目标是找到与每类时间序列平方和最小的序列,即斯坦纳树优化问题,如公式（12）所示。

(12)

c_{k}^{*} = \underset{c_{k}}{a r g m i n} \sum_{u_{i} \in P_{k}} D^{S B D} (c_{k}, u_{i})^{2} c_{k} \in R

其中, $P_{k}$ 为第 $k$ 类聚类数据集合, ${c_{k}}^{*}$ 则为该方法所提取的聚类中心。

互相关方法提取的是两时间序列的相似性而非差异性,可同化公式（12）为一个最大化问题,由此可得出公式（13）。每次迭代中,利用前次迭代中心作为参考并利用互相关法将所有序列与参考序列对齐。

(13)

\begin{matrix} μ_{k}^{*} = \underset{μ_{k}}{a r g m a x} \sum_{u_{i} \in P_{k}} C_{n, w}^{2} (u_{i}, μ_{k}) \\ = \underset{μ_{k}}{a r g m a x} μ_{k}^{T} \sum_{u_{i} \in P_{k}} (u_{i} u_{i}^{T})^{2} μ_{k} \end{matrix}

将其规范化后如公式（14）所示。

(14)

μ_{k}^{*} = \underset{μ k}{a r g m a x} \frac{μ_{k}^{T} Q^{T} S Q μ_{k}}{μ_{k}^{T} μ_{k}} = \underset{μ k}{a r g m a x} \frac{μ_{k}^{T} M μ_{k}}{μ_{k}^{T} μ_{k}}

其中, $μ_{k} = μ_{k} Q$ , $Q = I - O / m$ , $I$ 为对角线元素为1、其余元素为0的矩阵, $O$ 为全1矩阵; $M = Q^{T} S Q$ ,用 $S$ 代替 $\sum_{u_{i} \in P_{k}} (u_{i} u_{i}^{T})^{2}$ 。

$μ_{k}^{*}$ 最大值为矩阵 $M$ 最大特征值对应的特征向量,即所提取簇心曲线,也即聚类中心。

4 研究过程

4.1 数据采集及预处理

本研究选择文化纪录片作为视频弹幕题材,一定程度上可以从数据采集环节规范弹幕数据,降低后期数据清洗的难度。利用分布式爬虫框架Scrapy流式采集Bilibili网站的纪录片《国家宝藏》前20集的弹幕数据,存储于MongoDB数据库中的原始数据共包含320 000条记录,字段包括视频序号、弹幕时间戳、弹幕字号、用户ID及弹幕内容等,随后进行字段、样本清洗。首先使用数据库语言实现仅保留弹幕内容、用户ID、弹幕发表相对时间等字段,使用jieba模块进行分词预处理,结果如表1所示。接着,依据哈尔滨工业大学的停用词表,删除无意义弹幕、因去停而导致空白或无效的弹幕,最后共删除42 111条弹幕样本,语料库中最终保留有效弹幕分词样本279 889条。

表1 弹幕数据（部分）

Table 1 Barrage Data （Part）

弹幕内容	发表相对时间（秒）	发表日期	用户唯一标识ID
欢迎/前往/三秦/大地	36.117	2019-07-14	d7faeec
长安/超/美/的/名字	36.300	2020-02-29	9695d4e6
为/我/大/陕西/增加/弹幕	37.540	2019-09-13	f2745c64
壮哉/我/大/陕西	37.541	2019-09-07	cbd65743
陕西/冲鸭	37.569	2019-08-21	28d977d4

新窗口打开| 下载CSV

4.2 情感曲线生成

（1）弹幕领域情感词典构建

以知网HowNet词典为基准词典。知网词典的原始结构为中文正面评价词语3 730个、中文负面评价词语3 116个、中文正面情感词语836个、中文负面情感词语1 254个、程度副词232个。将同一类型的情感词和评价词进行合并,形成积极词和消极词两个词典。利用正则表达式模块将弹幕分词语料库与积极词典和消极词典分别取交集,形成积极和消极两种极性的基准词词库。

训练Word2Vec词向量模型。使用Gemsim模块将279 889条弹幕构成的弹幕分词语料导入基于CBOW的Word2Vec模型进行训练。训练出分词的词向量,为减少计算量,设置词向量维度为400,模型参数设置如表2所示。

表2 Word2Vec模型参数

Table 2 Parameter Setting

实例化模型参数	模型参数解释	数值
Size	词向量维度	400
Window	当前词与预测词最大距离	5
Min_count	词频下阈值	50
Workers	训练调用CPU核心数	4

新窗口打开| 下载CSV

为保证扩展词为有效的形容词词性,采用jieba对弹幕分词语料进行词性标注,输出保存为弹幕形容分词词表。利用Word2Vec模型输出词向量,计算与基准词间的余弦相似度,取其中属于形容词的前5个词对情感词典进行扩充,手动排除不合适的词语。最终,积极词典扩充了858个词,消极词典扩充了410个词,截取部分扩展词展示如表3所示。

表3 词典扩展结果展示

Table 3 Dictionary Expansion Display

扩展基准词	Pos积极情感词典	扩展基准词	Neg消极情感词典
硬朗	（'幽默',0.9607639312744141）（'清晰',0.9584671854972839）（'优雅',0.9508066177368164）（'豁达',0.9448449015617371）（'谦虚',0.9414252638816833）	肤浅	（'枯燥',0.9757405519485474）（'繁复',0.9752581119537354）（'憋屈',0.9749971628189087）（'爆差',0.9729041457176208）（'残忍',0.9679246544837952）
谦和	（'睿智',0.9870889186859131）（'恢宏',0.956283688545227）（'高贵',0.9113680124282837）（'沉稳',0.8986016511917114）（'秀丽',0.8980205059051514）	尴尬	（'过猛',0.9259644746780396）（'糟糕',0.9231310486793518）（'苛刻',0.9080279469490051）（'太尬',0.9031277894973755）（'羞耻',0.9018667936325073）
敬佩	（'艰苦',0.9246152639389038）（'幸苦',0.9218361973762512）（'健康',0.9206362962722778）（'豁达',0.9205096364021301）（'深厚',0.9176081418991089）	有毒	（'剧透',0.9450205564498901）（'气活',0.9297248721122742）（'破功',0.923279881477356）（'好烦',0.9159470796585083）（'浓密',0.9148081541061401）

新窗口打开| 下载CSV

情感词典在弹幕领域适应扩展了1 268个词汇,在原词典8 936的词汇量基础上扩展14%,扩展词、基准词极性上保持一致,词性扩充性能良好。

（2）情感词典模型分析及模型验证

使用Python实现情感词典模型,为后期查验单个弹幕数据的情感量化情况而输出分析日志,该日志包含弹幕情感值总分、所有意群子句分数、所有意群中积极情感成分分数、所有意群中消极情感成分分数和所有意群中参与实际计算的否定、副词、情感词词表。最后,在已经进行情感分类的弹幕数据中,随机抽取500条弹幕,采用人工方式进行情感标注,得到分类模型的混淆矩阵,模型评价结果汇总如表5-表8所示,并与完全基于知网词典的主客观二分类结果（表4）进行对比。

表4 基于知网词典的弹幕主客观二分类结果

Table 4 Subjective and Objective Binary Classification Results of Barrage Based on HowNet

有情感预测为无情感FN	无情感预测为有情感FP	被正确分类为有情感TP	被正确分类为无情感TN
302	8	110	80

新窗口打开| 下载CSV

表5 基于扩充词典的弹幕主客观二分类结果

Table 5 Subjective and Objective Binary Classification Results of Barrage Based on Expanded Dictionary

有情感预测为无情感FN	无情感预测为有情感FP	被正确分类为有情感TP	被正确分类为无情感TN
44	31	309	116

新窗口打开| 下载CSV

表6 基于扩充词典弹幕情感极性二分类结果

Table 6 Barrage Sentiment Polarity Classification Results Based on Expanded Dictionary

积极预测为消极FN	消极预测为积极FP	被正确分类为积极TP	被正确分类为消极TN
57	23	141	119

新窗口打开| 下载CSV

表7 基于扩充情感词典模型主客观二分类评价指标

Table 7 Subjective and Objective Binary Classification Evaluation Index Based on Extended Sentiment Dictionary Model

准确率： $\frac{T P + T N}{T P + T N + F P + F N}$	精确率： $\frac{T P}{T P + F P}$	召回率： $\frac{T P}{T P + F N}$	F1值
85.00%	90.08%	87.53%	0.89

新窗口打开| 下载CSV

表8 基于扩充情感模型情感极性二分类效果评价指标

Table 8 Evaluation Index of Sentiment Polarity Binary Classification Effect Based on Extended Sentiment Dictionary Model

准确率： $\frac{T P + T N}{T P + T N + F P + F N}$	精确率： $\frac{T P}{T P + F P}$	召回率： $\frac{T P}{T P + F N}$	F1值
76.47%	85.90%	71.94%	0.79

新窗口打开| 下载CSV

综上,基于扩展情感词典的模型在主客观分类上表现良好,F1值达到0.89,对比表4和表5数据,基于扩展情感词典能使模型在主客观分类任务中被正确分类的正确率提高123%;但在极性分类上表现稍弱,F1值仅为0.79,整体上性能表现良好。

（3）情感时间序列与情感曲线

本研究根据弹幕内容情感存在对应关联性、弹幕一般情感连续性和控制序列维度等条件选择时间窗口。观察视频内容与相关反响弹幕的相对时间,发现平均有21.6秒的相对错位。但考虑到弹幕用户对于视频文化内容、旁白配乐、主持人角色等多个视频内容及元素产生的共鸣,弹幕情感标注的虽是不同内容实体,但同片段情感极性几乎保持连续。因而取剪辑片段时长30秒作为单位序列的采样窗口。

使用Pandas模块,依据弹幕的相对时间进行时间序数划分、综合权重量化单一序数情感值,利用Matplotlib模块对情感时间序列进行绘制,结果如图2所示。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 纪录片中4部典型的情感曲线

Fig.2 Four Typical Emotional Curves in Documentaries

①对4种典型的情感曲线,在波峰、波谷所反映的转折区间进行情感分析日志检查可以检验情感曲线生成的效果,即情感曲线是否反映了片段中弹幕真实情感的变化。例如,在图2（a）中的前期,曲线包络线整体呈现积极情感,查阅弹幕情感分析日志,该时间段观众对舞台、演员等视频内容整体较满意。后续当视频播放至序数25,28,39,100时,情感曲线呈现转折。综上,情感曲线很好地反映了弹幕用户的情感动态。

②情感曲线序数处在情感值极点处,弹幕数量比一般情感序数处平均高出50%,这一定程度说明极点可以反映影片片段受关注的程度。情感曲线都包含多个峰谷交替区间和多个显著的情感极点。定义极性点与右侧紧邻的极性点形成的区间存在跨越情感极性（即跨越原点）的为“第一类”极点,根据该区间的升降趋势,又划分为“第一类上”、“第一类下”极点。极点与右侧紧邻极点形成的区间不存在跨越情感极性的极点的称为“第二类”极点,同样根据区间升降趋势,划分为“第二类上”、“第二类下”极点。“第一类”极点右侧所表征的大幅度情感转折现象,除了由镜头转场导致情感值转向外,弹幕情感波动极大地被意见领袖现象所影响,并且会持续多个片段序数。

综上,情感曲线在形态上的解释性较强,曲线之间存在共性。由②可知,视频的精彩程度主要取决于“争议看点”和“精彩看点”。“争议看点”主要由意见领袖话题转移所引发,“精彩看点”则由用户群对视频相关主体内容的友好讨论和一致认同所形成。

4.3 基于K-shape算法的情感序列聚类

本文采取Elbow法则^[33]来确定最佳聚类数,时间序列畸变程度会随着聚类数目变化,而最佳的聚类数目是时间序列取得最小畸变程度时聚类数目的取值。其中,对于一个簇而言,簇畸变程度是每个簇中心与簇内样本点的平方距离误差和,而聚类畸变程度则是所有聚类的畸变程度。Elbow原则以聚类畸变程度最小为目标。

利用Python第三方专门应用于时间序列数据分析的Tslearn模块,对时间序列进行标准化,使每一条时间序列的均值和方差分别为0和1。使用Tslearn中的K-shape模型,在聚类数目2~5进行试探,绘制畸变程度随聚类数目变化的曲线,如图3所示。当聚类数目在3~4时畸变值骤降,在4~5时畸变值下降减缓,因此为避免过度分类可取临界值4为最佳聚类数目。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 确定最佳聚类数量的Elbow方法

Fig.3 Elbow Method for Determining the Optimal Number of Clusters

基于已经获得的最佳聚类数目,利用K-shape对本文20个时间序列进行聚类。为了解不同模型在同一个时间序列上的聚类效果,使用基于K-means改进的K-medoids等算法对时间序列同时进行处理。最后,采用时间序列处理模块Tslearn^[34]的聚类轮廓系数（SI）和机器学习框架Scikit-learn中提供的专门应用于序列数据聚类效果评估的戴维森堡丁指数（DBI）接口对聚类结果进行评估,具体聚类效果评价指标如表9所示。

表9 时间序列聚类模型评估指标

Table 9 Evaluation Metrics for Time Series Clustering Models

聚类指标	K-medoids+ED	K-medoids+DTW	K-shape+SBD
DBI_Score	1.63	1.32	1.13
Silhouette_Score	0.44	0.41	0.47

新窗口打开| 下载CSV

由表9可知,K-shape+SBD方案在两个聚类评价指标上均优于K-medoids聚类算法,轮廓系数为0.47、戴维森堡丁指数为1.13。聚类效果良好,这说明基于SBD度量的K-shape算法在聚类挖掘上有优势,同簇序列具有更好的同质性。K-shape聚类的具体情况如表10所示,包括时间序列所指示的样本和其对应的标签。由表10可知,每一个聚类标签下都分布着4~6个视频样本,聚类较为均匀。算法规整了不同时序的相位偏移,与源簇呈现局部平行的趋势。

表10 聚类分类及标签结果

Table 10 Clustering Diversity and Labeling Results

聚类标签	聚类样本
0	2,11,13,18,19,20
1	1,6,7,10
2	8,9,14,16,17
3	3,4,5,12,15

新窗口打开| 下载CSV

各个序列及其簇心（蓝色曲线）的情况如图4所示。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 情感曲线K-shape聚类结果

Fig.4 Sentiment Curve K-shape Clustering Results

由图4可知,影片的情感曲线呈现4类趋势。由于基于K-shape聚类的方法挖掘的各时间序列在形态上的相似性,归为一簇的所有序列,可以看作由簇心局部平移后收缩扩张所形成。因此,4种聚类的基本形态可以归纳为“双V型”、“单V后置型”、“单V前置型”和“W型”,在形态上有规律可循。

（1）基本形态为“双V型”的情感曲线,在时间区间上存在较高比例的平坦区间,该区间包括较多“精彩看点”,在时间区间中部存在两个极大降幅的“争议看点”,以形状包含不连续的“双V”形状为明显特征。

（2）基本形态为“单V后置型”的情感曲线,在时间区间上存在一个极大降幅的“争议看点”,且在时间维度上,分布于时间序列后半段,而其他区间不包含明显的“精彩看点”。

（3）基本形态为“单V前置型”的情感曲线,在区间上存在两个相邻设置的极大降幅的“争议看点”,分布于中后段,呈“V型”,在影片之初存在较多的“精彩看点”。

（4）基本形态为“W型”的情感曲线,存在曲线波动区间,表现为“W型”循环重复,不同于“单V后置型”情感曲线,其“争议看点”相邻且成对出现,升降幅度变化更大,曲线整体都无“精彩看点”分布。

4.4 基于差异性分析的聚类传播效果分析

为深入探查不同形态曲线对传播效果的影响,以视频点赞量作为表征视频传播效果的因变量,20个视频数据的聚类类别作为因子,导入到SPSS Statistics25中,进行单因素ANOVA分析。在进行ANOVA差异分析前,先验证组间的方差齐性,其结果如表11所示。

表11 组间方差检验结果

Table 11 Levene’s Test Results

		莱文统计	自由度 1	自由度 2	显著性
点赞量	基于平均值	0.717	3	16	0.556
	基于中位数	0.650	3	16	0.594
	基于中位数并具有调整后自由度	0.650	3	9.252	0.602
	基于剪除后平均值	0.714	3	16	0.558

（注：在显著性水平0.05级别,通过方差齐性检验。）

新窗口打开| 下载CSV

可见,基于平均值、中位数等P值均大于显著性水平0.05,因此接受原假设,不同聚类类别组间样本方差不存在明显统计性差异。进而,单因素方差分析通过方差齐性检验。在“事后多重比较”中选取最小显著性差异法（LSD）进行统计分析,结果如表12所示,不同聚类类别概率P值均小于0.05,因此否定原假设,点赞数量在不同组间存在显著性差异。以传播效果由好及坏的聚类排序是0>2>3>1。

表12 组间ANOVA分析结果

Table 12 Between-Group ANOVA Analysis Results

（I）聚类类别	（J）聚类类别	平均值差值（I-J）	标准错误	显著性	95% 置信区间
（I）聚类类别	（J）聚类类别	平均值差值（I-J）	标准错误	显著性	下限	上限
0	1	20 811.167*	2 538.410	0	15 429.98	26 192.36
	2	6 380.667*	2 381.239	0.016	1 332.66	11 428.67
	3	15 193.667*	2 381.239	0	10 145.66	20 241.67
1	0	-20 811.167*	2 538.410	0	-26 192.36	-15 429.98
	2	-14 430.500*	2 637.993	0	-20 022.80	-8 838.20
	3	-5 617.500*	2 637.993	0.049	-11 209.80	-25.20
2	0	-6 380.667*	2 381.239	0.016	-11 428.67	-1 332.66
	1	14 430.500*	2 637.993	0	8 838.20	20 022.80
	3	8 813.000*	2 487.124	0.003	3 540.53	14 085.47
3	0	-15 193.667*	2 381.239	0	-20 241.67	-10 145.66
	1	5 617.500*	2 637.993	0.049	25.20	11 209.80
	2	-8 813.000*	2 487.124	0.003	-14 085.47	-3 540.53

（注：*在0.05级别（双尾）,组间差异显著。）

新窗口打开| 下载CSV

综合聚类类别、曲线聚类形态和特征、传播效果差异性分析,可得：

（1）具有聚类0和聚类2这两类弹幕情感形态的视频更受观众欢迎。原因在于：该两类在曲线形态上比聚类1和聚类3在整体曲线形态上,存在更多“精彩看点”,视频弹幕讨论环境更友好,易促进观众产生沉浸式观感,且剧情更跌宕起伏。

（2）聚类2传播效果差于聚类0,原因在于：聚类2的“精彩看点”设置较少且仅出现在影片前段,中后段存在大量的“争议看点”。“精彩看点”设置提前有助于影片一开始吸引观众,使得聚类2和聚类0在传播效果上具有先发优势,但多数“争议看点”片段仍会到来,这使得影片进行到中后段仍然会被观众带入到激烈的弹幕讨论中,而非关注影片内容本身。再者,聚类0的“精彩看点”分布均匀,少量的“争议看点”置于中后段,这均保证了视频的传播效果。

（3）聚类1和聚类3在曲线形态上传播效果最差。聚类3和聚类1均有大量“争议看点”,几乎没有“精彩看点”,情感曲线整体都在直上直下的趋势中发展,这是在弹幕视频制作过程中需要避免的。

5 结语

（1）本研究提出Word2Vec扩充情感词典算法可以有效提升情感量化模型的性能。在实证阶段,通过大规模弹幕数据挖掘和词性控制,依据余弦相似度扩充的词汇和基准词汇在情感极性上保持高度一致,在弹幕语料情感分类中表现优异,可以提升主客观二分类结果正确率约123%,且使模型在主客观、极性分类等工作中的F1值分别提升至到0.89、0.79。

（2）本研究采用综合权重计算情感值、移动平均法生成的情感曲线可以有效表达影片观众的情感波动变化趋势。情感曲线上部分存在内容与情感非完全同步现象,原因在于个别用户的意见领袖行为。视频的传播效果与“争议看点”、“精彩看点”的位置有关。

（3）本研究采用SBD-K-Shape算法聚类情感时序,从轮廓系数等聚类指标上看,聚类效果明显优于DTW-K-medoids和ED-K-medoids两种算法组合。本算法消除了情感时序间的相位偏移从而聚类均匀,簇心形态特征明确,在实证层面证实了SBD-K-shape算法在弹幕情感时间序列聚类任务中有良好性能。

（4）聚类及相应视频反响效果评估显示,具有“双V型”形态情感曲线的传播效果最为良好,其反应的特征是,由用户认同与友好交流原因导致的“精彩看点”在视频制作时应更多地被设置,时间尺度上应保持均匀并尽可能前置。由用户争议产生的“争议看点”则应该尽量避免,并且应尽可能放到视频中后段,以避免在视频前期就因个别观众独特且具破坏力的视角转移了大量用户的视线,从而降低对影片本身的兴趣。

本研究存在以下几点不足：

（1）扩展情感词典的过程仅考虑词性、词向量间余弦相似度,扩充限制手段过于单一,例如可使用TF-IDF指标进一步限制词频,从而避免手动过滤的效率低下。

（2）情感词典算法在处理弹幕文本情感量化时,对于网络用语、流行语或不含中心形容词的句子实际仍有一定的局限性。

（3）K-shape算法的SBD度量方案在曲线存在位移相似性的聚类问题上存在优势,但也存在极个别同步曲线位移导致相似度计算异常的问题。

（4）对情感时间序列聚类的结果,描述、解释和特征提取的程度仍然相对不足。

（5）弹幕数据仅取自文化类型的视频,目的是规范语料、降低数据清洗的难度。因而,分析结果不一定具备通用性。

作者贡献声明

张腾：提出研究思路,采集、清洗和分析数据,程序实现,论文起草;

倪渊：修正研究思路,更改研究方案,修改论文;

莫同：环境配置,给出程序实现方案、程序建议;

吕学强：修正研究思路,更改研究方案,修改论文。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail: zhangtengbailong@163.com。

[1] 张腾,倪渊. adj_list_drop_dupilicates.txt. 去重形容词表.

[2] 张腾,倪渊. Clustering.py. 聚类代码文件.

[3] 张腾,倪渊. Corpus_Prepro_Train.py. 词典词向量生成代码.

[4] 张腾,倪渊. Dic_classifiers.py. 情感量化代码.

[5] 张腾,倪渊. Gen_Curve.py. 生成情感曲线、时间序列.

[6] 张腾,倪渊. Get_adj_list.py. 形容词标记代码.

[7] 张腾,倪渊. guobao_danmu.model.Word2Vec 模型文件.

[8] 张腾,倪渊. guobao_danmu.vector. 向量索引文件.

[9] 张腾,倪渊. Load_mod_Gen_new_dic.py. 扩充新词典代码.

[10] 张腾,倪渊. neg_dic_final.txt. 扩充消极情感词典文件.

[11] 张腾,倪渊. pos_dic_final.txt. 扩充积极情感词典文件.

[12] 张腾,倪渊. 弹幕传播效果差异分析.sav.SPSS 差异性分析.

[13] 张腾,倪渊. time_series_output.xlsx. 情感量化、分序数结果.

[14] 张腾,倪渊. 表格数据.xlsx. 弹幕处理结果.

[15] 张腾,倪渊. 国宝_excel_output.zip. 情感量化结果.

[16] 张腾,倪渊. 国宝原始数据集文件夹. 原始数据集.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Nickerson

R S

Confirmation Bias: A Ubiquitous Phenomenon in Many Guises

[J]. Review of General Psychology, 1998, 2(2): 175-220.

检索词推荐：