微博个体信息传播影响力评价模型研究
林琛
南京政治学院上海校区军事信息管理系 上海 200433;南京政治学院上海校区博士后流动站 上海 200433
林琛 E-mail:linchen_ai@163.com
摘要

【目的】 微博个体信息传播影响力评价常用转发数作为唯一标准, 面对如利用“购买粉丝”增加转发数的个体时, 评价结果无法反映真实的传播影响力。【方法】 从传播效果角度, 引入并重新定义传播深度、传播速度两种传播效果特征并给出量化方法, 结合转发数(传播广度)共同作为传播影响力评价维度, 在此基础上融合构建微博个体信息传播影响力评价模型。【结果】 实验结果表明相比转发数, 新模型能真实反映个体信息传播影响力, 尤其可以区分转发数相同情况下个体间信息传播影响力的差异。【局限】 实验数据利用新浪微博API获取, API返回数据多少存在限制。为获得完整的传播数据, 实验选取信息转发数低于2 000次的个体。但模型本身不受传播数据大小的影响, 使用时保证数据完整即可。【结论】 提供一种新的、更为准确的个体信息传播影响力评价模型, 具有较强的理论和实用价值。

关键词: 微博; 传播影响力; 传播效果; 评价模型
中图分类号:TP391 文献标志码: 文章编号:2014-2-79-85
The Evaluation Model Research on Information Dissemination Influence of Micro-blog Individual
Lin Chen
Department of Military Information Management, Shanghai Branch of Nanjing Institute of Politics, Shanghai 200433, China; Post-doctoral Mobile Stations, Shanghai Branch of Nanjing Institute of Politics, Shanghai 200433, China
Abstract

[Objective] Forwarding number is usually as the one and only criterion in Micro-blog individual evaluation of information dissemination influence. When individual increases forwarding number using ‘buying fans’, evaluation result can’t reflect its true influence.[Methods] From the perspective of dissemination results, this paper redefines propagation depth, speed and gives quantitative methods, combined with the forwarding number (propagation breadth) together as evaluation dimensions, constructs evaluation model based on dimensions.[Results] Experimental results show that compared forwarding number, the new model can truly reflect the individual information dissemination influence, in particular, can distinguish the difference between individuals with the same forwarding number.[Limitations] Experimental data is obtained by using Weibo API, but how much data returned is limited. To get the full dissemination of data, the experiment selects individuals that forwarding number of its information is lower than 2 000. But the model is not affected by data size, while data integrity should be ensured for using.[Conclusions] This paper provides a new, more accurate information dissemination influence evaluation model with strong theoretical and practical value.

Keyword: Micro-blog; Dissemination influence; Dissemination result; Evaluation model
1 引 言

微博成为网络舆情产生的重要媒介, 及时发现、有效监测、合理引导微博舆情不论对政府还是企业都具有重要的意义。从传播学角度来看, 140字微博信息得以成为网络舆情的热点是信息在微博网络上持续被传播的结果。不同于传统双向社交关系, 偏重单向社交关系构建起来的微博网络是信息传播的平台, 而微博个体传播行为是平台上信息传播的动力。研究者发现微博网络中存在一些影响传播的关键个体, 当信息被其转发后能够引起持续的、更大规模的传播[ 1]。这些强信息传播影响力个体对网络舆情的演变产生了巨大影响, 如果能及时介入和干预这些个体, 对抑制流言扩散、引导信息传播方面具有重要的作用, 有利于网络舆情监测预警、引导管控等工作的开展。本文试图从信息传播效果的角度建立微博个体信息传播影响力评价模型, 找到衡量个体信息传播影响力的量化方法, 挖掘传播影响力强的微博个体。

2 相关研究

对信息传播而言, 微博个体信息传播影响力是指微博个体在微博网络信息传播中发挥的作用力大小。目前, 微博个体信息传播影响力评价方法包括以下几类:

(1) 基于微博个体属性的方法是考察微博个体属性中能够表征个体传播影响力的特征, 利用其对影响力进行评价。较早研究主要利用粉丝数评价, 但粉丝数只能说明个体“吸引力”大小, 并不能评价其传播影响力。Cha等[ 2]使用粉丝数、被提及数、被转发次数对影响力进行评价, 发现被提及和被转发次数更能反映影响力。Ye等[ 3]利用粉丝数、回复和转发数、回复者和转发者数评价, 发现除粉丝数外, 其余4种评价方法相关性较高。马俊等[ 4]从个体属性中选取20种特征合成15种新特征后, 围绕传播范围、传播深度和传播速度对其进行回归分析来选取特征, 然后分别评价新个体信息传播的范围、深度和速度。

(2) 基于网络拓扑统计特征的方法是从网络拓扑角度考察个体在微博网络中的重要性, 认为“重要性”即“传播影响力”。研究者提出了包括度数、介数、紧密度、K-Shell等不同中心性指标对重要性进行评价。苑卫国等[ 5]分析了微博“双向关注网络”中节点的中心性以及其传播影响力, 发现相对于度数和介数, 紧密度和K-Shell更能准确发现网络中信息传播的关键节点。

(3) 基于链接分析的方法不仅考虑了个体本身的连接度, 也考虑了个体周围邻居的影响力对其影响力的贡献。以PageRank为代表方法, 后续研究者融入微博个体属性对PageRank进行改进。Tunkelang[ 6]将个体发布微博数等因素作为变量引入PageRank;Weng等[ 7]考虑了微博个体发布微博数及其邻居的接受程度, 提出TwitterRank方法识别某一主题下有影响力个体。

上述三类方法中, 后两类方法多基于个体之间的关注关系, 但个体间存在关注关系不代表个体间一定存在转发关系。在微博中存在被很多人关注的个体, 但其信息被转发次数却很少。实质上, 微博个体信息传播影响力主要体现在个体对信息传播所产生的推动作用[ 8], 即信息被转发的情况或者说传播效果。因此, 从传播效果的角度考察个体信息传播影响力更为直接和精确。

转发数作为一种传播效果特征在已有研究中表现出良好的评价能力, 但目前少见到其他传播效果特征的定义和使用。为了更加全面地评价个体信息传播影响力, 本文在转发数的基础上, 引入并重新定义传播深度和传播速度两种传播效果特征, 并将三者作为评价维度, 融合构建了个体信息传播影响力评价模型。

3 微博个体信息传播影响力评价模型
3.1 数据集

新浪微博是目前用户最多、最有影响力的微博平台。本文利用网络爬虫和新浪提供的API接口获取数据作为实验样本。为了避免微博个体信息传播影响力评价受到主题和时间变化的影响[ 2], 保证相关数据统计结果的稳定性, 实验选取2013年6月“南宁假军车”群体事件作为研究对象, 采集参与信息传播的个体1 721位, 然后通过新浪API接口采集微博个体的状态数据(如粉丝数)和传播数据(如转发人ID、转发关系、转发时间等)。

对采集数据进行初步统计分析发现, 大部分参与事件传播的个体, 其信息被转发的次数为0。同时, 存在少数转发数很大的个体, 按转发数排序的前11位个体虽然只占个体总数的0.64%, 但其信息转发数却占总数的65.8%。微博个体与转发数分布情况如图1所示, 横纵坐标分别取对数坐标。可以看出, 个体信息转发数分布呈现显著的长尾现象, 说明存在少数个体对该事件传播起着关键作用。

图1 转发数分布散点图

3.2 评价维度

微博个体信息传播影响力评价研究中, 虽然多数方法使用转发数并验证了其有效性, 但转发数只能反映信息传播的广度。在真实微博网络中, 有些微博个体, 尤其是商业账户存在购买粉丝的行为。这类个体的信息被传播, 常会出现虽然传播广度大, 但对其转发的个体多为所买粉丝, 而这些粉丝的传播影响力极低。在传播结构中体现为只存在第一层传播, 信息没能被继续扩散。因此传播深度是需要考虑的因素。此外, 传播速度也是一种重要特征, 若两个微博个体信息传播广度相同, 但所需传播时间相差较大, 则二者传播影响力存在差异。为了更加全面地衡量微博个体的信息传播影响力, 本文考虑传播广度、传播深度和传播速度作为个体信息传播影响力的评价维度。

传播广度、传播深度和传播速度是传播学中常用的概念, 比较容易理解。但具体如何量化, 不同研究者给出不同方法。如: 文献[ 4]中定义传播范围, 即传播广度为信息源后继节点的个数;传播深度为信息被转发的最长路径;传播速度为从信息发布到被第一次转发的时间间隔。文献[ 9]定义传播面积, 即传播广度为节点信息被转发的次数;定义的传播链长等同于文献[ 4]中的传播深度。显然, 上述对传播深度、传播速度的定义均“以点带面”, 过于简单化。

图2为某微博个体i发布的信息w的网络传播示意图。

图2 微博信息网络传播示意图

下面围绕图2对本文中提到的传播广度、传播深度和传播速度进行定义和形式化描述。

(1)传播广度(Iw)

传播广度是指微博个体发布信息后, 信息在微博网络上被转发次数。如图2中信息w被转发8次, 传播广度即为8。

(2) 传播深度(Id)

微博个体信息得以传播扩散归功于其邻居个体的传播影响力, 即邻居个体转发信息后还能被后续个体转发, 在微博网络中拥有传播影响力的个体越多, 信息被扩散的越深。

本文将传播深度定义为所有不被转发个体到信息发布个体的传播距离之和与不被转发个体总数的比值, 形式化描述如下:

(1)

其中, 不被转发个体如图2中编号1到5的微博个体, N表示不被转发的个体总数, pij是个体j到信息发布个体i的传播距离。按公式(1)可计算得到图2中信息源个体i的传播深度为2.2。

(3) 传播速度(Is)

本文将传播速度定义为固定时间t内, 微博个体信息w被转发的次数。考虑到微博个体每天接收的信息量很大, 这里假设个体未在24小时内看到某条信息并进行转发, 则再对该条信息进行转发的可能性很低。

3.3 传播影响力评价模型

本节基于上述三种评价维度构建个体信息传播影响力模型。为了确保构建模型的合理性, 首先对这三种评价维度之间的关系进行分析, 然后在此基础上完成模型构建。

为了量化任意两种评价维度之间的关系, 通常使用斯皮尔曼排序相关系数(Spearman’s Rank Correlation Coefficient)进行计算, 即计算两种评价维度下个体排名序列之间的相关性, 其计算公式如下[ 4]:

(2)

其中, 两种评价维度下个体排名序列为x和y, 序列数目为N , xi, yi分别为序列x和y的第i个元素。ρ的取值范围为[-1,1], 1代表两种维度完全正相关, -1代表完全负相关, 0代表完全无关。

此外, 还分别对不同评价维度下排序前K位的结果进行相关性分析, 其计算方法如下[ 3]:

(1) 选取评价维度x下的排序结果的前K位, 编号1至K;

(2) 对K位中每个个体, 得到其在另外评价维度y中的排序值;

(3) 对所得到的排序值进行重排序并从1开始编号, 获得新的排序序列z;

(4) 计算序列x与z之间的相关系数, 即以x为基准评价维度下, x和y中前K位排序的相关系数, 记为 ;以y为基准评价维度, 计算获得 ;

(5) 通过公式(3)计算获得相关系数:

(3)

利用公式(2)和公式(3)计算不同评价维度下样本排序结果之间相关性, K值分别取最高评价值的10%、50%以及所有个体数(注: 为了排除转发数太小的个体对排序结果产生影响, 本文采用转发数超过5次的微博个体, 共计116位), 计算结果如表1所示:

表1 三种评价维度之间的相关性

表1数据可见:

(1) 传播广度与传播速度之间具有强相关性, 该结果说明微博个体发布信息后的24小时是被转发的“黄金”时期, 在此期间信息被转发的次数很大程度上能够代表信息最终被传播的次数, 同时也揭示和验证了3.2节传播速度定义中24小时设置的合理性。

(2) 传播深度与其他两种评价维度的相关性较弱, 其中与传播广度之间的相关性最弱, 说明已有研究中以传播广度作为传播影响力评价的唯一指标具有片面性。在第4节实验部分进一步验证了该结论。

(3) 从三种评价维度相关性在不同K值下的变化情况来看, 任意两种评价维度之间的相关性对K值变化均不敏感, 说明三种维度之间具有稳定的相关性。

基于上述分析结果, 本文将传播广度、传播深度与传播速度进行融合, 定义微博个体信息传播影响力为微博个体i发布信息后的一段时间Δt内, 信息传播广度与传播深度的线性乘积。

微博个体信息传播影响力评价模型形式化描述如下:

(4)

其中, INF(i)表示微博个体i的信息传播影响力;Is(i)为传播速度, 即24小时内的传播广度;Id(i,Δt)为时间Δt内信息传播的深度;Δt设置为24小时。

4 评价模型有效性验证
4.1 比较指标选取

目前, 衡量微博个体信息传播影响力评价指标的好坏没有统一的标准。考虑到不同评价指标描述个体信息传播影响力的侧重面不同, 实验先采用三种已有研究中常用的评价指标, 包括粉丝数(Fn)、转发数(Rn)和度(Dn)。在考察这些指标相关性基础上, 选取与新模型比较的评价指标。

在上述三种评价指标中, 粉丝数、转发数两个指标比较容易获得。度指标在以往研究中常与粉丝数指标等价, 这是因为研究者是从个体间关注关系的角度考虑传播影响力。本文从传播效果的角度研究, 因此这里的度指标是指直接转发微博个体i信息的个体数, 即处于传播网络第一层的个体数, 它能够刻画个体对其他个体直接传播影响力。利用公式(2)和公式(3)考察不同评价指标间的相关性, 计算结果如表2所示:

表2 三种评价指标之间的相关性

表2结果可见, 三种评价指标之间均有不同程度的正相关性。其中, 度与转发数具有强相关性, 说明在微博信息传播过程中, 个体发布信息被直接转发的数目很大程度上决定了其最终被转发的数目。同时度与转发数没有完全相关, 也从数据上验证了微博信息“二级传播”过程中“强传播影响力个体”的存在。考虑到各指标之间相关性较强, 实验直接选取转发数作为与新模型比对的评价指标。

4.2 新模型有效性验证

为了验证本文提出新模型的有效性, 首先利用新模型和转发数指标分别对数据集中的个体进行信息传播影响力评价并排序, 同时分别计算二者在不同K值下的相关性, 计算结果如表3所示:

表3 新模型与转发数指标相关性

表3可见, 新模型与转发数指标整体呈现较强的相关性, 但二者相关性并不稳定, 对K值变化较为敏感。尤其, 在Top50%时有一个明显的下降。结合数据集进一步分析发现:

(1) 转发数较大的个体虽然占总个体数比重较小, 但转发数占了转发总量的一半以上, 这类个体的信息转发数要明显高于其他个体。由于转发数(传播广度)与传播速度之间具有强相关性, 利用新模型对整体样本进行排序时传播速度在模型中发挥了强势作用。从排序结果来看, 新模型下排在前面的11位均为转发数大的个体(见表4)。因此Top10%时, 新模型和转发数指标间表现出了较强的相关性。

表4-1 转发数指标和新模型下排序结果前10% (a)按转发数指标排序
表4-2 转发数指标和新模型下排序结果前10% (b)按新模型排序

(2) 对实验数据统计分析发现, 大约35%个体的转发数处于10次到90次之间, 且不同个体间的转发数相差不大。如果此时仅以转发数来评价个体信息传播影响力显然不合理, 因为个体间信息转发数相差几次不足以说明二者传播影响力有差别。Top50%时, 转发数和传播速度相关性很强(见表1), 但由于新模型引入了传播深度这一评价维度, 因此在个体转发数差值不大的情况下, 由传播深度和转发数共同决定个体信息传播影响力, 这也是转发数指标和新模型在Top50%时相关性降低的主要原因。

(3) 随着K值增加, 转发数小于10次的个体参与传播影响力评价。这类个体占总个体数比重较大, 但转发数较小。对该类个体信息的传播特点进行分析发现, 其中67%的个体信息传播深度为1, 从传播结构上看只存在一层传播。在这种情况下, 传播影响力评价结果受转发数影响大, 因此新模型与转发数指标间相关性表现最强。

综上分析, 转发数指标是一种粗粒度的评价指标, 适合对个体信息传播影响力进行粗划分, 如个体信息转发次数大于N的就认为其具有强传播影响力, 而不适合对转发次数相近的个体进行评价。而新模型通过引入传播深度解决了这一局限性。

为了更加直观说明新模型的有效性, 给出了新模型与转发数指标下个体信息传播影响力排序结果的前11位, 如表4所示。从表4中的排序结果来看, 尽管新模型排序的前11位均为转发数大的个体, 但相比转发数指标下的排序结果, 新模型对个体排序位次产生了影响。

(1) 从传播速度对个体排序位次变化的影响来看, 以表4中“财经网”和“头条新闻”为例。二者在发布信息后, 转发总数分别为591次和579次, 从转发总数来看相差不大。但从传播速度来看, 二者信息分别被转发了562次和421次, 相差141次。相比转发数, 传播速度之间差异更明显, 这表明个体粉丝对个体发布信息的反应速度是不同的, 反应速度越快说明个体信息传播影响力越高。图3图4分别为“财经网”和“头条新闻”的信息传播图。本文的信息传播图是利用Gephi[ 10]可视化绘图软件, 以转发信息的个体为节点, 个体之间的转发关系为边进行绘制。从传播结构来看二者相近, 传播深度分别为1.1194和1.0965, 差别较小。因此, 造成排序位次变化的主要原因在于传播速度的不同, 验证了传播速度作为个体信息传播影响力评价维度的合理性。

图3 “财经网”信息传播图

图4 “头条新闻”信息传播图

(2) 从传播深度对个体排序位次变化的影响来看, 以表4中“埃特中国”和“头条新闻”为例。二者信息发布后, 转发总数分别为465次和579次, 传播速度为440次和421次, 相比转发总数, 二者传播速度相差并不大。若利用转发数指标进行评价, “头条新闻”信息传播影响力明显要高于“埃特中国”。但从二者信息传播图(如图4图5所示)来看, “埃特中国”的信息在传播过程中存在多次二级传播, 传播效果要优于“头条新闻”。这种优势本文利用定义的传播深度评价维度来具体体现。因此, 考虑传播深度作为个体信息传播影响力评价维度也是合理有效的。

图5 “埃特中国”信息传播图

5 结 语

本文选取新浪微博中参与“南宁假军车”事件传播的1 721个用户作为研究对象, 获得其状态数据和传播数据作为数据集。对数据集进行初步统计, 发现个体信息被转发数分布呈显著长尾现象, 说明存在少数个体对传播起关键作用。

本文从信息传播效果角度, 提出传播广度、传播深度和传播速度三种传播效果特征作为评价维度, 在

真实数据分析的基础上构建微博个体信息传播影响力评价模型。实验证明相比转发数, 新模型对个体信息传播影响力的评价更全面有效, 尤其适合对转发数相近个体的信息传播影响力评价。此外, 在模型构建以及有效性验证过程中还发现: 微博个体发布信息后的24小时是信息被转发的“黄金”时期, 在此期间信息被转发次数很大程度上能够代表最终被转发的次数;微博个体发布信息被直接转发的次数与最终被转发次数之间存在很强的相关性。

本文主要考察了一个事件下不同微博个体的信息传播影响力。之所以选择一个事件是考虑到防止个体信息传播影响力评价受到主题的影响, 提高新模型有效性验证结果的可靠性。除了本文实验所使用的数据外, 笔者还对“总参一姐”、“钓鱼岛争端”等热点事件或话题进行了分析, 得到结论具有一致性。下一步将继续扩展研究, 围绕模型考察能够表征微博个体信息传播影响力的其他显著特征, 尝试采用机器学习方法识别强信息传播影响力个体。

参考文献
[1] 谢耕耘, 荣婷. 微博传播的关键节点及其影响因素分析——基于30起重大舆情事件微博热帖的实证研究[J]. 新闻传播与研究, 2013(3): 5-15.
(Xie Gengyun, Rong Ting. Micro-Blog Key Node Spread and Its Influencing Factors ——Empirical Research Based on Hot Micro-Blog Posts of 30 Major Public Opinion Events[J]. Journalism & Comm-unication, 2013(3): 5-15. ) [本文引用:1]
[2] Cha M, Haddadi H, Gummadi K P, et al. Measuring User Influence in Twitter: The Million Follower Fallacy[C]. In: Proceedings of the 4th International AAAI Conference on Weblogs and Social Media. 2010: 10-17. [本文引用:2]
[3] Ye S Z, Wu S F. Measuring Message Propagation and Social Influence on Twitter. com[C]. In: Proceedings of the 2nd International Conference on Social Informatics. 2010: 216-231. [本文引用:2]
[4] 马俊, 周刚, 许斌, . 基于个人属性特征的微博用户影响力分析[J]. 计算机应用研究, 2013, 30(8): 2483-2487.
(Ma Jun, Zhou Gang, Xu Bin, et al. Analysis of User Influence in Microblog Based on Individual Attribute Features[J]. Application Research of Computers, 2013, 30(8): 2483-2487. ) [本文引用:4] [CJCR: 0.601]
[5] 苑卫国, 刘云, 程军军, . 微博双向“关注”网络节点中心性及传播影响力的分析[J]. 物理学报, 2013, 62(3): 038901. DOI: 10.7498/aps.62.038901. Yuan Weiguo, Liu Yun, Cheng Junjun, et al. Empirical Analysis of Microblog Centrality and Spread Influence Based on Bi-Directional Connection[J]. Acta Physica Sinica, 2013, 62(3): 038901. DOI: 107498/aps. 62. 038901) [本文引用:1]
[6] Tunkelang D. A Twitter Analog to PageRank[R/OL]. [2009-01-13]. http://thenoisychannel.com/2009/01/13/a-twitter-analog-to-pagerank. [本文引用:1]
[7] Weng J S, Lim E P, Jiang J, et al. TwitterRank: Finding Topic-sensitive Influential Twitterers[C]. In: Proceedings of the 3rd ACM International Conference on Web Search and Data Ming. New York: ACM, 2010: 261-270. [本文引用:1]
[8] Dace K, Bhatt R, Varma V. Identifying Influencers in Social Networks[C]. In: Proceedings of the 5th International Conference on Weblogs and Social Media. Palo Alto, CA: AAAI Press, 2011: 1-9. [本文引用:1]
[9] 袁毅. 微博客信息传播结构、路径及其影响因素分析[J]. 图书情报工作, 2011, 55(12): 26-30.
(Yuan Yi. The Analysis of Structure, Path and Impact Factor of Microblog Information Communication[J]. Library and Information Service, 2011, 55(12): 26-30. ) [本文引用:1] [CJCR: 1.193]
[10] The Open Graph Viz Platform[OL]. [2013-09-30]. http://www.gephi.org/. [本文引用:1]