微博网络中舆情话题传播演化模型
李青, 朱恒民, 杨东超
南京邮电大学经济与管理学院 南京 210023
摘要

微博网络已逐渐成为舆情发生发展的集散地,为研究微博网络中舆情传播演化的机理,基于传统传染病动力学的SEIR模型,提出能描述裂变式传播模式且带有免疫速率的话题传播演化模型。该模型认为用户的转发行为受用户影响力以及用户对舆情话题的兴趣度等因素的影响,围绕这些因素,对模型进行实验仿真分析。结果认为,用户对话题的兴趣度是影响舆情话题传播范围的主要因素。

关键词: SEIR传播模型; 微博网络; 舆情传播演化
The Topic Evolution Model of the Public Opinion in Micro-Blogging Network
Li Qing, Zhu Hengmin, Yang Dongchao
College of Economics & Management, Nanjing University of Posts and Telecommunications, Nanjing 210023, China
Abstract

As the popular development of the micro-blog, which has gradually become the stage where the public opinion occurs and evolves. To analyze the mechanism of that, based on the traditional disease spreading dynamic model named SEIR, this paper proposes an evolution model with the immune function which can represent the characteristic of the micro-blog’s fission spreading pattern. In this model, whether a micro-blog’s user would re-tweet the message is mainly influenced by his/her impact and the interest’s degree to the public opinion. And the authors simulate the parameters in this model to analyze and verify the model presented in this paper. The results show that user’s interest to the public opinion is the key factor to affect the spreading extent.

Keyword: SEIR propagation model; Micro-blogging network; Spread evolution of the public opinion
1 引 言

本文研究的舆情话题是指舆情的单一话题,其在传播过程中,用户关注舆情的焦点不发生变化,在以用户作为节点、用户之间关注关系作为边的微博网络中,其传播机理与信息、谣言、病毒等传播机理相通。张彦超等[ 1, 2]结合复杂网络[ 3]和传染病动力学理论,在考虑节点度影响以及传播机理的基础上建立了基于在线社交网络的信息传播模型;基于相同的理论,Xiong等[ 4]则提出了由微博网络中用户的转发行为驱动的SCIR信息传播模型,并使用无标度网络以及规则网格对模型进行了仿真分析。但是上述模型并未考虑微博网络中信息传播的方向性以及时效性,当微博用户传播信息后,下一时步,该用户已失去了传播效应。Zhou[ 5]基于SIR传播模型研究了微博网络中的信息传播,认为SEIR模型不适合用来描述微博网络中的信息传播,因为用户一旦接收到信息,就不存在一个潜伏的状态。但是在本文中,笔者将接收到信息但未转发的用户定义为潜伏状态,缓冲了用户由易感态变为传播态的变化过程,以刻画传播的裂变性。

另外,微博网络中舆情话题的传播通过微博用户的转发、评论、提到等行为实现,这些行为受用户某些属性因素影响,赵丽等[ 6]认为这些影响因素主要有用户知名度、活跃度、社会环境等,提出了离散时间的话题传播模型,但未对这些因素进行方法描述。目前描述方法的研究主要围绕用户影响力进行。李军等[ 7]使用改进后的TURank算法评价中文微博的用户影响力;原福永等[ 8]以新浪微博为例,使用用户被关注度、用户活跃度以及微博影响力来综合表示微博中网络用户的影响力程度,采用改进PageRank算法计算用户被关注度并提出了用户影响力的指数模型;Cha等[ 9]对微博用户的入度、转发度与提及度三个方面之间的影响程度进行了实证研究,结果发现入度大的用户往往是图片和信息的传播源,最有可能被提及的用户往往是社会名人,而最有可能被转发的用户往往是新闻网站或者商务相关,且后两个行为的关联较大。Wu等[ 10]则在提出了基于用户发表与转发行为的影响力评价的新算法XinRank的基础上,构建了考虑用户对微博内容兴趣度因素的评价方法IBRank,其规则认为个体是否转发受到个体本身以及其邻居个体对微博内容兴趣程度的影响。

综上所述,学者们对微博网络中的信息、舆情等内容的传播机理以及微博用户的行为影响力进行了研究,但是现有模型未考虑到微博网络中信息等传播的方向性、裂变性以及影响微博用户传播行为的因素。本文在已有研究的基础上,基于传染病动力学理论,提出微博网络中舆情话题的传播模型,模型中用户的传播行为受用户被关注度、用户的行为影响力以及用户对话题的兴趣程度等因素的影响,并使用PageRank算法对用户的被关注度进行描述。

2 基本理论分析
2.1 微博网络结构特性

在微博中,用户拥有“关注者”与“被关注者”两种角色,组成微博网络的节点是注册用户,而网络的边则是用户之间的关注关系。比如,B用户关注A用户,而A用户未关注B用户,则A用户发布的微博传播给B用户,而B用户发布的微博不可以传播给A用户。因此,用户关注关系指明了微博网络中舆情信息的传播方向,基于用户关注关系形成的网络应是一个有向网络。

2.2 传染病动力学模型

在传染病动力学[ 11]中,主要沿用1927年Kermack与McKendrick[ 12]用动力学的方法建立的SIR传染病模型。该模型将个体分为以下三类:易感者S(Susceptibles),表示未染病但有可能被该类疾病传染的人;感染者I(Infectives),表示已被感染具有传染力的人;免疫者(Recovered),表示对该类疾病免疫的人。基于SIR模型,学者针对不同的情况对模型进行了相应的扩展,不考虑出生与死亡等种群动力学因素,当传染病无潜伏期时,动力学模型可表示为SI、SIS、SIRS等模型。当考虑传染病的潜伏期时,则得到SEIR或SEIRS等模型,即在被感染后成为患病者I(t)之前有一段病菌潜伏期,并且假定在潜伏期内的感染者没有传染力[ 12],其中E(Exposed)表示感染而未发病者。该模型的状态转移过程如图1所示:

图1 SEIR状态转移方程

在微博网络中,接收到舆情信息但未转发该信息的用户可认为是具有传染能力的潜伏个体。所以,本文基于SEIR模型提出了符合微博网络中信息裂变式传播模式的舆情话题演化模型,其中S(易感态)表示未接收到舆情话题的微博用户,E(潜伏态)表示接收到话题微博的微博用户,I(传播态)表示转发话题微博的微博用户,R(免疫态)表示知道话题信息但是失去兴趣的微博用户。

3 微博网络中舆情话题的传播模型构建
3.1 模型影响因素分析及基本假设

本文认为用户的转发行为与用户综合影响力以及用户对话题的兴趣程度等因素有关。其中,用户综合影响力包括用户的被关注度、用户的行为影响力与活跃度。用户的被关注程度从网络结构角度体现了用户的影响力,用户所拥有的粉丝越多,其传播力越大;若在现实社会中拥有较高地位某用户不发表任何微博与评论,其在虚拟网络中则不会拥有传播力或者影响力,而若一个用户的微博被他人转发的次数越多,用户名被他人提及的次数越多,说明该用户的影响力越大;考虑到“物以类聚”,用户兴趣度由用户自身对话题的兴趣度以及邻居对该话题的兴趣程度描述。

为了简化现实中的这些因素,笔者对模型进行了一些假设:

(1)实验网络为确定网络,即没有新用户的加入与已有用户的退出;

(2)假设关于舆情信息的微博一经某用户发出,则其所有粉丝立即接收到该微博并以概率进行转发;

(3)模型中的用户对话题的兴趣度随机分布,仅考虑用户对某类舆情话题的兴趣,而不考虑用户对其他类别话题的兴趣;

(4)考虑到用户存在于某一群体中,用户转发一则微博很有可能受到群体性质的影响,所以用户对话题的兴趣程度受到自身以及其邻居用户的影响,用户的邻居指其关注对象或者其粉丝;

(5)传播状态的用户随着时间的推移,传播能力减弱,对话题失去兴趣而转变为免疫状态,不考虑其后继对话题感兴趣的情况。

3.2 模型状态转移规则

基于SEIR传播模型,本文所提出的微博网络中舆情传播模型4种状态的转移过程如图2所示:

图2 微博网络中舆情话题的传播状态转移过程

图2可知,网络中用户一旦发布话题微博,其所有粉丝以1的概率转变为潜伏状态;处于潜伏状态的用户以概率p转变为传播状态,否则用户转变为免疫态;处于传播态的用户,随着时间的推移,传播效用减小,传播能力以速度v减弱,以概率q转变为免疫状态,q与v有关[ 1],vmax=1/T,T为一次实验迭代次数。

当个体的关注对象中出现一个传播态,则该个体以与该关注对象相关的概率p转发该对象的微博。转发概率p受用户的综合影响力值(w)以及用户对舆情话题的兴趣度值(UIn)影响,当处于潜伏态的用户读取到其关注对象发表的一则微博,该用户转发这则微博的可能性随其以及其邻居对话题内容的兴趣程度线性增加;类似的,若该关注对象对该用户的影响力在其所有关注对象中较大,则该用户转发该关注对象的微博的可能性越大,其关系也为线性。所以,个体i由潜伏态变为感染态的概率为:

其中,UIni表示i个体对该类话题的兴趣度,服从标准正态分布,∑jUInj/n为i个体所有邻居节点对该类话题的平均兴趣程度;w则表示用户的综合影响力,wj=ePRj×e(βLNj+(1-β)BIj)(由于参数值均在[0,1]内,所以通过指数化增加准确性),PRj表示用户j的被关注度,通过PageRank算法取得,LNj是指通过计算个体发表微博频率以及关注对象增长频率等因子获得的用户j的活跃度,而BIj则表示通过计算用户j被提及次数以及其微博被转发次数等因子获得的行为影响程度,二者随机分布。则表示i的关注对象用户j的综合影响力在i所有关注对象中所占的比重。

4 实验分析
4.1 话题传播模型的仿真实现过程

(1)实验网络

本文使用http://code.google.com/p/socialnetworksimulation/网站提供的微博数据作为基础网络,该数据集包含了769个节点以及16 656条有向边,该网络的节点度分布如图3所示:

图3 用户连接网络度分布情况

图3可知,真实网络中节点的度分布虽然也显示出幂律特性,但是度的变化较缓慢,且有较多节点的度分散在中间区域。该网络的聚类系数为0.214 7,该结果与模拟参数N=769、m0=3、m=2形成的BA网络[ 3]的聚类系数0.030 2以及N=769、K=3、p=0.4形成的小世界网络[ 3]的聚类系数0.642 4相比,说明所选取的网络样本介于无标度网络与小世界网络之间,具备幂律特性与小世界特性。

(2)模型中参数值设置

设置每个节点的初始pr(0)=1,s取经验值0.85,计算网络邻接矩阵每行中1的个数degree,若degree不为0,将每行除以对应的degree,构建对角矩阵D,根据s×AT×D+(1-s)×e×eT/N计算A矩阵的转移概率矩阵A1,将所得A1×PR进行迭代,当前后两次结果小于等于0.01时,停止运算。计算得到前8个被关注度高的节点pr值如表1所示:

表1 前8个被关注度高的节点pr值
其中,第一行为pr值排列秩序,第二行将每个pr值乘以10,第三行为对应节点号。

(3)设置用户兴趣度UIn、用户活跃度值LN以及用户行为影响力值BI

UIn服从标准正态分布,其中UIn存在小于0的情况,为了消除符号对计算过程的影响,将所得到的UIn数组减去其中最小的数值,即获得均大于0的用户兴趣度,越接近0的值表示用户对这类话题的兴趣度越弱。LN以及BI的取值服从(0,1)之间随机分布。

4.2 实验结果与分析

网络结构、转发概率p、退化速率v、传播源的选择等是本文所提出的传播演化模型中的影响因素,为了考察这些因素对传播演化过程是否存在影响;如果影响,如何影响等问题,本文进行了以下实验。

(1)确定的转发概率p对传播过程的影响

假设p=0.5与0.1,v=0.01,以被关注度最大的节点为传播源,实验结果如图4所示:

图4 p对舆情话题传播的影响

图4可知,保持其他因素的参数值不变,相比于p=0.1,当p=0.5时,传播过程较晚时步到达稳定状态,且最终传播范围较广,说明参数p不仅影响了传播的弛豫时间,同时影响了传播范围。为了验证p对传播范围的影响规律,设置p=(0:0.1:1),v=0.01,实验结果如图5所示:

图5 p对传播过程的影响

图5左纵轴可知,当p<0.4时,随着p增加,最终网络中知道舆情话题的个体数增加;当0.4<p<1时,话题传播达到近饱和状态,绝大多数个体已知道该舆情话题。这是因为p表示了网络中个体由潜伏态转变为传播态的概率,该概率的增大,表明处于潜伏态的个体转发该话题的可能性增加,传播的次级联效应增强,所以演化到达稳定状态时,话题传播范围更广;但受网络规模的限制,传播个体数没有得到无限增大。由图5右纵轴可知,传播到达稳定状态的时间随着p的增加而延长,这是因为p使得网络中传播个体数增加,导致演化需要更长的时间才能达到稳定状态。

(2)免疫速度v对传播过程的影响.

设p=0.2,v=0.01与0.001,以被关注度最大的节点作为传播源,则v对舆情话题的传播过程影响结果如图6所示:

图6 免疫速率v对舆情话题传播过程的影响

图6可知,v=0.01时,网络中I状态在t=30时消失,传播过程结束,R态个体数约为700个;当v=0.001时,网络中I态在t=90时消失,R态个体数同样约700个。结果表明,v影响了网络到达稳态的时间,但是不影响网络中最终获知舆情话题的个体数。这是因为个体一旦转变为传播态,关注该个体的所有邻居节点在下一个时步均转变为潜伏态,进而转变为其他状态,即个体的后续传播未增加粉丝邻居中知道话题的个体数,所以免疫退化速率v不影响网络中最终获知舆情话题的个体数。为了考察v对演化弛豫时间的影响,取v=[0.001:0.1],弛豫时间变化如图7所示:

图7 v=[0.001:0.01]时,传播到达稳定状态的时间变化

图7可知,随着v的增大,话题的传播到达稳定状态的时间越短,即免疫速度的加快,导致传播状态越快消失,传播到达稳定状态的时间越短。这是因为传播状态的消失标志着传播过程的结束,即网络中只要还存在传播个体,传播演化过程则会继续进行。在现实微博网络中,话题传播个体如果一直转发该话题微博,网络中该话题微博仍会出现,传播并未结束。实验结果与现实情况相吻合。

在上述实验中,传播概率p均为常数,即网络中每个个体是否转发话题微博的概率相同,这与现实情况相违背。每个微博用户在话题传播过程中,受传播者的影响力、被传播者对话题的兴趣度等因素的影响,导致个体之间发生转发行为的概率并不相同,为了探讨本文所构建的模型中各因素影响下形成的转发概率p对传播过程的影响,进行了以下实验。

(3)话题传播源对传播过程的影响

设置影响因子α=β=0.5,即用户受自身兴趣度与邻居兴趣度影响相当,统计选择网络中被关注度最大的用户(1号)、综合影响力值最大的用户(3号)以及用户对话题兴趣度最大的用户(213号)作为初始传播节点,根据模型设定的状态转移规则进行迭代,实验结果如图8所示:

图8 舆情话题传播模型在各网络结构中的演化结果

图8表示随时步演进,网络中E、I、R三个状态的变化过程,可知,当传播源为综合影响力值最大的个体时,传播效应最强,舆情话题在网络中的影响范围最广,这与文献[8]结论相符合。传播源的选择不同导致演化结果的不同说明个体在传播中所扮演的角色与其被关注度、综合影响力以及兴趣度等因素有关。

(4)影响因素对传播过程的影响.

分别计算p只与被关注度、综合影响力值、用户兴趣度值有关时,同一传播源所形成的舆情话题的传播情况,如图9所示:

图9 p取不同影响因素参数时舆情话题的传播情况

图9(a)可知,当p只与兴趣度有关时,网络中发生转发行为的个体数比其他两种情况要多,说明兴趣度驱动了个体的转发行为发生;由图9(b)可知,呈正态分布的兴趣度所形成的转发概率p造成的传播范围更广,而综合影响力值由于受到随机分布的行为影响力以及活跃度的影响,传播影响范围受到削弱。结合图9可知,用户的兴趣度是主导微博网络中话题传播的驱动力。

5 结 语

本文在分析了微博网络结构特性以及舆情话题在微博网络中传播特性的基础上,基于传染病理论,提出了具有免疫速率的舆情话题的传播模型。模型综合考虑了影响用户是否转发微博的因素,主要有用户自身对话题的兴趣度、用户被关注度、用户行为影响力、活跃度以及其邻居对话题的兴趣度等,并以真实网络数据为实验网络,对模型进行了仿真分析,分析结果认为模型符合现实情况。但是,在此过程中未对上述影响因素进行实证收集与分析,模型中相关参数采用模拟数据进行,这是本文的不足之处。

参考文献
[1] 张彦超, 刘云, 张海峰, 等. 基于在线社交网络的信息传播模型[J]. 物理学报, 2011, 605): 1-7. (Zhang Yanchao, Liu Yun, Zhang Haifeng, et al. The Research of Information Dissemination Model on Online Social Network[J]. Acta Physica Sinica, 2011, 605): 1-7. ) [本文引用:2] [JCR: 1.016] [CJCR: 1.691]
[2] 张彦超. 社交网络服务中信息传播模式与舆论演进过程研究[D]. 北京: 北京交通大学, 2012. (Zhang Yanchao. Research on Information Dissemination and Opinion Evolution in the Social Networking Services[D]. Beijing: Beijing Jiaotong University, 2012. ) [本文引用:1] [CJCR: 0.3788]
[3] 汪小帆, 李翔, 陈关荣. 网络科学导论[M]. 北京: 高等教育出版社, 2012. (Wang Xiaofan, Li Xiang, Chen Guanrong. Network Science: An Introduction[M]. Beijing: Higher Education Press, 2012. ) [本文引用:3]
[4] Xiong F, Liu Y, Zhang Z J, et al. An Information Diffusion Model Based on Retweeting Mechanism for Online Social Media[J]. Physics Letters A, 2012, 37630-31): 2103-2108. [本文引用:1] [JCR: 1.11]
[5] Zhou Y. News Spreading Model Based on Micro-Blogging Platform in Network Era[A]. //Informatics and Management Science VI[M]. London: Springer, 2013: 173-180. [本文引用:1]
[6] 赵丽, 袁睿翕, 管晓宏, 等. 博客网络中具有突发性的话题传播模型[J]. 软件学报, 2009, 205): 1384-1392. (Zhao Li, Yuan Ruixi, Guan Xiaohong, et al. Bursty Propagation Model for Incidental Events in Blog Networks[J]. Journal of Software, 2009, 205): 1384-1392. ) [本文引用:1] [CJCR: 2.181]
[7] 李军, 陈震, 黄霁崴. 微博影响力评价研究[J]. 信息网络安全, 20123): 10-13, 27. (Li Jun, Chen Zhen, Huang Jiwei. Micro-blog Impact Evaluation Study[J]. Netinfo Security, 20123): 10-13, 27. ) [本文引用:1] [CJCR: 0.3289]
[8] 原福永, 冯静, 符倩倩. 微博用户的影响力指数模型[J]. 现代图书情报技术, 20126): 60-64. (Yuan Fuyong, Feng Jing, Fu Qianqian. Influence Index Model of Micro-blog User[J]. New Technology of Library and Information Service, 20126): 60-64. ) [本文引用:1] [CJCR: 1.073]
[9] Cha M, Haddadi H, Benevenuto F, et al. Measuring User Influence in Twitter: The Million Follower Fallacy[C]. In: Proceedings of the 4th International AAAI Conference on Weblogs and Social Media. 2010: 10-17. [本文引用:1]
[10] Wu X, Wang J . Micro-blog in China: Identify Influential Users and Automatically Classify Posts on Sina Micro-blog[J]. Journal of Ambient Intelligence and Humanized Computing, 2012. doi: 101007/S12652-012-0121-3. [本文引用:1]
[11] 马知恩, 周义仓, 王稳地, 等. 传染病动力学的数学建模与研究[M]. 北京: 科学出版社, 2004. (Ma Zhien, Zhou Yicang, Wang Wendi, et al. Epidemic Dynamics of Mathematical Modeling and Research [M]. Beijing: Science Press, 2004. ) [本文引用:1]
[12] Kermack W O, McKendrick A G. A Contributions to the Mathematical Theory of Epidemics[J]. Proceedings of the Royal Society A, 1927, 115772): 700-721. [本文引用:2] [JCR: 0.637]