微博用户行为统计特性及其动力学分析*
何静, 郭进利, 徐雪娟
上海理工大学管理学院 上海 200093
摘要

以新浪微博为研究对象,运用复杂网络和统计学的方法从个体和群体层面对微博的网络拓扑结构和用户的行为特性进行统计分析。结果表明,微博用户的行为表现出多重的标度特性,其中节点的度分布和微博发布行为近似服从幂律分布,而转发和评论行为表现为指数截断的幂律分布。在此基础上,运用兴趣驱动机制和重尾特性对其进行分析,得到微博用户行为的一些共性。这可以为微博信息的传播动力学研究提供有益的帮助。

关键词: 微博; 社交网络; 用户行为; 指数截断的幂律分布
Analysis on Statistical Characteristic and Dynamics for User Behavior in Microblog Communities
He Jing, Guo Jinli, Xu Xuejuan
Business School, University of Shanghai for Science and Technology, Shanghai 200093, China
Abstract

Using the complex network and statistical methods, this paper analyzes the network topology and user behavior characteristics of the Sina micro-blogging on the individual and group levels. The results show that human behaviors have different multi-scaling characteristics. Of which, node degree distribution and microblog-post behavior approximately obey the power law distribution; however the forwarding and comment behavior obeys exponential truncated power-law distribution. Based on this, the interest-driven mechanism and heavy-tail characteristics of the user behavior are studied and some commonalities are botained. It is helpful to the research of public opinion propagation dynamics.

Keyword: Micro-blogging; Social network; User behavior; Exponential truncated power-law distribution
1 引 言

随着微博应用的发展,人类社会跃入了移动互联网时代。微博作为主流的在线社交网络平台,具有即时发布、实时传播、多途径参与、简便易用等特点,成为人们生活、娱乐和工作中的一个重要组成部分。CNNIC发布的第31次《中国互联网络发展状况统计报告》[ 1]显示,截至2012年底,我国网民规模达到5.64亿,微博用户为3.09亿。鉴于其庞大的用户群,微博成为移动互联网时代的又一关键应用。

在传统的人类动力学研究中,大多数学者利用泊松过程来描述人类行为,认为人们的相继行为发生的时间间隔分布是均匀的。但是随着数据挖掘和信息处理技术的提高,许多研究表明人类的行为偏离了泊松过程。Barabási[ 2]通过对实际的电子邮件发送与回复等人类邮件通信行为的时间间隔进行统计分析,发现人类行为的发生具有短时间内的爆发和长时间的静默并存的特征,这些行为并不能用泊松过程来描述。在现实生活中,大多数的人类行为也具有类似的特征。比如研究者对人们的网页浏览[ 3]、手机通信[ 4]、电影点播[ 5]等行为进行了统计分析,结果均表明,人类行为发生的时间间隔服从标度幂律分布,且幂律指数在1-3之间。樊超等[ 6]对某大学师生的图书借阅行为进行了统计分析,结果表明群体和个体的借阅行为表现出不同的统计特征。在人类行为的内在驱动机制方面,戴双星等[ 7]提出了基于兴趣驱动的动力学模型;Guo等[ 8]通过对科学网博客的用户评论行为进行研究,发现用户评论时间间隔近似服从指数为1-2的幂律分布,由此提出了一个兴趣逐渐消失的人类动力学模型。

人类的行为是非常复杂的,而且容易受到个人的兴趣爱好、所从事的工作类型以及人际关系网络等因素的影响,微博用户也同样如此。在微博中,用户的行为偏好大多体现在他所关注的用户类型,如旅游、交友、新闻等。用户之间通过关注和粉丝关系进行信息的传递和共享,从而形成一个人际关系网络。目前关于微博用户行为特性的研究还比较少。尹书华[ 9]对新浪、腾讯和搜狐三大微博网络进行了统计,结果表明微博网络用户的节点度服从幂律分布,具有无标度特性和小世界效应。Yan等[ 10]对新浪微博用户的信息发布行为进行研究,提出了一个由兴趣和社会身份驱动的人类行为动力学模型,研究结果表明用户的社会身份驱动着兴趣的变化,从而影响着信息的转发或评论行为。赵文兵等[ 11]以和讯财经微博为例,对微博用户的特性及动机进行了分析,结果表明关注数、被关注数和博文数均具有统计特性,且具有地域差异性。其他关于微博的研究大都集中在微博的网络演化、信息的传播机制以及微博营销等方面。随着大数据时代的来临,用户的行为和信息的传播方式都呈现出多样化的发展趋势,通过对用户行为的研究进而预测事件的发展趋势,可以为微博的发展提供更好的策略。

现有关于人类行为偏离泊松过程的研究大都集中于针对事件发生的时间间隔的统计。但是人类的行为是高度复杂的,用户的行为不仅仅体现在时间间隔上,事件发生的频次和概率、事件之间的相关性等也能够反映出人类行为的某种规律。因此,从个体和群体层面对微博用户的信息发布、转发和评论行为进行多角度研究,可以得出用户行为的若干特性。

本文基于新浪微博的实际用户数据,构建了一个微博用户关系网络,综合运用复杂网络和统计学的方法对微博的网络特性和用户行为特性进行定量分析。结果表明,微博用户的行为具有高度的复杂性和多重标度特性。在此基础上,结合人类行为动力学理论得出了微博用户行为的一些共性。

2 数据采集

作为当前国内主流的社交网络平台,新浪微博(http://weibo.com)拥有庞大的用户群。笔者选取新浪微博的实际用户作为研究样本,以某一特定用户为根节点,运用广度优先搜索算法和爬虫软件,收集了近10 000个微博用户的样本数据(数据集1),包括用户的粉丝数、关注数、发布的微博数等数据。此外,还抓取了微博名人堂中前100位媒体、网站和名人等不同类型用户的实际微博数据(数据集2)。数据集的结构如下:

Dataset1 (user_ID, follower, following, weibo_No);

Dataset2 (user_ID,weibo_ID,zf_No,pl_No,fb_time,zf_ time)。

其中,user_ID作为主关键字代表着微博用户的身份标识;用户的粉丝数follower、关注数following和微博数weibo_No表征微博的用户属性;微博信息weibo_ID、转发数zf_No、评论数pl_No、发布时间fb_time和转发时间zf_ time表征微博的传播属性。在微博中,可以通过用户ID和用户之间的连接关系(粉丝和关注)构建一个微博用户网络,因此可以借助于复杂网络和人类行为动力学理论对用户的行为特性进行深入分析。

尽管获取的数据量不大,但是根据人际关系中的六度分割理论,这些用户数据的统计结果在很大程度上仍然可以反映微博用户行为的若干普适性。在数据分析的过程中,主要运用Matlab、SPSS和Excel等工具对样本主体数据进行处理和分析,得到双对数坐标下的分布散点图,再采用一元线性回归或最小二乘法进行拟合,拟合曲线的斜率即为幂指数。

3 微博网络节点的度分布分析

舆论的形成是大众传媒与人际传播共同作用的结果,其在微博上的传播过程可以看作是服从某种规律的网络传播行为。在微博中,若以注册用户为节点,以用户之间的关系为连接边,则可以构造一个微博用户关系网络。例如用户A是用户B的粉丝,则形成一条A→B的连接边;用户B是C的关注好友,则形成一条C→B的连接边。如果某用户发布了一条微博信息,则该信息会沿着他的粉丝向外界传播。

在复杂网络中,常用节点的度分布、网络的聚类系数及最短路径长度来描述网络的整体特征。对用户的粉丝数和关注数进行统计分析,得到网络的入度和出度分布图,如图1所示:

图1 微博用户网络的入度和出度分布

图1分析得出,微博用户网络的节点度近似服从幂律分布,幂律指数γin=0.8,γout=1.12。借助Pajek对其进行可视化分析,得到网络聚类系数C=0.267,最短路径长度L=3.45。可以看出微博用户网络具有较短的平均路径长度和较高的聚类系数,是一个典型的小世界网络,具有无标度特性和小世界效应。

此外,从图1中可以明显地看到用户的粉丝数分布表现出明显的重尾特性,即大部分的普通用户的粉丝和关注的数量都比较少;而一些少量的用户如企业家、体育和娱乐明星等,却拥有大量的粉丝群。这些明星用户往往具有较高的影响力和吸引度,成为网络中的Hub节点,表现出富者愈富的现象。

4 微博信息的发布行为统计分析
4.1 个体用户微博发布时间的概率分布

在现实社会中,人们每天都要参与大量不同类型的活动,如QQ聊天、网页浏览、参加娱乐活动等,而人们的这些行为通常都会表现出一定的规律性。比如在同一活动中连续两次相继行为发生的时间间隔就反映了人类行为发生的密度和概率。

为了探究用户微博信息发布的时间规律,笔者从得到的数据集中选取某位活跃用户A,统计其在一天内发布微博信息的时间序列,时间间隔精确到分钟。用户A一天共发布140多条微博,但大多数都集中于中午12-14点和晚上19-22点这两个时间段内。这与电子邮件、移动通讯等使用高峰期常常出现在上午10点和下午3点左右的情况存在显著差异。微博使用高峰期滞后的现象表明,微博的使用主要是在工作之余的碎片时间。每个单位时间(1h)内用户A发布微博的时间序列如图2所示:

图2 用户A发布微博的时间序列

图2中可以看出,用户微博信息发布行为的阵发现象比较显著,明显地偏离了泊松过程。可见,用户的行为具有周期性和阵发性等特点。为了进一步研究用户的微博发布行为,笔者对用户A发布微博信息的时间间隔进行了统计,得到双对数坐标下用户A发布微博的时间间隔的概率分布,如图3所示:

图3 双对数坐标下用户A发布微博的时间间隔分布

运用回归方法得到主体样本数据的拟合直线,结果表明A用户发布微博的时间间隔服从幂指数γ=0.7的幂律分布,拟合优度R=0.976。正是由于个体用户发布微博时间的非均匀性,造成了微博发布时间概率呈现幂律分布的现象。

4.2 群体用户的微博发布行为分析

社会中人与人之间并不是孤立的,而是一个相互联系的有机整体,如所有的微博用户就可以看作是一个群体,信息正是在群体环境中才能进行共享和传递。但由于微博群体用户的数量较大,这里选择数据集1中的部分用户作为群体样本进行分析,以考察群体用户在一天24小时内发布微博的时间序列的统计特征。群体用户发布微博的时间序列和单位时间内(1h)发布微博的数量统计结果如图4所示:

图4 群体用户发布微博的时间序列

群体用户发布微博的行为与个体相似,高峰期出现在中午和晚上两个时间段,这主要与用户的闲余时间有关。大部分的用户都会选择在工作之余或吃饭、候车等排队等待的时间进行微博娱乐活动,表现出一定的规律性和阵发性。此外,还对群体用户发布的微博数进行了统计分析,如图5所示:

图5 群体用户发布微博数的统计

用户发布的微博数体现了用户的活跃度和对于信息的贡献度。图5表明,群体用户发布微博频数表现出较强的不均匀性,其度分布也呈现幂律分布形式。在微博中,大多数用户发布微博数很少,只有少量的用户表现得非常活跃,而这些活跃用户成为了微博信息的主要来源。

5 微博信息的转发和评论统计分析
5.1 单条微博被转发的时间间隔分布

与微博用户的信息发布行为相比,转发和评论行为更容易受到用户关系的影响。微博信息被转发的频次越高,表明该信息的被关注度越高,传播的范围就越广,也越能容易引起公众的共鸣。在一系列的新闻事件(如7.23动车事故、小悦悦事件和药家鑫事件等)中,微博都起到了推波助澜的作用。公众通过微博表达对事件的诉求,甚至出现公众舆论主导了事件的结果。笔者选取了某突发事件中的一条热门微博,以天为单位,统计该微博被转发的时间序列和时间间隔,得到双对数坐标下该微博被转发的时间概率分布,如图6所示:

图6 某微博被转发的时间间隔分布

图6分析得出,微博信息被转发的时间间隔概率分布服从幂指数为1.36的幂律分布。在2012年11月到2013年5月,该条微博总共被转发了7 860次。在事件发生的初期,人们对该信息表现出极大兴趣,转发量都在1 000次以上,当天的转发量更是达到4 600多次。随着时间的推移,人们对于该信息的兴趣渐渐消失,其转发量趋于一个稳定的水平,日均转发量在5次左右。

考虑人类行为中的兴趣驱动机制:事件发生的概率与人们对该事件的兴趣成正比,并且处于不断地调整变化中。在微博网络中,当一个突发事件发生时,与之相关的信息立刻会成为社会舆论和公众关注的焦点,这将导致微博用户会高度关注相关的微博信息;随着时间的推移,舆论逐渐退出人们的视线或被新的突发事件所代替,用户的兴趣逐渐减弱,关注度减小,微博信息被转发的次数也随之减少。因此,社会关注程度和用户兴趣与微博信息被转发的频次呈现出一定的正相关性。

5.2 群体用户的微博转发和评论数分布

在微博信息的传播过程中,信息被转发和评论的频次分布能够直观地表现出信息的传播范围。因此,针对数据集2,笔者分别对媒体用户、网站用户和名人用户的微博被转发和评论的频次分布进行分析。样本主体数据的分布图和拟合结果如图7所示:

图7 媒体、网站和名人用户的微博被转发和评论的频次统计
(注:A和B为媒体用户,C和D为网站用户,E和F为名人用户。)

图7中可以看出,微博信息被转发的频次并非服从单一的幂律分布或指数分布,具有典型的非均匀分布特性。其中大多数的微博信息被转发和评论的次数都非常少,只有很少的微博被大量转发。这表明,用户对微博信息的转发和评论行为具有优先选择的特点。

采用最小二乘法对主体数据进行拟合,得到微博信息的转发和评论行为近似服从指数截断的幂律分布,其分布形式可以用f(x)=aeαx(x+b)γ来表示,拟合结果见图7。从拟合结果来看,媒体用户和网站用户的幂指数都在1.5左右,而名人用户的幂指数却小于1,表现出两种不同的统计特征。这可能是源于名人用户的名人效应,他们拥有很高的关注度和影响力,成为网络中的意见领袖。而普通用户往往倾向于关注那些已获得较高转发或评论次数的微博信息,从而造成微博信息在传播过程中出现两极分化的现象。

5.3 用户的粉丝数与微博被转发数的相关性分析

转发和评论行为在一定程度上代表着微博信息对于用户的吸引力。笔者推测,用户的粉丝数与转发和评论行为之间可能存在一种必然的联系。用户的粉丝数越多,那么他所发布的微博信息就会被越多的人所接收,被用户转发的几率就越大;另一方面,如果用户对于该信息表现出浓厚的兴趣,他就越想通过转发来吸引公众的目光,使得该信息被更多的人所接收,实现传播的最大化。从这个意义上来说,相比信息评论,用户的微博转发行为更值得研究。因此,笔者对数据集1中10 000名用户的微博的最大被转发数和其粉丝数进行统计分析,结果如图8所示:

图8 双对数坐标下粉丝数与转发数的相关关系

对统计数据进行线性拟合,得到相应的拟合直线f(x)=ax+b。结果表明,在双对数坐标下,用户的粉丝数和微博被转发数之间存在较为显著的线性正相关性。即用户的粉丝数越多,其微博被转发的频次就越高。这表明,除了用户的兴趣驱动和优先选择外,微博用户的影响力(可由粉丝数来直观体现)是形成转发频次分布服从指数截断的幂律分布的重要原因。

根据样本拟合结果,用户的粉丝数和微博被转发数之间的相关性关系可以用方程lny=alnx+b进行描述,其中,x表示粉丝数,y表示被转发数。解之得y=ebxa,表现为一条平缓弯曲右上的曲线,这与理论分析结果也吻合。

6 结 语

本文从个体和群体层面对微博用户的信息发布、转发和评论行为进行了实证分析,实证结果表明:人类行为的统计规律在群体或组织层面有着混合或者分段的分布形态,而个体行为都服从单一的幂律分布。说明人类行为具有高度复杂性和多重标度特征。鉴于庞大的微博用户群,很难获取所有的用户数据来研究用户的行为特征。但是通过抽样分析,在一定程度上也反映出用户行为的一些共性。

纵观以上的分析结果,可以得出微博用户的行为具有以下普遍特性:

(1)重尾特性:不论是发布微博信息,还是转发和评论微博信息,用户行为发生的时间间隔都服从无标度幂律分布,且幂律指数在1-2之间。

(2)级联特性:大多数用户在转发和评论微博信息的过程中,都会倾向于优先选择热门微博,这样大大缩减了事件发生的时间间隔,对幂律的成因进行了较好的解释。

(3)兴趣驱动:用户行为的发生很大程度上是一种兴趣驱动行为,这种兴趣也具有较大的非均匀性。当用户的兴趣减弱时,事件发生的概率也随之降低。

(4)自相似性:不同类别的群体用户的转发和评论行为表现出相同的分布形式,表明用户的行为具有自相似特性,即表现出一定的规律性。

本文对微博用户行为模式的定量分析有助于揭示用户行为与信息传播之间的功能关系,进而对研究微博的网络结构和信息的传播控制等有一定的借鉴意义。

参考文献
[1] 中国互联网络信息中心. 中国互联网络发展状况统计报告[R/OL]. [2013-05-16]. http://www.cnnic.net.cn. (China Internet Network Information Center. China Internet Development Statistics Report[R/OL]. [2013-05-16]. http://www.cnnic.net.cn. ) [本文引用:1]
[2] Barabási A L. The Origin of Bursts and Heavy Tails in Human Dynamics[J]. Nature, 2005, 435: 207-211. [本文引用:1] [JCR: 38.597]
[3] 赵庚生, 张宁. 群体用户的网页浏览模式[A]. //郭进利, 周涛, 张宁, 等. 人类行为动力学模型[M]. 香港: 上海系统科学出版社, 2008: 138-143. (Zhao Gengsheng, Zhang Ning. The Patterns of Web Browse for Group Users[A]. //Guo Jinli, Zhou Tao, Zhang Ning, et al. Dynamic Model of Human Behavior[M]. HongKong: Shanghai System Scientific Publishers, 2008: 138-143. ) [本文引用:1]
[4] 洪伟, 韩筱璞, 周涛, 等. 短信息通信中的多重标度特性[A]. //郭进利, 周涛, 张宁, 等. 人类行为动力学模型[M]. 香港: 上海系统科学出版社, 2008: 108-117. (Hong Wei, Han Xiaopu, Zhou Tao, et al. Multi-scale Characteristics of Short Message Communication[A]. //Guo Jinli, Zhou Tao, Zhang Ning, et al. Dynamic Model of Human Behavior[M]. HongKong: Shanghai System Scientific Publishers, 2008: 108-117. ) [本文引用:1]
[5] 周涛. 在线电影点播中的人类动力学模式[J]. 复杂系统与复杂性科学, 2008, 51): 1-5. (Zhou Tao. Human Activity Pattern on On-line Movie Watching[J]. Complex Systems and Complexity Science, 2008, 51): 1-5. ) [本文引用:1] [CJCR: 0.6105]
[6] 樊超, 郭进利, 纪雅莉, 等. 基于图书借阅的人类行为标度律分析[J]. 图书情报工作, 2010, 5415): 35-39. (Fan Chao, Guo Jinli, Ji Yali, et al. Analysis of Human Behavior Scaling Law Based on Library Loans[J]. Library and Information Service, 2010, 5415): 35-39. ) [本文引用:1] [CJCR: 1.193]
[7] 戴双星, 陈冠雄, 周涛, 等. 兴趣驱动的人类动力学模型研究[A]. //郭进利, 周涛, 张宁, 等. 人类行为动力学模型[M]. 香港: 上海系统科学出版社, 2008: 54-58. (Dai Shuangxing, Chen Guanxiong, Zhou Tao, et al. Research on Interest-Driven Human Dynamics Model[A]. //Guo Jinli, Zhou Tao, Zhang Ning, et al. Dynamic Model of Human Behavior [M]. HongKong: Shanghai System Scientific Publishers, 2008: 54-58. ) [本文引用:1]
[8] Guo J, Fan C, Guo Z. Weblog Patterns and Human Dynamics with Decreasing Interest[J]. The European Physical Journal B-Condensed Matter and Complex Systems, 2011, 813): 341-344. [本文引用:1] [JCR: 1.282]
[9] 尹书华. 基于复杂网络的微博用户关系网络特性研究[J]. 西南师范大学学报: 自然科学版, 2011, 366): 57-61. (Yin Shuhua. A Research of User Relations Properties Based on a Complex Network of Microblog[J]. Journal of Southwest China Normal University: Natural Science Edition, 2011, 366): 57-61. ) [本文引用:1] [CJCR: 0.6081]
[10] Yan Q, Yi L, Wu L. Human Dynamic Model Co-driven by Interest and Social Identity in the MicroBlog Community[J]. Physica A: Statistical Mechanics and Its Applications, 2012, 3914) : 1540-1545. [本文引用:1] [JCR: 1.676]
[11] 赵文兵, 朱庆华, 吴克文, 等. 微博客用户特性及动机分析——以和讯财经微博为例[J]. 现代图书情报技术, 20112): 69-75. (Zhao Wenbing, Zhu Qinghua, Wu Kewen, et al. Analysis of Micro-blogging User Character and Motivation[J]. New Technology of Library and Information Service, 20112): 69-75. ) [本文引用:1] [CJCR: 1.073]