为研究微博关注关系网络的特征,以新浪微博为例,引入复杂网络分析方法对微博关注关系网络进行实证分析。首先对微博关注关系网络进行K-核分解,获取微博核心用户关系网络。然后计算K-核网络基本参数、跟随比例和度相关性,发现其既具有在线社会网络的一般特征,也具有现实社会网络的一些特点。通过对K-核网络的社区检测及节点中心性、互惠性、中间人角色的分析,发现其网络结构具有明显的社区特性。该研究能够为相关应用提供实证基础。
In order to study the features of microblog following relationship network, the analysis method based on complex network is applied to analyze the following relationship of Sina Microblog in this paper.Firstly,the K-core decomposition operation is performed on a microblog following relationship network to obtain a core user’s relationship network. Secondly, the features of online community network and those of realistic society network can be received in the K-core network by computing the basic parameters of the K-core network, following ratio and degree correlation. Finally, a conclusion can be obtained that the community characteristic of the network structure is very obvious by community detecting on the K-core network and analysis of the node centrality, reciprocity and the role of brokerage. Experimetnal results show that the research work of this paper can provide effectively a fundamental empirical analysis for related applications.
近年来,社会媒体(Social Media)随着互联网应用的变革而迅猛发展,微博(Microblog)作为一种典型的社会媒体,目前已成为继网络新闻、网络论坛之后的又一大网络信息源[ 1]。通过微博,用户可以实时生产、发布、转载和反馈信息。微博用户之间通过“关注”(Follow)操作建立联系,关注者成为被关注者的“粉丝”(Follower)。微博用户可以通过Web、Wap以及各种客户端组件发布信息,该用户的“粉丝”可以即时获取该信息并评论该信息,还可以通过转发让他的“粉丝”分享该信息。因此用户之间的关注关系是整个微博运行的基础。主流微博平台均拥有庞大用户群,用户之间的关注关系可以用一个规模巨大的图结构来描述,这个图结构具有与现实社会中人与人关系类似的特征,是一个“在线社会网络”(Online Social Network)[ 2]。
复杂网络作为描述自然界和人类社会各种复杂系统的有力工具,目前已广泛应用于社会科学、生命科学和信息科学等领域,也是当前社会网络研究的主流方法[ 3]。本文采用复杂网络分析技术对新浪微博关注关系网络的K-核结构进行实证分析,对于揭示微博核心用户之间的关联关系特征和信息传播机制具有重要意义,研究成果有望在互联网舆情监控、信息检索、信息推荐等领域获得应用。
在国外,采用复杂网络方法对社会网络进行分析已开展较多研究。Mislove等[ 4]在2007年首次对大规模社交网站Flickr、YouTube等进行研究,发现这些网站的用户关系网络具有小世界、无标度等复杂网络的典型特征。随着世界上第一个微博网站Twitter的出现及迅猛发展,社会网络研究的关注点转移到微博上。Java等[ 5]对早期的Twitter用户关系网络进行研究,发现该网络的度分布服从幂律分布,并且具有小世界特性以及较高的互惠性。Teutle[ 6]研究了复杂网络及网络动力学理论在分析Twitter用户关系网络特性方面的可行性,并计算了Twitter用户关系网络的基本参数。Kwak等[ 7]对大规模Twitter用户的关系网络进行分析,发现其虽然符合小世界、无标度等复杂网络特征,但其节点的出度和入度并非严格遵循幂律分布,而且用户之间的连接是非对称的。
在国内,采用复杂网络方法研究社会网络也取得一定成果。胡海波等[ 8]研究了一个大型在线职业人士社交网络的结构特性,发现与现实社会网络相比,它不仅表现出典型复杂网络特征,而且表现出连通子图规模分布、度分布和社团规模分布中所呈现的锯齿状以及度异配性等特性。余高辉等[ 9]抽样构建了QQ群好友关系的复杂网络模型,并对其属性及动力机制进行分析,得出QQ群好友网络具有稀疏性、增长性与小世界性等特征的结论。
随着以新浪微博和腾讯微博为代表的国内微博平台的崛起,研究微博用户之间的关联关系在学术界与工程界越来越受到重视。王晓光等[ 10]以微博网站“Myspace9911”中的54位名人微博为研究样本,通过核心-边缘分析和聚类分析,研究了微博社区用户交流网络结构,界定了核心与边缘区域,发现了核心区域和聚类群组的联系。袁毅等[ 11]随机抽取了新浪微博客上的一篇博文,跟踪该博文引发用户交流而形成的各种关系网络(包括关注网络),并比较和分析其不同的结构形态及其交流特征。何黎等[ 12]研究了由102个微博用户构成的关注关系网络,并用UCINET软件实现了对核心用户的挖掘操作。Kang等[ 13]研究了新浪微博的用户网络结构,发现其具有小世界、无标度和高聚类性,是一个典型的复杂网络。田占伟等[ 14]发现新浪微博用户网络中介数中心点对信息传播效率的贡献显著,节点在信息传播中的作用差异很大,易于形成意见领袖,同时发现如果按行业属性对网络进行群落划分,各群落在微博中表现出的信息传播特性与在现实社会中相似。Fan等[ 15]研究了新浪微博的网络结构,给出其入度和出度分布,发现其满足幂律分布。Guo等[ 2]发现新浪微博用户关注关系网络中,大部分关联是单向的,且有一个结合紧密的核心网络,其半径相对于其他社会网络来说更短,说明微博用户之间联系更紧密。
以上研究中用户关系网络的规模都是有限的,并且没有经过去噪与科学抽样处理。而主流的微博平台其用户数以亿计,随机抽取其中少量用户构造网络并进行研究,难以探究微博用户关系的普遍规律。本文以包含数百万用户的新浪微博数据集为基础,首先通过K-核分解获取核心用户关注关系网络,然后采用复杂网络分析技术对其进行实证分析,计算获得了重要的复杂网络参数,揭示了微博核心用户之间关联关系的宏观规律和内在机制。
本文以新浪微博为研究对象,原始数据来自微博爬盟[ 16]。微博爬盟是一个互联网公益组织,通过众包方式为高校学生和科研人员抓取所需要的互联网数据,目前以抓取微博数据为主,包括博主信息和博主的关注关系。通过微博爬盟获取了一个包含N个用户信息及其关注关系的数据集,N≈2.2×106。以用户为节点,用户之间的关注关系为边(若用户A关注了用户B,则从节点A到节点B划一条有向边),构建了一个用户关注关系网络,称为初始网络。微博中有大量的非活跃用户,尤其是那些“粉丝”少的用户,他们在微博中活跃度不高,对微博平台的贡献不大。为去除这些不活跃的非核心用户,采用K-核分解对初始网络进行处理。
网络的K-核是指网络中节点度值大于或等于K的节点所组成的网络,K-核分解是指把网络中节点度值小于K的节点去除的过程[ 3]。在网络中,1-核网络就是初始网络,(K+1)-核网络是K-核网络的子网络。针对无向图的K-核分解过程如图1所示:
其中图1(a)是一个1-核网络(初始网络),图1(b)是经过2-核分解后得到的2-核网络,图1(c)是经过3-核分解后得到的3-核网络。
有向网络有三种不同的K-核分解形式:把有向图当作无向图处理,即不考虑边的方向;只考虑入度,称为入度分解;只考虑出度,称为出度分解。将包含N个节点的初始网络输入Pajek软件,对网络进行入度30-核分解,得到30-核网络,记为K30。然后依次获得K40、K45、K50、K55、K60、K65。本文主要考察这些K-核网络。
从节点数、边数、密度、平均度、连通块数等几个方面考察K-核网络,参数计算结果如表1所示:
![]() | 表1 K-核基本参数 |
在微博中,有的用户主要是分享博文信息,有的主要是获取博文信息,可用跟随比例[ 6]来描述用户的这类行为。跟随比例是指用户的粉丝数与关注数的比例,公式如下所示:
当FR<<1时,用户在微博中主要充当信息获取者的角色;FR>>1时,用户在微博中主要充当的是信息分享者;FR约等于1时,用户既是信息获取者也是信息分享者。
对不同K-核网络的用户跟随比例进行了统计,包括FR的最大值、均值、中位数、最小值,以及小于0.1、小于1、等于1、大于1、大于10的用户所占的比例,如表2所示:
![]() | 表2 K-核的跟随比例 |
度相关性相对于度分布来说,更能体现网络中节点之间的连接特性。网络的度相关性可以用余平均度来度量。节点的余平均度[ 3]是指节点的邻居节点度的平均值。令节点i的ki个邻居节点的平均度为<knn>i,则:
假设网络中度为k的节点为v1,v2,…,vik,那么度为k的节点的余平均度计算公式如下:
当<knn>(k)-k的曲线斜率大于0时,该网络为同配网络,斜率小于0时,为异配网络。同配网络中度大的节点倾向于和度大的节点相连,异配网络中度大的节点倾向于和度小的节点相连。
以K60网络为代表,计算其度与余平均度之间的关系,如图2所示:
图2说明,K-核网络是同配网络。已有研究表明,大多数现实社会网络具有同配特性,即度大的节点倾向于和度大的节点相连[ 17]。从社会学角度来说,这是合理的,因为在现实生活中,虽然普通人希望和名人建立联系,但名人更倾向于和自己同等地位的人交往,从而形成同配性。然而,在线社会网络经常会表现出异配性,即度大的节点倾向于和度小的节点相连[ 17]。因为在线社会网络打破了社会阶层间无形的壁垒,每个人都有机会并可以很容易跟那些人气值很高的个人建立联系。但是本文的K-核网络并没有表现出大多数在线社会网络的异配性,而是表现出与现实社会网络类似的同配特性。产生这一结果的原因是微博关注关系网络经过K-核分解后,保留的是联系紧密的核心用户,这些用户可能在现实生活中就是熟识的,K-核网络在很大程度上反映的就是现实生活中这些用户之间的关系(尤其是K值较大时),对K-核网络的社区分析也说明了这一点。
在线社会网络一般都表现出很强的社区特性,即网络由若干较为明显的社区构成,社区内部用户之间的联系较为紧密,而社区之间用户的联系较为稀疏。这些社区可能是网络上形成的虚拟团体,也可能是真正的社会团体,社区成员一般拥有共同的兴趣爱好或相似的背景。以K60为例进行社区检测和分析。K60包括3 156个节点,188 841条边,节点的平均度为119.67,最短平均路径为2.9,网络密度为0.019,聚类系数为0.61。利用Pons等[ 18]提出的随机游走方法在R语言环境下编程实现对K60网络的社区检测,共得到27个社区,其模块度为0.947。社区的基本参数如表3所示:
![]() | 表3 社区相关信息 |
![]() | 表4 社区分布 |
(1)节点中心性分析
节点中心性反映的是网络中节点的重要程度,度量节点中心性的参数有很多,如度、介数、接近度等[ 3]。在27个社区中,随机抽取编号为20的社区进行分析。该社区中包括163个节点,12 989条边,分别计算每个节点的度、介数和接近度。3个参数之间的关系如图3所示:
从图3可以看出,3个参数基本呈现正相关关系,说明3个参数对节点中心性的描述能力是类似的。对每个节点的度、介数和接近度3个参数加权平均并进行排序,提取排名靠前的10个用户,发现他们均来自同一个技师学院,这10个用户中有9个是该学院老师,且大部分是该学院的上层领导,由此可以推定社区形成是现实关系驱动的,与现实社会网络具有相似性。
(2)互惠性分析
在一个有向网络中,当节点A连接到节点B上,且节点B也连接到节点A上时,就称节点A与B是互惠的,一个节点的互惠数是指该节点与网络中存在互惠关系的节点总数[ 19]。具体到本文的微博用户关注关系网络,相互关注的用户之间是互惠的,用户的互惠数指网络中与该用户存在相互关注关系的节点总数。为研究社区的社区性,首先计算社区内每个用户的互惠数d与社区总节点数n的比例d/n,比例均值记为biin,biin反映了社区内部用户之间联系的紧密程度,biin越大联系越紧密。其次,计算社区内每个用户的互惠数d与该用户在整个网络中的互惠数N的比例d/N,比例均值记为biout,biout反映的是社区内部用户与外部用户联系的紧密程度,biout越大,社区节点越倾向于与社区内部节点建立联系,而不是与社区之外的节点建立联系。27个社区的biin与biout计算结果如表5所示:
![]() | 表5 社区互惠性 |
(3)中间人角色分析
在一个社区中存在一些“中间人”,在不同的社区之间也可能存在一些“中间人”[ 20]。中间人指的是居于中间位置的人。具体来讲,就是网络中存在三个节点A、B、C,它们之间的关系是B有一个指向A的有向边,A有一个指向C的有向边,而B与C是没有关系的。这样可以认为A在三者之间充当中间人的角色。根据A、B、C三者是否属于同一个社区,可以把A作为中间人的角色分为5类,分别是:协调员、顾问、代理人、守门人、联络人,如图4所示:
观察图4发现只有“协调员”子图中A、B、C处于同一社区,“联络人”子图中三个节点分别处于三个不同社区,其他三个角色子图中,三个节点分别处于两个社区。直观看,若一个网络中充当“协调员”的节点比例较高,则这个网络的社区性比较明显,若一个网络中“联络人”节点的比例较高,则这个网络的社区性就较弱。以K60网络及其27个社区为例,考察充当各类中间人角色的节点的数量情况,结果如表6所示:
![]() | 表6 中间人角色统计 |
在线社会网络的量化分析是一个涉及社会学、管理学、数学、信息科学的研究分支。本文以新浪微博为例,构建并研究了微博用户关注关系网络,特别是反映微博核心用户之间关注关系的K-核网络。通过对K-核网络基本参数的计算和其社区结构的分析,发现微博核心用户关系网络既具有在线社会网络的一般特征,也带有现实社会网络的一些特点。度的相关性计算显示K-核网络没有表现出大多数在线社会网络的异配性,而是表现出与现实社会网络类似的同配特性,说明它在很大程度上反映的是现实社会中的社会团体结构。社区检测及其模块度计算显示本文网络具有明显的网络社区特性,中间人角色分析结果也证明了这一点。度中心性、介数中心性、接近度中心性计算表明,微博核心用户之间的关注关系是现实关系驱动的,相对于一般的在线社会网络其与现实社会网络更具相似性。互惠性分析从另一个角度反映了K-核网络的这一特点。对于以上发现本文分析了原因,并给出了其合理性分析。
本文工作有助于揭示在线社会网络,尤其是微博核心用户之间的关联关系和信息传播规律,有助于理解网络虚拟社区的组织结构特征,进而实现对互联网用户的有效管理和对社会网络的有效利用。采用复杂网络理论与技术,研究微博用户关注关系网络在时间轴上的动态演化规律与动力学特征,实现对社会网络信息传播的预测与控制是今后的研究方向。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|