微博用户关注兴趣的社会网络分析
袁园1, 孙霄凌2, 朱庆华1
1.南京大学信息管理学院 南京 210093
2.南京大学工程管理学院 南京 210093
摘要

以新浪微博为研究平台,随机抽取部分用户及其关注对象数据作为研究样本,通过共链关系建立社会网络结构,利用社会网络分析并辅以聚类分析方法对该样本进行整体网络分析、内部子结构分析和角色位置分析,进而从微博关注数据中挖掘用户关注对象的分布及对象间的关联性,并对改进目前的微博关注推荐提出一些建议。

关键词: 社会网络分析; 微博; 用户行为; 关注推荐
Research on Attention Behavior of Microblog Users Based on Social Network Analysis
Yuan Yuan1, Sun Xiaoling2, Zhu Qinghua1
1.School of Information Management, Nanjing University, Nanjing 210093, China
2.School of Management and Engineering, Nanjing University, Nanjing 210093, China
Abstract

Taking the Sina microblog as the object of research, this paper establishes the microblog social network structure through co-link relationship,and then tries to use the social network analysis method and Hierarchical cluster analysis method to carry out centrality analysis, subgroup analysis and the role analysis, in order to find out the relationship between the focus of attention, and give some advice to the present attention recommend system.

Keyword: Social network analysis; Microblog; User behavior; Attention recommend
1 引 言

微博是Web2.0环境下继博客之后兴起的一种新的交流共享方式。与传统博客相比,微博具有“短、灵、快”的特点,允许用户在一定的字数范围内更新信息(通常为140字),并实现即时分享[ 1]。微博自推出来就受到了广泛推崇。据第11届中国网络媒体论坛的数据显示,我国目前网民数为4.85亿,居世界第一,其中微博用户已超3亿[ 2]。时至今日,微博已成为大多数人用以表达自己思想、传播内容和交流学习的平台。

广大的微博用户及其相互间的交互关系(回贴、关注、好友、圈子等)构成了一个庞大的社会网络结构。目前,微博已受到各界学者的广泛研究,但大多数都是对微博所形成的社会网络在结构上和用户态度上的分析,并没有涉及微博用户的行为规律以及它所形成的社群网络内容上的角色关系的探讨。在诸多用户行为中,“关注”行为是用户获取外部信息的重要手段,所以为用户推荐合适的关注对象成为微博平台运营商的服务内容之一,各大运营商所采用的推荐方式主要基于“共同好友”或“间接关注”模式,而对用户本身的关注兴趣的挖掘不够,因此本文主要针对微博用户关注对象的共链关系所形成的社会网络,采用社会网络分析方法,辅以聚类分析方法来挖掘用户关注对象的关联性,从而把握广大用户的偏好倾向和兴趣趋势,提出改进目前微博推荐算法设计思路的建议,以便更好地为人们的学习交流提供服务。

2 文献综述
2.1 互联网主要的关注推荐算法

随着互联网的发展和微博用户数据的急剧增长,如何在海量数据中挖掘表征用户兴趣度的特征,向用户进行更有针对性的个性化推荐,对于提升用户体验至关重要。目前一般的关注推荐算法主要有基于项目的推荐和基于内容的推荐两种[ 3]。Java等[ 4]对Twitter的研究发现,大量的微博用户在使用微博之前相互认识,他们通常经过朋友的邀请来尝试使用微博并相互加为关注好友。所以,目前的各大微博运营商主要是采用基于“热点人物”和好友的好友等“间接关注”的推荐模式。这两种方法虽然给用户提供了庞大的关注推荐人群,却忽略了用户自身的行为习惯和关注兴趣(好友的关注兴趣并非与用户自身的兴趣一致),反而显得信息冗余,让用户无从选择。赵文兵等[ 5]使用计量学方法,通过对微博用户特征的统计分析表明,用户被关注数遵循幂律分布,即只有极少数用户拥有广泛关注,而大多数用户的影响力十分有限。

因此,需要改变传统一般的推荐算法,深入分析各用户关注对象在整个社交网络中的结构位置和角色属性,进而从整体上挖掘广大微博用户关注行为习惯,提高推荐效率。

2.2 社会网络分析方法在社会化媒体研究中的应用

社会网络结构是在社会行动者之间实际存在或者潜在的关系模式。社会网络分析方法将现实复杂网络中的个体和复杂关系抽象成节点、线以及方向,综合利用多种算法,不仅能够测量行动者个体及他们所处的网络成员之间错综复杂的关系和连结,还能对他们之间的互动模式进行可视化建模[ 6]。社会网络分析方法已广泛运用于在线社会网络[ 7, 8, 9]等多种社会化媒体的研究中,比较有代表性的如:Adar等[ 7]利用社会网络的概念,可视化了博客世界中的信息传播途径;Delwiche[ 8]使用社会网络分析工具识别出最具权威性的博客作者;Fu等[ 9]通过运用社会网络分析法的小世界理论研究校内网的一个连通的子社区发现,该社区表现出无尺度特征。微博虽然是一种新的媒体传播形式,但其实质也是一个社会网络。因此,也有学者尝试用社会网络分析方法来解决微博中的种种问题,例如:Teutle[ 10]借用社会网络节点和方向的概念,从出入度和网络密度参数来描述Twitter的网络动态变化趋向;Fischer等[ 11]讨论了Twitter的社会网络结构和交互的运行机制;王晓光等[ 12]则借鉴社会网络的核心-边缘分析界定了微博社区交流网络核心与边缘区域等。相比于项目推荐和内容推荐算法,社会网络结构的方法更能从整体上把握社交网络的总体特征和用户交互情况,而从以往的研究中也证实社会网络的分析方法在微博中的运用是可行和相对成熟的。

3 研究方案与数据获取
3.1 研究方案设计

本文的研究目的在于利用科学方法从海量的微博关注数据中挖掘用户关注对象及关联性,并对改进目前的微博关注推荐提出一些建议。所以如何度量关联性是研究方案设计的基础。

依据链接分析理论:如果网页a和网页b共同被第三个网页c 所链接,则说明 a、b主题之间或多或少都具有一定的相似性或相关性;并且共被链接的强度越大,相关度也越大[ 13]。所以将共链强度作为度量关注对象之间的关联性大小的指标引入到微博中,如果两个微博客关注共现频率越大,即同时被关注的用户数量越多,则说明其越相关。

在微博平台上,微博用户的共链关系形成的网络及其结构性指标也是研究用户及他们所处的网络成员之间错综复杂的关系的重要研究对象,通过文献综述可以看出,社会网络分析作为一种研究方法已经被应用到多种网络社区的研究中。

本文的研究方案是在通过抽样获取微博关注样本数据的基础上,通过共链关系建立社会网络结构,对该社会网络的相关指标进行分析,并辅以聚类分析方法,挖掘出微博用户关注的热点对象,并在此基础上对热点对象进行分类,最后在事实发现的基础上对微博平台的用户关注推荐提出相关建议。

3.2 数据获取

国内多数具有影响力的门户网站都开始提供微博服务,如新浪、腾讯、网易、和讯等。其中,新浪微博更是主打“明星微博”的理念,以明星带动草根,为人们提供了更多“榜样”的范例和直接学习的渠道。《华尔街日报》印刷版援引市场研究公司Red Tech Advisors的数据显示,目前,新浪微博占据国内微博用户总量的57%,以及国内微博活动总量的87%,用户注册数量居于国内第一[ 14]。本文选择以新浪微博为实证研究平台。由于微博平台的数据量较大,所以采用随机抽样的方法获得研究样本。具体操作方法如下:

(1)选取北京、上海、杭州、南京等全国10个较为发达的城市,用Java程序随机抽取每个城市中任意50个微博达人(所谓微博达人是指已具有一定使用年限的微博认证用户,这部分用户具有一定的使用经验,其使用习惯也较为固定、有规律)。

(2)记录下50位微博达人关注的好友中已具有新浪认证的明星(个人主页有“V”符号认证)。这是由于新浪认证明星往往具有一定的社会影响力,是广大用户关注的主流。

(3)将这些明星按照微博用户关注频数从高到低排列,并选取8个不同类别的各前4位明星作为研究的微博明星样本,如表1所示:

表1 32个微博明星分类表

本文根据每个微博明星的主页标签,结合新浪“名人堂”已有的类别对这些明星进行类别划分。“名人堂”已有的类别过于繁复,不利于研究。现有的8个类别在此基础上进行了概括和更大程度的区分。并且,这8个类别涵盖了几乎所有的微博明星用户(去掉了关注频数极低的点)。同时经过多次数据分析发现,当每个类别选取4位以上明星时,会存在大量的孤立节点,没有太大的意义,因此最终在每个类别中选取4位明星。

(4)统计出这32个微博明星两两联系的共链数据,如表2所示:

表2 微博明星共链数据表(部分)

(5)将表2中的共链数据进行“二值化”处理,所采取的方法是在平均共链数以上的数据赋值为1,平均数以下的数据赋值为0。使用UCINET软件得到微博明星共链数据的显现化社群图,如图1所示:

图1 微博明星共链社群图

4 数据分析及讨论
4.1 微博用户关注对象共链网络的整体结构分析

网络的中心性分析是判断行动者在整体网络中重要性的最普遍的分析方法。它分为点的中心度和图的中心势。通过网络中心性分析,可以了解网络的整体集中与分散态势以及网络中存在的核心节点,从整体上对网络图有大致把握。中心度指标主要有两种:点度中心度(Degree Centrality)和中间中心度(Betweenness Centrality)。点度中心度刻画的是一个行动者与其他行动者发生关系的能力,中间中心度刻画的是一个行动者控制网络中其他行动者的能力[ 15]

(1)点度中心度

将共链数据导入UCINET,得到社群节点的点度中心度如表3所示:

表3 社群节点的点度中心度

表3列出了32个博主各自的绝对点度中心度和相对点度中心度。UCINET的分析得出社群图的点度中心势指数为:Network Centralization = 46.02%,说明此社群具有相当高的中心度,这在以上的社群图中也得到了验证。其中点度中心度由高到低排名前5位的博主分别是:1号小S、17号活动小队长、3号蔡康永、2号何炅和20号智微天下-官方。此结果说明在微博社群的沟通交流中,这些微博博主与其他博主的关系紧密,是样本用户关注的核心对象。

(2)中间中心度

将共链数据导入UCINET,对社群图的中间中心度进行测量的结果如表4所示:

表4 社群节点的中间中心度

微博社群图的网络中间中心势指数为:Network Centralization Index = 9.65%。根据表4,可以发现1号小S、17号活动小队长、3号蔡康永、29号李开复、2号何炅和5号蘑菇街均具有较高的中间中心度。此结果说明以上几个微博处于网络中其他微博关联的“中间”位置,对整个网络具有很高的资源控制力和互通连接功能。

与此同时,综合以上中心度分析的结果,1号小S、17号活动小队长、3号蔡康永和2号何炅同时具有非常高的点度中心度和中间中心度,居于网络的绝对核心位置。也就是说这些微博是整个网络中群体关注很高的最为核心的点,是用户关注的核心,也可能是用户借以连接其他的明星微博,进而展开更广泛的微博活动和微博搜索的中间桥梁。

4.2 微博社区群体内部子结构分析

为了刻画这些明星微博间的关系属性,需要进行更深层次的群体内部子结构分析。群体是网络研究的主要内容,也是揭示内部网络结构的重要指标。通过群体分析,能够寻找到蕴涵在网络中的子结构以及相互关系的紧密程度,可以更有力地表征网络结构。本文将采用网络中子群内外部成员之间的关系密度和群体关系的互惠性两个维度进行凝聚子群分析。

(1)成分分析

成分分析根据子群内外部成员之间的关系密度进行凝聚子群分析。如果一个图可以分为几部分,部分内部成员间存在关联,各个部分之间相互独立,则这样的部分就是成分 。本文样本的成分分析结果如表5所示:

表5 社群图中的成分

表5结果显示,32个明星微博博主只分成了两个成分,其中赶集团购单独为一个成分,其他成员共同组成另一个成分。可见,成分分析的结果并不能提供该群体网络内部结构的特征。因此,有必要进行更严密的派系结构分析。

(2)派系分析

派系分析根据群体互惠性关系进行凝聚子群分析。相对成分分析而言,派系分析的要求更为严格。它要求派系中的任何一个成员必须与其他成员相连,而且任何两点间的距离都为1[ 16]。对社群网络图进行派系分析的结果如表6所示:

表6 派系分析结果

表6显示了该网络中的所有派系,共有26个。可见派系数目很多,而且派系间的成员重叠度很高。结合派系重叠度分析的结果,如表7表8所示:

表7 社群中每个成员所在的派系数
表8 每个派系所拥有的成员数

综合以上结果可以看到,在这26个派系中,成员最多的派系有4个,分别是Clique1、Clique2、Clique4和Clique5,每个派系均有14个成员;其次是Clique3、Clique6、Clique7、Clique17和Clique19,每个均有12个成员。观察每一个派系的具体成员,发现小S、活动小队长、智微天下、蔡康永和蘑菇街存在于大多数的派系中,构成了网络社区中的一个核心团队。能够和80%的绝大部分派系保持密切关系。6号美图秀秀、10号微群小助手、18号微博同城会、11号青年时报和2号何炅也出现在半数以上的派系中,说明他们位于核心与边缘的中间位置,在网络中也发挥着重要的作用。美丽说、微潮人、微摄友、黄健翔、360安全卫士等微博只出现在一个派系中,说明这些明星的互动范围很小,与其他派系间只有少量联系。

由此可见,从整体上来说,广大微博用户的兴趣类别和关注圈子极为广泛,而且关注习惯并不均衡,各个派系之间并没有特别明显的区分,多数派系之间只有个别关注对象的变化。在他们所分属的圈子中,并不存在特别明显的内容分类。与此相反,在每一个单独类别中,其个体都是分散在不同派系之中。这说明对于多数微博用户而言,其并非只关注单方面的知识,而更多偏向于综合、全面和广泛的学习交流。其中,以核心团体代表的娱乐类、生活类和时尚类是广大用户所共同关注的焦点类别。传媒类、旅游类和商家类处于中间类别,起桥梁沟通作用,而新浪体育、李承鹏所在的体育类和iPhone、360安全卫士等科技类则可能由于性别和兴趣属性等原因变得较为孤立,属于特殊用户群体的关注兴趣。

4.3 微博社区网络中的位置与角色分析

微博社区群体的整体网络分析和内部结构分析都只是剖析了网络的结构特征,没有从内容上分析单独每个微博的角色意义。分类研究是基于行动者之间的关系特征而得出结论的一种比较独特的研究方法,是依据行动者与其他行动者关系模式的异同而进行分类的[ 17]。同类的行动者在网络中的位置和角色可以互换而不影响网络的性质。因此,为了弥补这一缺陷,本文用层次聚类分析的方法来挖掘微博客类别和内容间的规律。

由于微博客间的共链数据是多值无向数据,因此将微博社区共链数据导入SPSS16.0,以每个微博与其他31个微博间的共链数据作为聚类变量计算指标,得到的该微博社群的聚类结果如图2所示:

图2 微博社区层次聚类结果

多值无向网络的聚类结果与单个成员的共现频率有关。从单个博客所归属的类别上看(从上至下):

(1)体育类的微博:25号李承鹏、27号易建联、28号黄健翔和26号新浪体育单独聚为一类,说明喜欢体育的微博用户较为集中。其中,25号李承鹏和27号易建联具有较高层次上的相似性,最具有结构对等性。

(2)科技类的微博:30号微博iPhone、31号微博Android和32号360聚为一类,29号李开复却单独成类。联系博主身份,可能一部分用户是单纯喜欢科技产品或者技术,而另一部分可能是关注李开复的个人特质或者其产生的影响。毫无疑问,29号李开复可以成为沟通科技类与其他类别用户的很好的桥梁。而31号、32号和30号博主相互间也具有很高的替代性。

(3)商家类的微博:21号嘀嗒团、22号淘宝商城、23号淘宝全球购和24号赶集团购均单独分布于各类微博客博主之间。同样,生活类微博明星也出现此状况。这说明商家类和生活类明星并不十分具有其内容分类特征,而是渗透在各种不同类型的圈子中。其中19号微吃货和24号赶集团购联系尤为紧密,具有很高层次的相似性水平。

(4)旅游类的微博:13号微驴友、14号同程网、15号艺龙旅行网和16号微摄友和传媒类的10号微群小助手、11号青年时报和12号新浪微语相互交叉排列。可见,旅游类和传媒类具有很强的相关性,可以作为共同推荐的类别。

(5)时尚类的微博:7号美丽说和8号微潮人聚为一类,并和16号关系密切;5号蘑菇街和6号美图秀秀另聚一类,紧挨着14号同程网。对于此类别,应该针对两个不同群体采用不同的方法分别推荐。

5 结 语

本文以新浪微博为例,随机选取500个微博达人样本,筛选出他们关注的其中32个明星微博,通过共链分析,结合社会网络分析方法和聚类分析,充分显示了微博社区社会关系中存在的一些规律:

(1)从整体上看,虽然微博用户数极为庞大,但是从随机抽样的结果看,却具有很大的中心集中趋势。大多数微博用户存在着某些共同的微博使用目的和关注习惯。

(2)从单个微博用户的角度而言,多数微博用户并非只关注单方面的知识,而更多偏向于综合、全面和广泛的学习交流。

(3)同类微博角色间存在很大程度的角色替代性,异类微博角色间存在不同程度的位置结构对等性。

根据这些规律,本文认为可以从以下几点对现有的新浪微博社区的设计进行改进:

(1)改变以内容为主的,而采用“以人引导”为主的网页设计和推荐方式。主要寻找微博社区中的中心(活跃)人物,然后辅以展现他们的特征标引和相关链接,带给用户更独特、更个性化的浏览体验。

(2) 可以采用“组合分类”来代替“传统类别分类”。 深入挖掘不同类别博客间的相关性,针对微博采用多重分类法和以兴趣、年龄等特征为主的组合式分类,并主动推荐(以微博圈推荐等)。

(3)利用角色结构对等性,简化繁复的人物关系,改变单一的“共同好友推荐”和“间接推荐方式”,充分挖掘利用微博社区中“中间桥”的人物作用,帮助用户寻找涉足不同类更广泛的活动区域,丰富用户体验。

当然,本文存在一些不足之处,例如在数据获取上,由于受服务器的影响,程序识别有时候并不太稳定,会影响到数据的精确性而只能从总体上反映问题;对于多值数据的“二值化”处理的标准也不太统一等。所以,如何提高多值数据的社会网络分析的准确性从而进一步发现更多规律;以及如何利用这些规律提出更多有建设性的实践指导都需要进一步研究和探索。

参考文献
[1] 微博-百度百科[EB/OL]. (2011-12-21). [2012-01-20]. http://baike.baidu.com/view/1567099.htm.(Microblog-BaiduEncyclopedia[EB/OL]. (2011-12-21). [2012-01-20]. http://baike.baidu.com/view/1567099.htm [本文引用:1]
[2] 中国网络媒体论坛[EB/OL]. (2011-11-22). [2011-12-22]. http://www.chinaz.com.(China’sInternetMediaForum[EB/OL]. (2011-11-22). [2011-12-22]. http://www.chinaz.com [本文引用:1]
[3] Adomavicius G, Tuzhilin A. Toward the Next Generation of Recommender Systems: A Survey of the State of the Art and Possible Extensions[J]. IEEE Transaction on Knowledge and Data Engineering, 2005, 17(6): 734-749. [本文引用:1] [JCR: 1.892]
[4] Java A, Song X D, Finin T, et al. Why We Twitter: Understand ing Microbolgging Usage and Communities[C]. In: Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 Workshop on Web Mining and Social Network Analysis. New York: ACM Press, 2007: 56-65. [本文引用:1]
[5] 赵文兵, 朱庆华, 吴克文, . 微博客用户特性及动机分析——以和讯财经微博为例[J]. 现代图书情报技术, 2011(2): 69-75.
(Zhao Wenbing, Zhu Qinghua, Wu Kewen, et al. Analysis of Micro-blogging User Character and Motivation——Take Micro-blogging of Hexun. com as an Example[J]. New Technology of Library and Information Service, 2011(2): 69-75. ) [本文引用:1] [CJCR: 1.073]
[6] 刘军. 社会网络分析导论[M]. 北京: 社会科学文献出版社, 2004: 9-14.
(Liu Jun. Introduction to Social Network Analysis[M]. Beijing: Social Sciences Academic Press, 2004: 9-14. ) [本文引用:1]
[7] Adar E, Zhang L, Adamic L, et al. Implicit Structure and the Dynamics of Blogspace[C]. In: Proceedings of the 13th International World Wide Web Conference: Workshop on the Weblogging Ecosystem. New York: ACM Press, 2004: 751-758. [本文引用:2]
[8] Delwiche A. Agenda-setting, Opinion Leadership, and the World of Web Logs[C]. In: Proceedings of the International Communication Association Conference, New Orleans, LA. 2005. [本文引用:2]
[9] Fu F, Chen X, Liu L, et al. Social Dilemmas in an Online Social Network: The Structure and Evolution of Cooperation[J]. Physics Letters A, 2007, 371(1-2): 58-64. [本文引用:2] [JCR: 1.11]
[10] Teutle A R M. Twitter: Network Properties Analysis[C]. In: Proceedings of the 20th International Conference on Electronics, Communications and Computer, Cholula, Mexico. New York: IEEE, 2010: 180-186. [本文引用:1]
[11] Fischer E, Rebecca R A. Social Interaction via New Social Media: How can Interactions on Twitter Affect Effectual Thinking and Behavior[J]. Journal of Business Venturing, 2011, 26(1): 1-18. [本文引用:1]
[12] 王晓光, 滕思琦. 微博社区中非正式交流的实证研究——以“Myspace9911微博”为例[J]. 图书情报工作, 2011, 55(4): 39-43.
(Wang Xiaoguang, Teng Siqi. Empirical Analysis on Informal Communication in Micro-blog Community——Taking “Myspace 9911 Micro-blog”for an Example[J]. Library and Information Service, 2011, 55(4): 39-43. ) [本文引用:1] [CJCR: 1.193]
[13] 苏娜, 张志强, 刘志辉. 基于链接分析的图林博客显著度分析[J]. 情报资料工作, 2010(1): 98-102.
(Su Na, Zhang Zhiqiang, Liu Zhihui. An Analysis of the Salience of Librarianship Blog Based on Link Analysis[J]. Information and Documentation Services, 2010(1): 98-102. ) [本文引用:1] [CJCR: 1.169]
[14] 第一季新浪微博用户量[EB/OL]. (2011-06-29). [2011-12-22]. http://www.news.sina.com.cn.
( The Number of Users Using Sina Microblog Service in First Quarter[EB/OL]. (2011-06-29). [2011-12-22]. http://www.news.sina.com.cn
[本文引用:1]
[15] 张玥, 朱庆华. Web2. 0环境下学术交流的社会网络分析——以博客为例[J]. 情报理论与实践, 2009, 32(8): 28-32.
(Zhang Yue, Zhu Qinghua. The Social Network Analysis of Academic Exchange Network in the Web2. 0 Environment——Take Blog as an Example[J]. Information Studies: Theory and Application, 2009, 32(8): 28-32. ) [本文引用:1]
[16] 刘军. 整体网分析讲义: UCINET软件实用指南[M]. 上海: 上海人民出版社, 2009: 60-65.
(Liu Jun. Lectures on Whole Network Approach: A Practical Guide to UCINET[M]. Shanghai: Shanghai People’s Publishing House, 2009: 60-65. ) [本文引用:1]
[17] 王陆. 虚拟学习社区的社会网络结构研究[D]. 兰州: 西北师范大学, 2009.
(Wang Lu. The Research of Social Network Structure of the Virtual Learning Community[D]. Lanzhou: Northwest Normal University, 2009. ) [本文引用:1]