利用K-shell分析合著网络中的作者传播影响力
张金柱
中国科学院国家科学图书馆 北京 100190)(中国科学院研究生院 北京 100049
摘要

以情报学领域的12种期刊在2000-2009年间的7 389位作者形成的合著网络为例,分别基于度和K-shell,介数和K-shell对作者传播影响力进行比较分析。结果表明,K-shell值较度、介数能更好地表征作者的传播影响力。这种方法可以推广到基于科技文献数据的其他网络中,如识别文献共被引网络、文献耦合网络中最具传播影响力的关键文献。

关键词: 传播影响力; 合著网络; K-shell; ; 介数
Influential Spreaders in Co-author Network Based on K-shell
Zhang Jinzhu
National Science Library, Chinese Academy of Sciences, Beijing 100190, China)(Graduate University of Chinese Academy of Sciences, Beijing 100049, China
Abstract

Based on the data comes from 12 journals between 2000-2009 which contains 7 389 different authors,this paper computes the degree, betweenness centrality and K-shell and makes a comparative analysis. The results show that K-shell does better in identification of influential spreaders in co-author network. This method can be also used in co-citation network and coupling network for identification of influential spreaders.

Keyword: Influential spreaders; Co-author network; K-shell; Degree; Betweenness centrality
1 引 言

在复杂网络的研究中,针对节点的传播影响力评估做了大量的工作,如科学家合作网络中的关键人物、通信网络的核心交换机、Web中的权威页面等具有特定含义的重要节点[ 1, 2]。因此,通过对节点的传播影响力评估来找出重要的“关键节点”是一项非常有意义的工作,如发现科学家合作网络中的核心人物,重建基于重要节点的网络,阻止网络病毒的传播及扩散等。

合著网络作为复杂网络的一种表现形式,在合著网络中发现具有重大传播影响力的作者对学科建设、科研合作与评价、信息传播都起着重要作用。其中,节点表示作者,边表示相连接的两个作者合作发表过文章。作者的传播影响力以度(Degree)和介数(Betweenness Centrality)来计算是最普遍的,度高的节点拥有更多的合作关系,而介数高的节点则能使更多的作者产生关联,有更多的最短路径通过[ 3]。K-shell值则表示作者在网络中所处的位置,能更好地表征传播影响力,度、介数高的作者可能处于整个网络的边缘位置,而非中心位置,其传播影响力较低;反之,度、介数较低的节点也可能处于网络的中心位置,其传播影响力较高[ 4]

本文以2000-2009年间的情报学领域的12种期刊数据为基础,对度、介数、K-shell值三者进行综合分析,分别基于度和K-shell、介数和K-shell来测度合著网络中的作者传播影响力,并对其中的典型案例进行分析,包括度大而K-shell值较小、介数大而K-shell值较小、K-shell值最大时度和介数的表现情况,最终验证K-shell值较度、介数能更好地表示作者的传播影响力。这种方法可以推广到基于科技文献数据的其他网络中,如识别文献共被引网络、文献耦合网络中最具传播影响力的关键文献。

2 数据和方法

本文选择情报学领域的12种期刊作为数据源,跟踪情报学的发展和演化情况[ 5, 6, 7],选取的时间区间为2000-2009年,数据集涵盖了117个国家,2 325个研究机构,7 405位不同作者撰写的8 374篇论文[ 8]。经过去重后的作者数为7 389,由此形成合著网络。去重主要思路是:以作者全称作为作者去重的标准,具有相同作者全称、但作者缩写不同的被认为是同一作者,由于数据中并不是每位作者均有全称,因此可能去重还存在遗漏。在进行替换时,以作者缩写较长的名称替换较短的名称。去重的详细信息如表 1所示:

表1 作者去重结果说明

复杂网络中一般使用疾病传播模型来模拟疾病在网络上的传播动力学,包括节点的传播范围、能力、速度[ 9, 10, 11]。一般认为,网络上传播能力强的为度、介数高的节点,因为度高的节点有更多的邻居节点,合作范围更广,容易形成更大的传播范围[ 1, 2, 12];而介数高的节点表示通过其的最短路径数较多,某位作者控制网络中其他作者之间交往的能力较强,与其他人的交流更广泛[ 3, 13, 14, 15]。K-shell考虑的则是节点在网络中所处的位置,度、介数高的节点未必处于此网络的中心位置,而可能处于网络的边缘位置。一般来说,越靠近中心位置的节点其传播影响力越大,而边缘位置的节点传播影响力相对低[ 4, 16]。度考虑的是节点本身的局部性质,介数考虑的是节点本身的全局性质,而K-shell值不仅考虑了节点本身的特性,也充分考虑了该节点各阶邻居节点的特性,尤其是考虑了该节点和哪些节点相连,信息更加丰富。

Kitsak等[ 4]基于SIR(Susceptible Infected Recovered)模型和SIS(Susceptible Infected Susceptible)模型对4种网络进行了建模分析,包括:Livejournal.com网站上340万市民的友谊网络、伦敦大学计算机科学系的电子邮件联系网络、瑞典的医院住院病人的接触网络和由imdb.com标记的同一电影中有合作关系的演员网络。结果表明:对于单个传播源情形,度高或介数高的节点不一定是最具传播影响力的节点,而通过K-shell分解分析确定的网络核心节点(即K-shell值大的节点)才是最具传播影响力的节点。度或者介数高的节点不一定是最具传播影响力的节点的原因在于,如果它们位于整个网络的边缘位置,那么它们在传播中的作用就非常微弱。而某些度、介数值较低却位于网络核心位置的节点将对传播过程产生重大的影响。

K-shell是图论里的一个经典的概念,网络的外壳和边缘的K-shell为1,然后往内像剥洋葱一样进入网络的核心(K-shell值大的区域)。如图 1(a)中的黄色节点拥有较高的度,却处于边缘位置。K-shell的计算过程也较为简便:首先找出所有度为1的节点置于第一层并剔除这些节点,即K-shell=1,在余下的节点中继续寻找度为1的节点置于第一层并剔除,直到没有度为1的节点,如图 1(b)所示,K-shell=2或3的节点计算与此相同,分别如图1(c)和图 1(d)所示:

图1 K-shell计算过程[ 4]

3 结果分析

为了验证K-shell较度、介数能更好地表征作者的传播影响力,本文在合著网络中分别计算三种指标并进行比较分析,主要包括:基于度和K-shell的作者传播影响力比较分析、基于介数和K-shell的作者传播影响力比较分析,分别对总体情况进行说明,然后选择其中的特例情况进行解释,如度高但K-shell值较小的作者其传播影响力分析、介数高但K-shell较小的作者其传播影响力分析、K-shell值最大的作者其传播影响力分析。结果表明:传播影响力最强的作者其合作者数量处于中等水平,合作者传播影响力较强,合作者均处于网络的较中心位置,作者与合作者共同形成了相应的团体,科研交流密切而广泛,可能是未来图情领域的新兴力量代表。而图情领域的专家间合作力度明显不够,造成他们的传播影响力较低。

3.1 基于度和K-shell的作者传播影响力比较分析

(1)总体情况分析

图2 基于度和K-shell的作者影响力比较分析

图2中横轴表示K-shell值,处于同一竖线的作者具有相同的K-shell值,纵轴的度表示作者的合作者数目。颜色较深的节点表示多个节点处于同一坐标,重合作者数较多,如节点1、2分别为15个和21个节点重合。

图2中处于左上方较为稀疏的节点为度较大、而K-shell值较小的作者,如K-shell值为4时,Oppenheim, C的合作者数为36,Jarvelin, K的合作者数为28;K-shell值为5时,Rousseau, R(鲁索)的合作者数达到41,Chen, HC的合作者数为40,Marchionini, G和Thelwall, M的合作者数为29。值得注意的是,这些节点的K-shell值和度值仅为5的作者(共197位)相同,在网络中处于第5层的较边缘位置,造成它们在整个网络上的传播能力较弱。Klingsporn, B的合作者数为26,Stock, Wg的合作者数为25,K-shell值同为22,为K-shell值最大且度也较大的节点,而Marchionini, G和Kostoff, Rn的合作者数均为27,而K-shell值仅分别为8和9。节点2包含了21个度为22的节点,K-shell值也是最大的。

(2)度高但K-shell值较小的作者传播影响力分析

Rousseau, R作为度高但K-shell值较小的典型代表,也为图情领域研究者所熟知,应是传播影响力较高的作者,而分析结果却令人意外。选取Rousseau, R的41位合作者说明,如表 2所示:

表2 Rousseau, R的合作者的度和K-shell值

可以看出,其合作者的度普遍偏小,小于或等于5的占到27/41,小于10的占到34/41,使得Rousseau, R的K-shell值较小,处于网络的较边缘位置,传播影响力降低。而提高Rousseau, R的传播影响力的方式是使其合作者的传播影响力得到提高,特别是小于或等于5的作者。因此,K-shell值能更好地表征传播影响力,符合实际情况,Rousseau, R的K-shell值为5,处于网络的较边缘位置,其合作者的K-shell值也普遍偏小,其传播影响力较小。当然,Rousseau, R作为图情领域的重要学者之一,此处测度的传播影响力仅在特定数据集上部分评估其工作和研究。

(3)K-shell值最大的作者传播影响力分析

Klingsporn, B和Stock, Wg的合作者数分别为26和25,这些合作者的度、介数、K-shell值如表 3所示:

表3 Klingsporn, B和Stock, Wg的合作者的度、介数和K-shell值

可以看出,所有度为22的作者其K-shell值也为22,均处于网络的最核心位置,每个节点的传播影响力、扩散能力都很强,也就造成了这两位作者的传播影响力较大。值得注意的是,这些合作者的度却处于中间偏上的位置,并不是度最大的合作者,并且相对集中,可能意味着这些作者已逐渐形成较好的交流环境,并形成了相应的团体,是未来的新兴研究力量。同时,度值高的作者需要加强合作,提高彼此的传播影响力。介数在此处几乎没有起到作用,这些合作者还没有起到使不同作者、不同研究领域关联起来的桥梁作用,而且对其传播影响力影响较小。

3.2 基于介数和K-shell的作者影响力比较分析

(1)总体情况分析

图3 基于介数和K-shell的作者影响力比较分析

图3中横轴表示K-shell值,处于同一竖线的节点具有相同的K-shell值,纵轴表示作者的介数大小。颜色较深的节点表示此处重合节点数较多。

图3中处于左上方较为稀疏的节点为介数较大而K-shell值较小的作者,如K-shell值为4时,Glanzel, W的介数为0.96,Lam, W的介数为0.74;K-shell值为8时,Kelly, D的介数为1,为最大值,Marchionini, G的介数为0.77,Tang, R的介数为0.53,Sun, Y的介数为0.45。Rousseau, R的介数则处于中上水平,为0.61。值得注意的是,K-shell值为8而介数大于0.45的作者与介数为0的作者(共46位)的K-shell值相同,均处于网络中第8层的较边缘位置,造成其在整个网络上的扩散能力不强。Leydesdorff, L的介数为0.74,其K-shell值为9,Stock, Wg和Klingsporn, B的合作者数分别为25、26,K-shell值同为22,为K-shell值最大的节点中度也较大的节点,介数却为0。

(2)介数高但K-shell值较小的作者传播影响力分析

Kelly, D为介数最高但K-shell值较小的作者,因此选取Kelly, D的20位合作者说明,如表 4所示:

表4 Kelly, D的合作者的介数和K-shell值

可以看出,Kelly, D的合作者中,Sun, Y、Croft, Wb、Cool, C和Harper, Dj的介数大于0.1,占到4/20,大于0小于0.1的占8/20,而等于0的占8/20。Kelly, D的合作者介数均较低造成其传播影响力较弱。即使部分合作者有较高的介数,但K-shell值均较小,处于网络的边缘位置,不利于信息的传播,也造成Kelly, D的传播影响力较低。

4 结 语

通过对情报学领域合著网络分析发现,K-shell值较度、介数能更好地表征作者的传播影响力,这种方法也可以推广到基于科技文献数据的其他网络中,如识别文献共被引网络、文献耦合网络中最具传播影响力的关键文献。

Kitsak等[ 4]证实高K-shell值的节点是最具传播影响力的单一传播源,当存在多个传播源的时候,传播的规模很大程度依赖于初始传播源之间的距离,此时,度高的节点往往比K-shell值大的节点更具传播效率。因为传播存在交叉感染现象,K-shell大的节点往往在网络的核心,一般聚集在一起,交叉程度强;而度高的节点可以分散在网络的不同区域,交叉程度低。因此,在考虑多个传播源时,应该选择不同K-shell值、不直接相连的度值较高的节点作为初始传播源。本文中还没有考虑在多个传播源的情况下计算合著网络中的作者传播影响力,需要在未来工作中继续研究。

参考文献
[1] Albert R, Jeong H, Barabási A L. Error and Attack Tolerance of Complex Networks[J]. Nature, 2000, 406(6794): 378-382. [本文引用:2] [JCR: 38.597]
[2] Cohen R, Erez K, Avraham D B, et al. Breakdown of the Internet Under Intentional Attack[J]. Physical Review Letters, 2001, 86(16): 3682-3685. [本文引用:2] [JCR: 7.943]
[3] Freeman L C. Centrality in Social Networks Conceptual Clarification[J]. Social Networks, 1979, 1(3): 215-239. [本文引用:2]
[4] Kitsak M, Gallos L K, Havlin S, et al. Identification of Influential Spreaders in Complex Networks[J]. Nature Physics, 2010, 6(11): 888-893. [本文引用:4] [JCR: 19.352]
[5] White H D, McCain K W. Visualizing a Discipline: An Author Co-citation Analysis of Information Science, 1972-1995[J]. Journal of the American Society for Information Science, 1998, 49(4): 327-355. [本文引用:1]
[6] Zhao D Z, Strotmann A. Evolution of Research Activities and Intellectual Influences in Information Science 1996-2005: Introducing Author Bibliographic-Coupling Analysis[J]. Journal of the American Society for Information Science and Technology, 2008, 59(13): 2070-2086. [本文引用:1] [JCR: 2.005]
[7] Chen C M, Ibekwe-SanJuan F, Hou J H. The Structure and Dynamics of Cocitation Clusters: A Multiple-Perspective Cocitation Analysis[J]. Journal of the American Society for Information Science and Technology, 2010, 61(7): 1386-1409. [本文引用:1] [JCR: 2.005]
[8] 张金柱. 情报学的学科结构及其演化分析[J]. 情报资料工作, 2011(3): 34-37.
(Zhang Jinzhu. An Analysis of the Disciplinary Structure and Evolution of Information Science[J]. Information and Documentation Services, 2011(3): 34-37) [本文引用:1] [CJCR: 1.169]
[9] Newman M E J. The Structure and Function of Complex Networks[J]. SIAM Review, 2003, 45(2): 167-256. [本文引用:1] [JCR: 5.952]
[10] Pastor-Satorras R, Vespignani A. Immunization of Complex Networks[J]. Physical Review E, 2002, 65(3): 036104. [本文引用:1] [JCR: 2.313]
[11] Lloyd A L, May R M. How Viruses Spread Among Computers and People[J]. Science, 2001, 292(5520): 1316. [本文引用:1]
[12] Pastor-Satorras R, Vespignani A. Epidemic Spreading in Scale-free Networks[J]. Physical Review Letters, 2001, 86(14): 3200-3203. [本文引用:1] [JCR: 7.943]
[13] Chen C. Searching for Intellectual Turning Points: Progressive Knowledge Domain Visualization[J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(S1): 5303. [本文引用:1] [JCR: 9.737]
[14] Chen C. Predictive Effects of Structural Variation on Citation Counts[J]. Journal of the American Society for Information Science and Technology, 2011, 63(3): 431-449. [本文引用:1] [JCR: 2.005]
[15] Friedkin N E. Theoretical Foundations for Centrality Measures[J]. American Journal of Sociology, 1991, 96(6): 1478-1504. [本文引用:1]
[16] Daley D J, Gani J, Gani J M. Epidemic Modelling: an Introduction[M]. NY: Cambridge University Press, 2001. [本文引用:1]