以复杂网络研究领域1975年-2012年间的科研合著网络为例,分4个发展阶段对科研合著网络的静态特征、拓扑特征、动态演化特征等参数进行计算,来解释和说明科研合著网络的演化和知识传播特点。仿真实验表明:当知识传递率一定时,知识传播速度受到个体创新能力的影响较大;当个体创新能力一定时,知识传播速度受到知识传递率的影响较小。
Taking the research field about “complex network” during 1975 and 2012 as an example, this article explains the characteristics of network evolution and knowledge transmission from static characteristics, topological characteristics and dynamic evolution characteristics of the four developing stages of scientific collaboration network. The simulation results demonstrate that the speed of the dissemination of knowledge is influenced by individual innovation ability obviously when knowledge transmission rate is constant and that the speed of the dissemination of knowledge is influenced by the knowledge transmission rate slightly when individual innovation capability is constant.
论文合著是科研合作最显性的表现形式之一,论文合著者之间的复杂关系构成了科研合著网络。对科研合著网络的研究有利于弄清科研工作者之间的合作情况、知识转移的动向和知识发展的趋势。利用复杂网络的理论和方法研究科研合著网络是一种很有效的方式[ 1, 2, 3],通过采集合著数据,建立合著关系网络,对科研合著网络的静态特征、拓扑特征、动态演化特征等参数进行计算,解释和说明某领域科研合作的演化特点。
本文以1975年-2012年间复杂网络研究领域的科研合著网络为研究对象,探求“复杂网络”这一主题领域从出现到发展壮大的演化规律,为科研合著网络的一般研究提供参考。近30年来,复杂网络的研究经历了从出现到发展成熟的过程,渗透到从物理学到生物学的众多学科,期间出现了两大标志性的成果:Watts等[ 4]在Nature上发表文章通过比较随机网的拓扑性质指出好莱坞演员合作网具有小世界特征;Barabsi等[ 5]在Science上发表文章指出实际合作网络中存在的无标度特征。之后,复杂网络的研究进入了快速发展阶段,当前已经成为国内外学术界最热门的研究领域之一。2012年国家自然科学基金中标项目中,网络科学方向共有面上项目101项、青年项目89项[ 6]。
Barabâsi等[ 1]对1991年-1998年间数学和神经学领域科研合著网络的拓扑特征和演化特征进行实证研究,指出网络的无标度特性。Ramasco等[ 7]着重讨论了作者发表论文数的分布和论文包含作者数分布这两个统计参量的规律。Pluchino等[ 8]探讨了“Tepoztlán Conference”科研合作网络中观点的时间演化和同步规律。Tomassini等[ 9]分析了科研合作网络的时间演化特征,对平均度、聚类系数、平均路径长度、度分布的增长规律做了实证研究。Perc[ 10]研究了斯洛文尼亚从1960年-2010年科研合作网络的结构和演化情况。Zhang等[ 11]分析了纳米技术领域科研合作网络静态和动态拓扑特性,仿真分析显示社会网络演化与关联性和局部性因素有关。Cassi等[ 12]应用网络分析的方法分析葡萄酒产业的国际贸易和科研合作网络的发展变化。Gonzlez-Alcaide等[ 13]研究了PubMed数据库中与南美锥虫病有关文献中科研合著网络中的合作行为与网络特征。
王福生等[ 14]建立一个作者科研合作网络模型,通过分析发现网络模型节点的度分布符合幂率分布,属于一种无标度网络模型。付允等[ 15]利用社会网络分析方法对《科研管理》期刊的合作网络进行了小团体分析、集聚度分析和中心性分析。孟微等[ 16]对我国情报学科研合著网络研究及其特征参数进行分析,对作者影响力、集团结构进行了深入分析。宋丽华等[ 17]参照人际关系网络中的亲密因子构造一个科研合作网络演化模型,分别从网络的度分布、点强度分布、平均路径长度以及聚集系数对亲密因子进行分析。张利华等[ 18]基于SNA的方法对中国管理科学科研合作网络的结构进行了分析。张鹏程等[ 19]从社会网络结构特征的视角出发,对科研合作网络与知识创造绩效的关系展开了分析。赵延东等[ 20]运用个体中心网分析方法来研究科研人员的合作网络。邱均平等[ 21]通过对“生物多样性”研究领域高产机构所构成的合作网络进行社会网络分析,揭示科研机构合作网络知识扩散规律。邱均平等[ 22]选取我国39所“985工程”高校作为研究样本,借鉴社会网络分析工具和方法对科研合作网络的拓扑特征进行分析。刘凤朝等[ 23]研究了燃料电池研究领域中国区域科研合作网络结构对绩效作用的效果分析。张玉涛等[ 24]构建三个科研合作网络,利用社会网络分析方法对这三个不同类型的网络特征进行了对比分析。
从以上研究成果可以看出,国外已经研究了部分学科领域科研合著网络的网络静态特征和动态拓扑特性,网络的演化和同步,网络重点节点评估,科研合作行为和科研评估,网络的社团、小世界、无标度等规律。国外文献的相关研究大多是个案的实证研究,揭示的是某领域科研合著网络的静态和动态规律,为本文提供了重要的方法和研究思路的参考。
国内也开展了部分学科领域的科研合著网络研究,研究对象主要是中文科研领域的合著关系,研究成果大多分布在科学学领域和图书情报领域,研究人员主要采用社会网络分析方法,也有少数研究人员采用复杂网络的研究方法,研究了科研合著网络的网络静态特征和动态演化特征,大多借助社会网络分析软件进行参数计算和可视化呈现,研究了科研合著行为、作者影响力评价、科研团队评价、科研绩效评估、社团结构、小世界和无标度等规律。
本文的数据来源于Web of Science[ 25](包含:SCI-EXPANDED和 CPCI-S),选取主题搜索途径,以“complex network*”为主题词,搜索时间段为1975年-2012年。对各出版年所发表的论文数量进行统计分析,如表1所示:
根据复杂网络研究领域四阶段发展的特点,在Web of Science数据库(包含:SCI-EXPANDED和 CPCI-S)中选取主题搜索途径,以“complex network*”为主题词,于2012年11月10日分成4个时间段进行搜索,所得结果如表2所示:
节点的度定义为节点的邻边数,节点的度分布是网络的一个重要统计特征。对网络中所有的节点求度平均,可得到网络的节点平均度 ,如表4所示:
度分布表示节点度的概率分布函数p(k),是随机抽取到度为k的节点的概率,也等于网络中度值为k的节点数占网络总节点数的比值。两种度分布较为常见[ 28]:指数度分布,p(k)∝e-k/c,其中c>0为一常数;幂律度分布,即p(k)∝k-r,其中r称为度指数。复杂网络研究领域四阶段科研合著网络双对数坐标度分布如图1所示:
Graph2008度分布曲线的中间一部分比较接近于一条直线(幂律度分布在双对数坐标下呈现为一条直线),Graph1975、Graph1998、Graph2003度分布曲线的直线特征也依次有所体现,但表现不是很明显。
在Matlab中普通坐标系下对度分布进行曲线拟合,选择幂律拟合得到近似曲线:f(x) = a×x^b (with 95% confidence bounds),具体参数如表5所示:
集聚系数用来描述网络中节点的聚集情况。对于无向网络,节点vi的集聚系数定义为 ,其中ki是节点vi的度,Mi表示这ki个邻域节点之间实际存在的边数。平均集聚系数是指在网络中与同一节点连接的两节点之间也相互连接的概率。网络的平均集聚系数为,复杂网络研究领域四阶段科研合著网络的平均集聚系数如表6所示:
利用Gephi软件[ 31]对复杂网络研究领域四阶段科研合著网络进行测度,得到数据如表7所示:
(2)平均路径长度是网络中另一个重要的特征度量,是网络中任意节点对之间距离的平均值。从表7可以看出,复杂网络研究领域四阶段科研合著网络的平均路径长度在前三个阶段是逐渐增大的,从发展期到快速发展期,平均路径长度增幅较大,到第四阶段高速发展期,平均路径长度略有减少。
(3)社团指网络中的顶点可以分成组,组内顶点间的连接比较稠密,组间顶点的连接比较稀疏[ 32]。利用Gephi自带的社团检测算法[ 33],检测出复杂网络研究领域四阶段合著网络的社团数量不断大幅增加,其中,最大社团的大小增幅较明显,在快速发展期和高速发展期出现了较大规模的社团现象。
在SI模型[ 34]中,人群被划分为两类:易感人群(S)和染病人群(I)。染病人群为传染的源头,通过一定的概率λ把传染病传给易感人群。SI模型的传染机制表示如下:
设S(i)和I(j)分别标记群体中个体在t时刻处于S态和I态的密度,λ为传染概率。
假设:
(1)总人数N不变,病人和健康人的比例分别是i(t)和s(t);
(2)每个病人通过一定的概率λ把传染病传给其他易感人群。
则SI模型可表示为:
由于s(t)+i(t)=1,i(0)=i0,则公式(4)可表示为:
此模型满足Logistic模型,所以它的解为:
传染病高潮来临时刻:
Muchnik等[ 35]在SI模型中引入自然发病指数β,β表示每个健康人的自然发病率,则改进的SI模型可以表示为:
N×[i(t+Δt)-i(t)]=[λ×N×s(t)]×i(t)×Δt+β×N×s(t)×Δt (8)
由于s(t)+i(t)=1,i(0)=i0,则公式(10)可表示为:
利用Matlab解微分方程得:
Cowan等[ 36]率先提出复杂网络上的一种知识扩散模型,Cowan模型的假设之一是知识传播的无条件主动假设,默认模型中每个人都会毫无保留地将自己的知识与他的邻居分享、主动地进行知识传播,因此知识拥有者即为知识传播者。在学术科研中,知识传播过程往往通过学习他人研究成果或者科研工作者与他人合作过程中进行,而自我的创新能力也起了很大的作用。
假设:
(1)总人数N不变,知识传播者和知识学习者的比例分别是i(t)和s(t);
(2)每个知识传播者以概率λ使周围的知识学习者获得知识;
(3)每个知识学习者同时具备自我创新指数β让自身获得知识。
则公式(8)可以表示为知识传播模型,当β=0时,该模型是普通SI模型。本文主要讨论β≠0时,复杂网络研究领域四阶段合著网络中知识传播效率与自我创新指数对知识传播的影响。
为了更好地研究改进SI模型的变化规律,引入参数μ。定义μ=λ/β,则公式(11)可以改写为:
利用Matlab作出i(t)-t的图形如图2所示:
从图2可以看出,令λ=0.001,当u<1时,i(t)的增速最大;当u=1时,i(t)的增速居中;当u>1时,i(t)的增速其次。可以看出,改进SI模型也属于阻滞模型,i(t)的增长速度先增大,后逐渐减少至一个稳定值。(1)在普通SI模型下的仿真分析
在普通SI模型下,β=0,为了研究在复杂网络研究领域四阶段网络中知识传播概率λ对知识传播效果的影响,令i0=3/1000(i0为初始时刻知识传播者所占的比例,i0的取值对仿真实验的对比分析没有影响,为了更好地对比效果,以下实验中i0均赋值为3/1000),不断调整λ值,在四阶段网络中对知识传播者的累积数量进行仿真分析如图3所示,得到数据如表8所示:
从图3走势来看,知识传播者的累积数量随着时间的推移越来越多,刚开始增速不断增加,增加到一定程度之后,增速开始放缓,最后趋近于一个稳定值。从表8可以看出,当λ不断增大时,知识传播者数量增长到稳定点所需时间越来越短,稳定点所达到的数值各不相同,表明知识传播的扩散程度不一样,其中Graph1975网络中知识传播者数量最大达网络节点总数的2.96%,Graph1998网络最大达2.64%,Graph2003网络最大达12.75%,Graph2008网络中最大达26.21%。
在自我创新指数为0的条件下,当λ一定时,从表8中每列数据来看,知识传播者所能达到的最大节点数值不断增加,说明在复杂网络研究领域四阶段科研合著网络中,随着网络规模的不断增加,合作程度不断加强,知识传播的范围越来越大;当λ不断增大,表8中左上到右下的知识传播者所能达到的最大节点数值不断增大,所需时间总体不断减小,这说明在复杂网络研究领域四阶段科研合著网络中,合作程度不断加强,尽管网络规模不断增加,随着知识传播率λ的不断提高,知识传播的范围越来越大,速度越来越快;表8中每行的单个网络中,随着λ的增大,达到最大知识传播规模所用的时间越来越短,知识传播者累积数量大致持平、略有波动。
(2)在改进SI模型下的仿真分析
利用公式(13)中改进的SI模型,不断调整λ、β的值,对复杂网络研究领域四阶段合著网络进行仿真分析。
①在改进SI模型下,令i0=3/1000,β=3/10000,不断调整λ值,在复杂网络研究领域四阶段合著网络中对知识传播者的累积数量进行仿真分析如图4所示,得到数据如表9所示:
从图4走势来看,知识传播者的累积数量随着时间的推移越来越多,刚开始传播速度较快,后来逐渐变慢,一定时间之后,逐渐覆盖整个网络。从表9中每列数据来看,知识传播覆盖整个网络的时间有所不同,相对比较接近;当λ不断增大,表9中左上到右下的数值有些差异,大致在一个数量级上;表9中每行的单个网络中,随着λ的增大,知识传播覆盖整个网络的时间有所不同,但也大致在一个数量级上。这说明在β=3/10000时,λ的变化对知识传播效果的影响不大。
②在改进SI模型下,令i0=3/1000,β=3/1000,不断调整λ值,在复杂网络研究领域四阶段合著网络中对知识传播者的累积数量进行仿真分析,得到数据如表10所示:
从表10中每列数据来看,知识传播覆盖整个网络的时间有所不同;当λ不断增大,表10中左上到右下的数值有所不同;表10中每行的单个网络中,随着λ的增大,知识传播覆盖整个网络的时间有所不同,但也大致在一个数量级上。这说明在β=3/1000时,λ的变化对知识传播的影响不大。
从表9、表10的数据可以看出,在四阶段网络中,当传递率λ一定时,知识传播速度受到自我创新指数β的影响较大;当自我创新指数β一定时,知识传播速度受到传递率λ的影响不明显。
③在改进SI模型下,令i0=3/1000,λ=3/1000,不断调整β值,在复杂网络研究领域四阶段合著网络中对知识获得者的累积数量进行仿真分析,得到数据如表11所示:
从表11中每列数据来看,知识传播覆盖整个网络的时间有所不同;当β不断增大,表11中左上到右下的数值逐渐减小;表11中每行的单个网络中,随着β的增大,知识传播覆盖整个网络的时间逐渐减少。
④在改进SI模型下,令i0=3/1000,λ=27/1000,不断调整β值,在复杂网络研究领域四阶段合著网络中对知识获得者的累积数量进行仿真分析,得到数据如表12所示:
从表12中每列数据来看,知识传播覆盖整个网络的时间有所不同;当β不断增大,网络规模不断增加,表12中左上到右下的数值逐渐减小;表12中每行的单个网络中,随着β的增大,知识传播覆盖整个网络的时间逐渐减少。
从表11、表12的数据也可以看出,在四阶段网络中,当传递率λ一定时,知识传播速度受到自我创新指数β的影响较大;当自我创新指数β一定时,知识传播速度受到传递率λ的影响不明显。
复杂网络研究经历了萌芽期、发展期、快速发展期、高速发展期4个阶段,从合著关系来看,网络规模越来越大,网络合作程度越来越密切,利用普通SI模型和改进的SI模型对复杂网络研究领域四阶段合著网络进行仿真分析。分析表明,在自我创新指数β=0时,知识传播的范围只能延伸到整个网络的一部分,知识传播的速度先增大后减少,当网络规模增大时,知识传播的范围延伸更大些。
在改进SI模型下,自我创新因子β≠0,知识经过一定时间的传播可以延伸到网络中的每一个节点,传播所需要的时间各有不同。当知识传递率λ与自我创新指数β分别增大时,知识传播速度都有所提高。当知识传递率λ一定时,知识传播速度受自我创新指数β的影响较大;当自我创新指数β一定时,知识传播速度受知识传递率λ的影响不明显。
这说明,在知识创新的领域,从外界获取学术信息,参加各种学术交流活动是非常必要的,但同时也要提高自身创新的能力,这样才能从根本上提高学术科研水平。
目前对于某领域科研合著网络的研究还处于个案研究阶段,许多问题有待进一步解决,笔者认为未来的研究方向有以下几个方面。
(1)在某领域的知识发展经历从无到有、再到逐渐壮大的过程中,个体创新能力是逐渐提高、逐渐降低还是有所波动,在本文中,只是对个体创新能力做了赋值,并不能判断个体创新能力在四阶段网络中的变化规律。
(2)在某领域的知识发展过程中,个体创新能力和知识传播速度的关系是如何关联的。在本文中,个体创新能力和知识传播速度是分别赋值,没有说明其内在的关联性。实际上,外在的科研环境对个体的创新能力应该有一定的影响。
(3)某领域的知识传播规律是否具有代表性,是否能够说明其他领域的发展问题。本文只是探究了复杂网络研究领域的科研合著网络演化及知识传播特点,是否具有普遍性,还需要进一步研究。
(4)加权科研合著网络中知识传播规律的研究。本文的研究都是基于无权网络的,事实上科研合著网络中作者之间存在多次合作的情况,即意味着科研合著网络可以构建成加权网络,这一领域有待今后作进一步的研究。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|
[32] |
|
[33] |
|
[34] |
|
[35] |
|
[36] |
|