基于CSSCI本体的学术期刊关联分析
邓三鸿, 王昊, 苏新宁
南京大学信息管理系 南京 210093
摘要

试图改变学术资源评价的传统分析模式,提出先建立完整的知识库,继而在知识库基础上获得分析结论的“知识驱动型”分析思路。为此,采用本体机制来实现CSSCI学术资源的知识组织,以面向对象的方式来描述期刊及其相关知识,建立基于本体的CSSCI学术资源网络模型(CSSCI_Onto);通过本体中揭示的学术资源知识,不仅可以综合地了解期刊之间的两两关系及其关联程度,而且能够挖掘期刊之间隐含的双向和多元关联模式,发现一定时期内学科中的核心期刊集,为学科内期刊之间的合作和分工提供可参考的事实依据,促进期刊研究内容呈现合理分布。重点探讨CSSCI来源期刊之间关联的构建及分析,是基于CSSCI知识本体实现学术资源关联分析的一个组成部分。

关键词: CSSCI本体; 学术期刊; 关联分析; 学术资源网络模型; 学术评价
中图分类号:G250
Association Analysis of Academic Periodicals Based on CSSCI_Onto
Deng Sanhong, Wang Hao, Su Xinning
Department of Information Management, Nanjing University, Nanjing 210093,China
Abstract

The paper tries to change the traditional analysis mode of academic resources evaluation, and puts forward the “knowledge-driven” analysis idea which establishes a complete knowledge base firstly, then obtains conclusions on the basis of this knowledge base. For this, the paper adopts the Ontology mechanism to achieve the knowledge organization for CSSCI academic resources, which describes the periodicals and related knowledge by object-oriented approach, so that to establish CSSCI Academic Resource Networks Model (CSSCI_Onto). On this basis of academic knowledge annotated in the Ontology, not only the relationship and association degree between periodicals can be learned comprehensively, but also the bidirectional and multiple association patterns that are implied in original knowledge can be mined, and further the set of core periodicals in the disciplinary during certain period of time can be discovered, which provides factual basis for cooperation and division between periodicals, so that to promote a reasonable distribution of research content of periodicals. The paper focuses on the construction and analysis for relationship of periodicals, which is a part of academic resources association analysis based on CSSCI_Onto.

Keyword: CSSCI Ontology; Academic periodicals; Association analysis; Academic Resources Networks Model; Academic evaluation
1 引 言

中国社会科学引文索引(Chinese Social Science Citation Index, CSSCI)自诞生以来,每年从全国所有人文社科类期刊中精选出400-500种出版质量较好、学术水平较高、具有一定学科影响的学术期刊作为来源刊,收录其刊载论文及其引文信息[ 1]。各来源刊之间由于主题共现、相互引用、同被引等存在内容关联。随着期刊的不断成熟,这种关联也越来越明显地展示出期刊的发展方向及期刊间的相互作用,甚至形成一定时期内学科的核心期刊集。因此,对人文社科学术期刊关联进行分析,能够了解期刊之间的交叉关系及其交融程度,发现学术期刊的发展规律,促使学科内期刊的研究内容呈现合理分布。既可以促进期刊之间的相互合作,为更大规模、更高质量精品期刊的出现奠定理论基础;也可以使期刊了解自身在学科中的研究内容定位,为其研究方向的进一步确定和发展提供事实依据。

学术期刊关联分析是科学评价和知识服务的重要组成部分,其最终目的是为了促使期刊这一重要学术载体的良性发展,创造更好的学术环境。因此,期刊关联分析已经开始引起了学术界的关注,但是更多的还是聚焦在基于期刊被引进行期刊评价[ 2],也有学者尝试分别从期刊引用和主题共现探讨人文社科类期刊间的内容关联并建立关系云图[ 3, 4, 5]。文献[4]虽然综合上述两个角度来探讨期刊关联,但是在数据源选择上具有较大局限,关联标准的权重选择具有随意性。造成分析局限的主要原因在于这些研究是基于传统的CSSCI数据结构来实现,都是为了单一目的而聚集数据,在数据的处理上存在不一致性和不规范性。为此,本文试图将具有语义描述能力的本体(Ontology)机制引入到CSSCI的知识组织中,建立基于本体的CSSCI学术资源知识地图(简称CSSCI_Onto)[ 6],以面向对象的方式来组织期刊及其相关概念,以统一和规范期刊与其他学术资源间的关联模式,实现期刊与其他学术资源间丰富语义关联的深度揭示。在此基础上,通过知识挖掘发现隐含在原有知识下用户感兴趣的期刊关联模式,探讨可提供具体决策支持的分析结论,以增强期刊间合作,促进期刊综合性和专业性的分流,实现学术期刊的良性发展。

2 构建人文社科期刊知识本体

当前CSSCI主要关注来源文献和被引文献,在信息组织上以文献作为主要考察对象,对其他学术资源之间内在关联的描述明显不足。因此,笔者从CSSCI(2000-2006)共7年的数据中提取知识元及其关系,构建了CSSCI知识地图(即CSSCI_Onto)[ 7],借助本体机制以面向对象的方式来统一、明确、规范地确立学术资源之间的语义关联。本文则试图以该知识库为基础,揭示人文社科类学术期刊之间的显性和隐性关联。

2.1 学术期刊知识本体概念模型的构建

CSSCI_Onto由概念库、实例库和规则库等构成,其中概念库是对CSSCI学术资源的抽象描述,包括了3层概念层次结构,共39个本体类,336个属性[ 8]。期刊是顶层主要概念,含有来源期刊和被引期刊两个子概念,而来源期刊又可以分为来源单刊(以“期”为单位)和来源种刊(以“种”为单位),本文重点讨论种刊之间的关联,下文提到的期刊均指种刊。除了分类关系之外,期刊与其他学术资源之间以属性的形式建立非分类语义关系。

期刊概念的属性集合如表1所示:

表1 来源期刊概念的属性分类

这些属性被分为:

(1)数值属性(Datatype Property),用于描述期刊自身的性质和状态,例如“期刊代码”、“期刊名称”、“创刊年代”等;

(2)对象属性(Object Property),以某一概念的实例作为属性值,描述的是概念实例之间的关系。对象属性又可以分为同类对象属性和异类对象属性,前者以同类对象作为概念属性值,描述同类概念实例之间的关系,属性值主要来自与中心实例并列的期刊元组[ 9],如“关联期刊”,这是期刊关联分析的语义基础;后者以其他类型对象作为属性值,例如“来源文献”、 “关联主题”等,揭示的是期刊概念和文献、主题等概念之间的关系,借此可以从微观角度考察期刊间的关联。

2.2 CSSCI学术期刊的语义标注

概念模型组成了CSSCI_Onto的概念库,定义了本体的“元结构”;但CSSCI中具有核心作用的是各类学术资源的实例及其关系,将CSSCI学术知识以网络形式关联在一起以提供完善的知识服务是构建CSSCI_Onto的主要目的。为此,需要根据“元结构”对CSSCI数据进行语义标注,即根据概念模型中定义的概念和概念属性模板,抽取实例并设置实例属性值。本文仅探讨期刊实例的语义标注过程和结果。

在CSSCI(2000-2006)中,一共存在558种人文社科类学术期刊。根据期刊概念属性的类型,可以采用不同的方式设置这些实例的属性值。

(1)数值属性主要来自关系的字段,可以根据不同字段“同一元组”这一依赖关系获得期刊实例的数值属性值,例如根据“期刊名称”获得与其“同一元组”的“期刊代码”、“ISSN”等属性值;

(2)期刊概念的异类对象属性大部分是多值属性,需要统计属性实例相对于中心实例的关联次数以区分关联的强度,为了提高关联强度的合理性,甚至可以基于TF-IDF算法来计算属性实例的影响程度,例如对于“关联主题”,可以统计期刊实例各个“关联主题”的出现次数,计算关联度;

(3)对于同类概念属性,则可采用标准加权方式设置属性值。

期刊与期刊之间由于内容交叉而存在关联,内容交叉则主要表现在主题共现(期刊间的关联在一定程度上取决于其关联主题的交叉程度)、引用(引用率越高表明期刊关联度越大)、同被引(频繁的同被引能够在一定程度反映出期刊内容的交叉度)和同学科(相同学科内的期刊之间具有一定的内容相关性)。因此,本文选择上述4个标准作为期刊关联依据,分别计算期刊实例间的关联,结果如表2表5所示:

表2 基于主题共现的图书情报档案领域期刊关联情况示例(局部top5)
表3 基于期刊引用的图书情报档案领域期刊关联情况示例(局部top5)
表4 基于期刊同被引的图书情报档案领域期刊关联情况示例(局部top5)
表5 CSSCI各学科内期刊间关联系数

根据不同标准权重各异(分别为0.4,0.25,0.3,0.05)的思想计算加权平均值,以获得期刊实例间的综合关联度,每一种期刊取综合关联度≥0.1且综合关联度最高的20种期刊作为其关联期刊,由此可获得558种人文社科类期刊之间共9 627对关联。其中,图书情报档案、管理和经济等3学科12种期刊之间的关联云图,如图1所示:

图1 图书情报档案、管理和经济3学科12种学术期刊间关联云图

3 基于CSSCI_Onto的期刊关联分析

经过概念模型的构建及其对CSSCI数据的语义标注后,与期刊相关的所有知识以面向对象的方式被组织在CSSCI知识库中,成为CSSCI_Onto的重要组成部分。基于这些知识,笔者对期刊关联进行了系统分析,得到了一些准确、合理且具有一定实用价值的结论。

3.1 基于中心期刊的关联分析

从“来源期刊”概念的“关联期刊”属性值中可以获得CSSCI所有来源期刊的关联期刊及其关联度。本文以图书情报档案类的重要期刊《情报学报》为例进行分析。

(1)同一学科的期刊在讨论的内容上存在较大的相似性,直接导致其关联期刊多为同一学科领域内的期刊,特别是与期刊保持高关联度的期刊,例如《情报学报》的20种关联期刊中,图情档领域的18种期刊占据了其前18位,如图2所示。

图2 “情报学报”的关联期刊地图

(2)由于研究主题的相似(包括主题共现、引用和同被引等),有时也会导致不同学科的期刊之间发生关联,例如管理学领域的《科技进步与对策》和《科学学和科学管理技术》由于在探讨内容上与《情报学报》存在更多的交叉性,因此这两种期刊取代《档案学研究》成为《情报学报》的另外两种关联期刊,由此也可认为《情报学报》刊载文章甚少涉及档案学的内容,仅与《档案学通讯》保持微小的关联性。

(3)与《情报学报》关联的期刊首先是情报学类和图书情报综合类期刊,其次是图书馆学类,最后是档案学类和其他相关学科的期刊,其中最依赖的期刊是《图书情报工作》、《情报理论与实践》和《情报科学》,这3种期刊对图书情报学的理论和实践都比较重视,具有一定的综合性,导致它们对《情报学报》学术研究的影响较大,而《现代图书情报技术》、《情报杂志》相对侧重于情报技术和应用研究,对《情报学报》的影响力就相对居后。

3.2 基于期刊间双向关联的综合分析

将CSSCI_Onto中所有期刊实例的关联期刊及其关联度列出,设置一定的约束条件过滤掉期刊间的弱关联,可以获得指定领域中关系最密切的期刊关联,并据此在二维平面中做出这些期刊的关联地图。图情档领域20种学术期刊在综合关联度≥0.4且双方均存在关联时的期刊关联云图,如图3所示:

图3 图书情报档案领域综合关联度≥0.4且具有双向关联的期刊关联云图

图3中,期刊之间存在连线,表明期刊之间存在双向关联,即双方相互依赖的程度均较高;期刊的连线越多,表明这种期刊在该领域中不仅对其他期刊具有影响,而且自身也颇受领域内其他期刊的影响,是领域内比较传统的学术期刊,例如《图书情报知识》、《大学图书馆学报》、《情报资料工作》等。

图3中笔者发现:

(1)档案学类两种核心期刊《档案学通讯》和《档案学研究》自成体系,且保持了较高的关联度,表明档案学目前的研究内容与图情学存在较大差异,鉴于两者属于同一学科的事实,可以进一步挖掘两者的结合点,利于产生新的研究方向以实现创新;

(2)《中国信息导报》和《中国科技期刊研究》与图情档类期刊关系并不密切:或者充分依赖于图情档类期刊但反过来对其影响较小,属于单方面依赖,如《情报杂志》、《情报科学》、《情报理论与实践》对《中国信息导报》的关联度(影响)均超过了0.5,但是反过来,《中国信息导报》对这3种期刊的影响较小,关联度列于倒数;或者与图情档类期刊研究内容存在差异,双方关联程度都不大,如《中国科技期刊研究》,其更多依赖于编辑出版类期刊,对图情档类期刊的影响也较小;

(3)其他16种期刊相互关联形成一个整体:图书馆学类期刊相互之间普遍存在较高的关联度,在图3中表现为相互之间的连接较多,而相反情报学类期刊的高关联则相对较少,图书情报综合类则介于两者之间,可以看出图书馆学的研究范围相对较大,而情报学起源于图书馆学,是对图书馆学某些领域研究内容的深化,专业性较强;

(4)作为情报学重要刊物的《情报学报》似乎并没有成为其他期刊的依赖,究其原因笔者认为一方面是由于其作为双月刊文章数量较少,研究内容多注重学科前沿且比较专深,与其他刊物拥有交叉内容的机会较少;另一方面图3中显示的均为双向强关联,《情报学报》对其他刊物可能影响甚大,但是并不保证其受其他刊物影响也甚大;

(5)与《情报学报》保持高关联度的期刊为《情报理论与实践》,说明这两种期刊在研究内容上具有较大的相似性,相互依赖较多,而《情报理论与实践》也是学科内为数不多的、能够对《情报学报》产生较大影响的重要刊物。

3.3 基于期刊间平均关联度的多维尺度分析

图3揭示了期刊之间的双向关联情况,以期刊间连线的粗细来描述关系的密切程度,由于A对B和B对A的关联程度不同,在图中则表现为连线的两头粗细不同,甚至因为某些单向关联度较小导致期刊间的关联在图中没有显示。如果能够在二维平面中以期刊间距离来描述期刊间的平均关联,则可以根据期刊在平面中的分布情况进行大致的分类,得到聚类结果,这一过程可以通过多维尺度分析和层次聚类分析来实现,即建立期刊×期刊的相似(或距离)矩阵,以期刊间的平均关联度作为矩阵相似值,然后通过降维操作将期刊间相似情况转化到二维平面中,用点间距离表示期刊之间的关联度。

图情档领域20种期刊的多维尺度分析结果如图4所示:

图4 图书情报档案领域20种期刊间关系的多维尺度分析结果

其中,两个分析指标Stress=0.00861,DAF=0.99139,表明模型的拟合效果很好,具有较高的置信度。

(1)期刊聚类分析结果,如图5所示。

图5 图情档领域期刊的聚类分析结果

图5可以发现,图情档领域的20种期刊被明确划分为4个类别:

①《中国科技期刊研究》自成一类,考察该期刊的关联期刊,不难发现其最依赖的多为《编辑学报》、《编辑之友》、《中国出版》等新闻出版广播领域的期刊,而与图情档领域期刊的关联度较小;

②档案学期刊《档案学通讯》和《档案学研究》为一类,说明档案学研究和图情研究在内容上存在较大差异,这与图3中所示一致;

③《中国信息导报》自成一类,该刊虽然依赖于图情各刊,然而其通常不是图情各刊多依赖的期刊,对其他期刊的影响较小;

④其他16种图书情报类期刊分为一大类,如图4中虚线圆围成的区域。

(2)将图4中虚线圆围成的区域放大,如图6所示:

图6 图书情报类16种期刊间关系的多维尺度分析结果(中心放大)

结合聚类的系统树状图可以发现:

①其中《情报学报》由于文章少而且研究主题专深,导致其与其他各刊之间关联不是很紧密,印证了基于期刊间双向关联的综合分析中的分析结果;

②《图书馆工作与研究》是双月刊,偏重于图情理论和方法在图书馆工作和事业中的具体实施研究,《现代图书情报技术》偏重于计算机技术在图情研究中的具体应用,这两种刊的专业性较强,研究范围相对专业,与各刊也存在较大差异;

③居于图形中心的多为情报类和图书情报综合类期刊,而图书馆学类期刊则居于外围,说明总体而言前者相比于后者更是图情档领域学术论文所关注的重心,具有较大的学术影响,小圈内的期刊可以认为是2000-2006年间图书情报档案领域的核心期刊集。

4 结 语

本文重点探讨了CSSCI来源期刊之间关联的构建及分析,这是基于CSSCI知识本体实现学术资源关联分析的一个组成部分。在CSSCI_Onto中揭示的学术资源知识基础上,不仅可以了解期刊之间的两两关系及其关联程度,而且能够挖掘期刊之间的双向和多元关联,发现一定时期内学科领域中的核心期刊集,为学科内期刊之间的合作和分工提供可参考的事实依据,实现期刊研究内容的合理分布。

笔者改变了学术资源评价惯有的分析思路,即根据分析目的聚集数据,再将数据升华为知识,得到分析结论;而是先建立完整的知识库,继而考察在该知识库中可以得到的分析结论。基于知识的分析模式完全改变了原来的基于数据的传统分析模式,期刊间的关联也不再建立于单一关联标准之上,在此基础上获得的分析结论也相对合理和有效。本文仅对学术资源中的期刊概念进行了关联分析,而知识本体中蕴含的丰富知识可以实现更广泛意义的学术资源关联分析,更多有价值的信息有待于今后进一步挖掘。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献
[1] 南京大学中国社会科学研究评价中心[EB/OL]. [2011-01-02]. http://cssci.nju.edu.cn. [本文引用:1]
[2] 苏新宁. 中国人文社会科学期刊学术影响力报告[M]. 北京: 中国社会科学出版社, 2009. [本文引用:1]
[3] 宋唯娜, 杨康. 中国文学期刊引用网络分析——基于CSSCI(2003-2007年度)数据[J]. 西南民族大学学报: 人文社会科学版, 2011(1): 236-240. [本文引用:1]
[4] 梁勇, 章成志, 王昊. 基于CSSCI的期刊知识地图的构建[J]. 现代图书情报技术, 2008(2): 58-63. [本文引用:1]
[5] 金莹. 数据挖掘在CSSCI中的应用[D]. 南京: 南京大学, 2006. [本文引用:1]
[6] 王昊. 信息资源网络模型及引用[M]. 南京: 南京大学出版社, 2010. [本文引用:1]
[7] 王昊, 苏新宁. 基于本体的CSSCI学术资源网络模型构建及其应用研究[J]. 情报学报, 2010, 29(2): 331-341. [本文引用:1]
[8] 王昊, 苏新宁. 基于CSSCI本体的学科关联分析[J]. 现代图书情报技术, 2010(10): 10-16. [本文引用:1]
[9] Astrova I. Reverse Engineering of Relational Database to Ontologies[C]. In: Proceedings of the ESWC2004. 2004: 327-341. [本文引用:1]