面向CSSCI的学者知识地图构建与分析
胡元蛟, 王昊
南京大学信息管理系 南京 210093
摘要

为促进学术交流和发展,为学者之间的交叉合作提供可参考的事实依据,并获得可支持具体决策的分析结论,将本体机制引入CSSCI学术资源的知识组织,以面向对象的方式来组织学者知识地图的相关概念,构建面向CSSCI的学者知识地图概念模型;此外,通过学者两两之间关系的关联分析和知识挖掘发现学者之间潜在的合作可能,找出某学科领域中能够对中心作者产生重要学术影响的关联作者,并基于关联明确划分作者群,希望能够加强相关领域的研究合作,实现知识的互补与领域成果的借鉴和启发。

关键词: CSSCI; 本体; 知识地图; 学者关联分析; 语义标注
中图分类号:G250
Scholars Knowledge Map Construction and Analysis Based on CSSCI
Hu Yuanjiao, Wang Hao
Department of Information Management,Nanjing University,Nanjing 210093, China
Abstract

In order to promote the academic cooperation and development, provide factual basis for the inter-scholar cooperation and obtain analysis conclusion for supporting decision, this paper tries to introduce the Ontology mechanism into the knowledge organization of CSSCI academic resource for organizing concepts related to scholars knowledge map by object-oriented approach, so that to establish scholars knowledge map concept model based on CSSCI. Then the association analysis and knowledge mining are used to discover the potential cooperating probability between scholars and find the related authors who can influence the core authors academically in some discipline field. At the same time the authors group is classified definitely based on the relationship, which can strengthen related field’s research and cooperation, and realize knowledge complement as well as achievement reference and inspiration.

Keyword: CSSCI; Ontology; Knowledge map; Scholar association analysis; Semantic annotation
1 引 言

在CSSCI[ 1]的各类学术资源中,学者是一种间接方式上可以反映学术关联的特殊概念。随着学术研究领域的不断成熟,学术水平较高、与相关领域学者的合作较紧密且具有一定学术影响的学者所研究的课题越来越能展示出学科的发展方向和热点,以及学科间的相互关联和作用,甚至基于这种关联形成一定学科区域的核心作者群,反映到学科研究关系上,表现为主题共现、相互合作与引用、同被引等内容关联。因此,对学者关联进行分析,能够了解学者之间的依赖关系,发现学者之间的研究共性,挖掘学者之间合作的可能。通过他们的发文和被引情况可以反映出他们的学术影响和地位,从而反映学术之间的紧密关系,并且可以对学者进行分类,探讨同类学者之间的研究交叉点以及不同类学者之间的研究差异[ 2],发现学者合作甚至学科的发展规律,促使学者及相关学科间更好的交流与融合。

目前,学者关联分析并未引起学术界的关注,基本上没有相关的主题式研究,但有一些相近学术资源概念的探讨,如文献[3]从学科这一类学术资源的角度对人文社会科学学科进行了关键词被引聚类的相应分析[ 3],文献[4]也从学科角度出发通过主题聚类方法构建了社会科学知识地图。可以借鉴类似的研究思路和方法,探讨和挖掘学者之间的相互关系,全面标注、分析和评价CSSCI学术资源网络,实现隐含知识的挖掘与立体式学术评价,为用户提供更完善的知识服务。

本文试图将本体机制引入CSSCI学术资源的知识组织,构建面向CSSCI的学者知识地图概念模型,基于面向对象方法来组织学者知识地图的相关概念,以揭示并规范学者与其他学术资源间的语义关联模式,从而通过学者两两之间关系的关联分析和知识挖掘发现用户感兴趣的表层知识下所隐含的学者关联规则和模式,探讨可辅助具体决策的分析结论,试图为学者之间的交叉合作提供可参考的事实依据,以增进学者间合作,促进学术交流和发展。

2 面向CSSCI的学者知识地图构建

CSSCI虽然包含了人文社会精品期刊中的论文及相关关键字、作者、机构、期刊、学科等学术资源,但其展现相关学术知识内涵的角度比较单一,仅从文献角度出发,而在其他重要学术资源的阐述和挖掘上明显力度不够。为此,笔者基于CSSCI知识地图即CSSCI_Onto[ 5],在本体面向对象的知识组织结构基础上,通过CSSCI_Onto中定义的学者概念及其相关属性来揭示并规范学术资源之间的语义关联。

2.1 学者知识地图概念模型的构建

CSSCI_Onto是由概念库、实例库和规则库构成的一个完整的CSSCI知识地图,其概念模型包括三层概念层次结构。学者作为没有子概念的独立顶层概念,与其他学术资源之间存在若干属性关联。学者概念的属性集合包括数值属性(Datatype Property)和对象属性(Object Property),前者用于描述概念的自身状态和结构等信息,例如“作者名称”;后者以某一概念的实例作为属性值,主要用于描述实例之间的关系,又可分为同类对象属性和异类对象属性,分别描述的是同类概念之间的语义关联(如“关联学者”)和学者对象与部门、发文量等之间的相互关系(如“所属部门”、“作者发文”),如表1所示:

表1 学者概念的属性分类
2.2 面向CSSCI的学者语义标注

概念模型定义了本体的“元数据”结构[ 6];而CSSCI_Onto的重点在于将学术知识通过网状形式联系在一起,其丰富的实例库和概念层次可为用户提供充分的信息服务和支持,所以需要根据元模型对具体概念属性实现语义标注[ 7]

对于学者实例的语义标注方法,可采用以下三种不同方式。

(1)直接从CSSCI中以关系型数据库形式存在的来源数据关系元组中抽取实例之间的依赖关系作为实例的属性值。如可从来源文献的关系元组中直接获取如“作者名称”等属性值,并通过“作者名称”可获得与其“同一元组”的“关联作者”等属性值。

(2)为了准确获取部分异类对象属性值,更合理地揭示数值属性与对象属性之间的关系,有时需要基于单一统计值计算总值,如“年度发文量”、“总发文量”等,还可基于TF-IDF算法计算实例间关联度,用于描述相关属性实例相对于中心实例的影响或依赖程度,如可以统计各个学者实例各个“关联主题”的关联次数来获得其属性值。

(3)类似学科和期刊概念,学者间的语义关联分析可以通过标准加权方式来获得同类对象属性值。

作为比主题颗粒度大的内容描述主体,学者与学者之间存在多种内容关联,主要表现在主题共现、相互合作、引用、同被引(类似于期刊同被引和学科同被引,作者之间也存在同被引关系,同被引次数达到一定阈值的作者之间可能具有关联)、同部门(同部门作者之间应该存在关联)。因此,可以从这5个标准来计算来源作者间的关联度,表2表6分别为基于上述标准所计算出的作者间关联示例结果。

表2 基于主题共现的来源作者间关联示例(局部top5)
表3 基于合作的来源作者间关联示例(局部top5)
表4 基于引用的来源作者间关联示例(局部top5)
表5 基于同被引的来源作者间关联示例(局部top5)
表6 CSSCI各机构来源作者的关联系数(局部)

将基于5种标准获得的作者关联归一化后,为每个标准设置相应权重(主题共现为40%、合作为30%、引用为9%、同被引20%、同部门1%),计算加权平均值作为作者实例间的综合关联度,取综合关联度≥0.01且综合关联值最高的25名来源作者作为该作者的关联作者。根据综合关联度可以建立CSSCI(2000-2006)中215 933位来源作者之间的1 174 317对关联。图1展示了来自“南京大学信息管理系”的15位来源作者之间的关联云图。

图1 “南京大学信息管理系”15位来源作者间的关联云图

3 面向CSSCI学者知识地图的关联分析

在CSSCI_Onto中构建了学者知识地图的概念模型和语义标注后,从其中的数据模型中能够获得所有的学者实例及其“关联作者”、“关联主题”等属性值,从而可以通过关联分析进一步挖掘出一些可提供学者关联参考依据和具体决策支持、具有实用价值的分析结论。

3.1 基于中心学者的关联分析

当需要对一位学者进行作者关联分析研究时,即可认为其为中心学者。学者间的相互合作能够反映他们之间的研究共性,但是反过来具有研究共性的学者之间却并不一定存在合作,因此可以通过学者间综合关联(主要反映研究主题的相似)和合作的对比,来发现学者之间潜在的合作可能。从“作者名称”概念的“关联作者”属性值中可以获得CSSCI所有来源作者的关联作者及其关联度。以南京大学信息管理系苏新宁为例,从CSSCI_Onto中获得其基于综合关联度和基于合作的关联度的对比情况,如表7所示:

表7 “苏新宁”的关联作者情况

表7中可以发现:

(1)综合关联度排名前5位的作者与中心作者“苏新宁”在研究方向上存在高相关性;

(2)与“苏新宁”具有合作关系的作者主要是其指导学生或同单位同事,如许鑫、袁培国等,这与他们平时接触、讨论较多,具有相同研究方向,方便合作等不无关系;

(3)具有合作关系的作者对其综合关联度都比较高,这与合作标准在综合关联标准中的权重较大也是相符合的;

(4)“苏新宁”的关联作者中,有的与其具有很高的关联度却不存在合作关系,例如邱均平、邹志仁、叶继元、王知津等,根据综合关联度的计算依据,可以断定他们之间主要是存在高主题相关(如引文分析、知识管理、信息检索等,单位相关权重很小),而存在相似主题的学者之间可以加强相关领域的研究合作,知识的互补有利于重大成果的产生。

3.2 基于关联学者的关联分析

关联作者是与中心作者存在一定关系的学者,某一领域的研究者必定与其他研究者存在相关关联,往往表现在主题共现、相互合作、引用、同被引和同部门等关系上,部分关联作者能够对中心作者产生重要学术影响;而反过来,频繁出现作为某学科领域作者的关联作者则往往表明该学者在此学科领域中具有重要影响和地位,为广大该领域研究者所依赖,所研究内容可能为学科热点,可以认为是居于强关联位置的“核心”学者。从CSSCI_Onto的来源数据中,笔者抽取出“南京大学信息管理系”31位现任教师的关联作者进行分析,其中涉及393个关联作者,共出现710人次,对每一位关联作者的出现次数进行统计,并设置一定的约束条件过滤掉作者间的弱关联,获得此领域中较紧密的作者关联,从多到少列出其中出现次数在4次以上的学者名称,表示至少与31位学者中的4位发生了关联,如表8所示:

表8 至少与4位学者产生关联的学者统计情况

表8可以发现:

(1)出现次数在10次以上的关联学者如邱均平、王知津、马海群、马费成、吴慰慈、黄晓斌等均与10位以上作者发生了关联,表明频繁出现在作者关系中的强关联地位,可以认为其在该单位中很可能处于资源的集中地,且鉴于中心作者均为图书情报档案领域的学者,因此与其关联的绝大部分也是该领域的学者;

(2)邱均平和王知津的关联学者次数多达21次,可见他们的影响和研究领域甚广,在本学科中处于相对“核心”的地位;

(3)在本单位(即南京大学信息管理系)中苏新宁的关联次数排在最前,与其他30位学者中的9位存在关联,关联频率接近1/3,可以说在本单位具有较大的学术影响,与其有关联的学者有邓三鸿、杨建林、邹志仁、叶继元、倪波、陈雅、华薇娜、刘友华、朱学芳;

(4)在本单位具有较大影响的学者还包括黄奇(7次)、邹志仁(7次)、倪波(6次)等,且关联学者次数出现在4次以上的本单位作者中还有叶继元、孙建军、岳泉、郑建明、朱庆华,可以认为这些学者在图书情报档案领域中均具有一定影响,相互之间或与其他单位学者之间可以进行更多的研究与合作。

3.3 基于学者间平均关联度的多维尺度分析

如果能够在二维平面中直观描述出作者之间的分布情况与关联程度,就可以清楚地发现其中的“核心”作者,并基于关联程度将作者群明确分类[ 8]。其实,类似学科[ 9]、期刊关联的研究方法,作者间的关联也可采用多维尺度分析来深入挖掘更全面的隐含知识,通过层次聚类建立作者×作者相似矩阵,以学者间的平均关联度作为矩阵相似值,以学者间距离表示关联大小,从而挖掘相关分析结论。

以“南京大学信息管理系”现任教师作者为例,在31位教师的关联作者中除去非本单位作者,可以获得28位作者之间的两两关系(3位学者在本单位没有关联作者),计算他们之间的平均关联度,结果如图2所示。在多维尺度分析中Stress=0.00495,DAF=0.99505,说明拟合效果甚佳,具有高置信度。结合基于作者×作者相似矩阵的聚类系统树图(如图3所示),可按图中虚线将28位作者分为6大类。

图2 “南京大学信息管理系”28位学者间关系的多维尺度分析结果

图3 基于综合关联度的学者聚类结果

图3中,将这些学者分为6大类:

(1)类①共7位学者,大致又可以分为2个小类,即孙建军、成颖、柯青为一小类,其余4人为另一小类,该类学者以信息资源管理、文献分析为主要研究方向;

(2)类②共5位作者为一类,其共同特点是以信息(包括文本、图像等)处理和检索技术、计算机技术在数字图书馆中应用等作为其主要研究方向,在研究主题和内容上具有共性,此外他们之间还存在频繁的合作与引用关系(如杨建林和邓三鸿等),因此属于较紧密关联;

(3)类③包括沈固朝和刘树民两位学者,以竞争情报、市场调研为其主要研究内容;

(4)类④的3位作者自成一类,该类作者之间关系较松散,以档案学、编辑出版为其主要研究主题;

(5)类⑤可以分为两个小类,以施云、岳泉、谭华军为主,以信息传播、文献评论等为主要研究主题,且存在多次合作;徐雁和叶继元,以文献阅读、收藏和评论、期刊评价等编辑学内容为研究主题;

(6)类⑥的学者以信息分析、信息安全、网络版权、元数据等数字图书馆理论、情报学基础理论以及知识经济、产业分析、电子商务等为主要研究内容。

4 结 语

基于对学术资源具有明确组织和描述的CSSCI_Onto,本文构建了CSSCI学术资源中的学者知识地图,并进行了学者关联分析,改变了原来的采用关联规则挖掘在单一标准基础上判断学者关联的传统分析模式,通过学者两两之间关系的知识挖掘发现学者之间潜在的合作可能和多元关联,找出某学科领域中能够对中心作者产生重要学术影响的关联作者,并基于关联明确划分作者群,挖掘出具有研究共性的学者集合及其研究方向,希望为学者之间的交叉合作提供可参考的事实依据。

本文面向CSSCI学者知识地图的关联分析,以本单位实例为主,但分析方法和过程同样能用于其他机构;同时,本文的分析思路和方法也可应用于更广泛意义的学术资源,包括期刊、文献、地区以及机构间的关联分析,甚至可以基于学术资源本体发掘学者、机构、学科等的研究热点,并从多角度探讨热点的发展趋势,因此有待今后进一步的探索和研究。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献
[1] 南京大学中国社会科学研究评价中心[EB/OL]. [2010-04-02]. http://cssci.nju.edu.cn. [本文引用:1]
[2] 王昊. 信息资源网络模型及应用[M]. 南京: 南京大学出版社, 2010. [本文引用:1]
[3] 金莹, 邓三鸿. 基于关键词被引聚类的人文社会科学学科分析[J]. 现代图书情报技术, 2006(9): 43-48, 52. [本文引用:1]
[4] 金莹, 邓三鸿. 基于主题聚类的社会科学地图[J]. 图书情报工作, 2007, 51(4): 104-108. [本文引用:1]
[5] 王昊, 苏新宁. 基于本体的CSSCI学术资源网络模型构建及其应用研究[J]. 情报学报, 2010, 29(2): 331-341. [本文引用:1]
[6] 林泽斐. 本体概念模型构建理论研究综述[J]. 情报探索, 2009(5): 30-33. [本文引用:1]
[7] 凌海云, 左志宏, 陈兰, . 语义标注元数据及其抽取技术[J]. 计算机应用研究, 2004, 21(7): 147-149. [本文引用:1]
[8] Marinica C, Guillet F. Knowledge-based Interactive Postmining of Association Rules Using Ontologies[J]. IEEE Transactions on Knowledge & Data Engineering, 2010, 22(6): 784-797. [本文引用:1] [JCR: 1.892]
[9] 王昊, 苏新宁. 基于CSSCI本体的学科关联分析[J]. 现代图书情报技术, 2010(10): 10-16. [本文引用:1]