国外图书情报类期刊热点主题及发展趋势研究
安璐, 李纲
武汉大学信息管理学院 武汉 430072
摘要

利用自组织映射(SOM)人工神经网络方法分析60种有代表性的国外图书情报类期刊的热点主题及Journal of Information Science(JIS)从1981-2007年的主题发展趋势。利用改进的SOM输出方式——属性叠加矩阵,识别出60种期刊的7类热点主题,并构造一种新的SOM显示方式“热点属性投影”, 结合常见的U-matrix图,分析JIS期刊的热点主题在过去27年间的发展过程与规律。其研究结果在一定程度上可以反映国外图书情报类期刊主题的发展规律。该研究方法为期刊热点主题识别及发展趋势研究提供较为完整的工具与思路。

关键词: 热点主题; 发展趋势; 图书情报类期刊; 自组织映射
中图分类号:G353.21
Research on the Salient Subjects and Their Developing Trends of Foreign Library and Information Science Journals
An Lu, Li Gang
School of Information Management, Wuhan University,Wuhan 430072, China
Abstract

This paper utilizes the Self-Organizing Map(SOM) to analyze the salient subjects among 60 foreign journals in the field of Library and Information Science (LIS) and the development trends of Journal of Information Science (JIS) from 1981 to 2007. An enhanced SOM display method named Attribute Accumulative Matrix is employed to identify 7 groups of salient subjects among the 60 investigated journals. A novel SOM display method named Prevalent Attribute Projection is constructed combined with U-matrix, to analyze the development process and patterns of JIS’ salient subjects in the past 27 years. The research findings reflect the development laws of foreign LIS journals to some extent,and the research methods can provide systematic tool and procedure for the analysis of salient subjects and their development trends among journals.

Keyword: Salient subject; Development trends; Librar and information journals; SOM
1 引 言

学术期刊是科学交流的重要载体,期刊的热点主题通常反映该学科的重要研究领域及前沿课题,而期刊主题的发展趋势研究则可以揭示该学科的发展轨迹与未来的方向,因而受到研究者的广泛关注。国内外许多研究者都在这方面进行了相关研究,如文献[1]以2 643篇中英文论文为样本,从中筛选出65个中文关键词和62个英文关键词,利用词频统计法分析了国内外知识管理的热点主题。文献[2]利用等级聚类法对LISA数据库中12种影响因子较高的期刊的题名和摘要字段进行分析,在此基础上总结出情报学近几年主要的研究内容是检索与计量、与信息技术和互联网相关的主题以及与信息资源管理相关的主题。文献[3]通过对国际信息资源管理领域的两大权威期刊IRMJ和JASIST的2003-2008年的文献进行梳理与归纳,发现信息资源管理研究的热点是理论探索与技术应用、本体理论、形式概念分析、语义学、数据挖掘和以计算机为中介的交流。文献[4]通过比较美国图书情报类权威期刊JASIST在1988-1997年及1998-2007年这两个10年间的高频关键词,发现排名靠前的关键词分布从核心的情报学转移到其他子学科,如信息技术、社会行为学。

现有的期刊热点主题及发展趋势研究往往采用统计计量等定量研究或定性分析的方法,在定量研究中大多以论文的关键词或题名、摘要为研究对象,这使得语义相关的关键词难以合并,由此发现的热点主题较为分散,需要研究者自行整合。少数研究者试图在聚类的基础上来分析期刊的研究热点,但这仍然需要研究者逐一比较各聚类包含的主题数量与论文数量,缺乏一种直观地显示热点聚类的方法。

本文采用一种无指导学习的人工神经网络方法——自组织映射(Self-Organizing Map,SOM)算法来研究期刊的热点主题及其发展趋势。SOM算法是一种可视化的降维方法,被广泛用于多个学科领域,如数据分析[ 5]、网络日志挖掘[ 6]、机器状态可视化与故障识别[ 7]、特征抽取与计算机视觉[ 8]等。本文利用一种改进的SOM输出方式——属性叠加矩阵,识别60种国外图书情报类期刊的热点主题,并构造一种新的SOM显示方式“热点属性投影”, 结合常见的U-matrix图,分析一种有代表性的期刊的热点主题发展过程与规律。

2 SOM用于期刊热点主题识别及发展趋势研究的方法设计
2.1 SOM输入矩阵的构造

SOM算法需要构造一个m×n的输入矩阵,其中矩阵的行代表将在SOM空间中显示的对象,列代表对象的属性。构造两个SOM输入矩阵:

(1)主题-期刊矩阵M1,它有m行n列。其中元素cij (i=1,2,…,m; j=1,2,…,n)被定义为第i个主题词在某段时间内出现在第j种期刊中的次数,如下所示:

M1= c11C12c1nc21C22c2ncm1Cm2cmn(1)

(2)年份-主题矩阵M2,它有p行q列。其中元素dkl(k=1,2,…,p; l=1,2,…,q)被定义为某期刊在第k个年份出现第l个主题的次数,如下所示:

M2= d11d12d1qd21d22d2qdp1dp2dpq(2)

2.2 属性叠加矩阵

SOM输出的方式主要有两种:U-matrix图和成分图(Component Plane)。前者通过计算SOM输出中各节点与相邻节点之间的欧几里德距离来揭示输入数据的聚类结构[ 9],后者则反映各属性对SOM输出的贡献大小。在本文的研究中,这两种SOM输出方式均无法识别期刊集的热点主题。虽然词频统计等计量方法可以识别期刊集的热点主题,但是对于语义相关的主题存在不易归并的问题。鉴于此,以主题-期刊矩阵M1为SOM的输入矩阵,采用文献[10]提出的“属性叠加矩阵”来识别期刊集的热点主题。其原理是在SOM训练结果的基础上,计算SOM输出中各节点的权向量的所有分量之和,除以所出现的最大值,求其平方根。这样,主题在SOM聚类的基础上,语义相关的主题会映射到SOM输出中邻近的位置,而SOM节点的背景颜色(通过属性叠加矩阵的值转换而成)则显示对应主题的热门程度,映射到属性叠加矩阵中值较大的节点中的主题为被调查期刊集的热点主题,映射到属性叠加矩阵中值较小的节点中的主题为冷门主题。

2.3 热点属性投影

为了分析被调查期刊在热点主题上的发展趋势,构造一种“热点属性投影”方法,其原理描述如下:设有l个输入样本,每个样本有n个属性,分别为v1,v2,…,vn,以这n个属性为行,以l个输入样本为列,构造SOM输入矩阵,利用SOM算法进行训练,计算属性叠加矩阵,将这n个属性按其在属性叠加矩阵中对应元素的值的大小降序排列。映射到属性叠加矩阵中值最大的SOM节点中的属性或属性集称为第一热点属性,用P1表示;映射到属性叠加矩阵中值第二大的节点中的属性或属性集称为第二热点属性,用P2表示,以此类推。

设S为一个SOM输出(注意:这里的输入矩阵是以l个输入样本为行,以n个属性为列构造的),有m个节点,与第i个节点相联系的权向量为si (i=1,2,…,m),它有n个分量,表示为wi1,wi2,…,win, 其中n为输入样本的属性个数,即维数。

假设第一热点属性P1包含属性vj1,vj2…,vjp, 第二热点属性P2包含属性vk1,vk2,…,vkq, 第三热点属性P3包含属性vl1,vl2,…vlr,那么构造三个列向量X,Y,Z,如下所示,其中i=1,2, …, m:

X=( t=j1jpwit)'(3)

Y=( t=k1kqwit)'(4)

Z=( t=l1lrwit)'(5)

式(3)-(5)显示,X,Y,Z分别是由每个SOM节点的权向量在第一、第二、第三热点属性所包含的所有属性上的分量之和构成的。以X,Y,Z为轴,将由l个输入样本为行,n个属性为列构成的输入矩阵的SOM训练结果投影在这个三维空间中,形成热点属性投影。

对于输入矩阵为M2,即年份-主题矩阵的情况,将生成的年份SOM输出投影到由前三组热点属性构成的三维空间中,可以使用户直观地观察各年份聚类在热点主题上的发展趋势。如果某年份聚类投影到P1上的值较大,则P1所包含的主题是该年份聚类的重要主题特点,如果某年份聚类投影到P1上的值较小,则P1所包含的主题不是该年份聚类的重要主题特点,以此类推。

3 实验过程与数据分析
3.1 国外图书情报类期刊热点主题分析

本文的数据来源于ProQuest Research Library数据库(简称ProQuest)。该数据库为每一篇论文标引了若干主题词,而不是论文作者使用的关键词,这使得期刊论文的主题概括更加规范,提高了分析的效率与质量。通过查看期刊的录稿范围,搜索与图书馆学、情报学相关的术语,结合SCI/SSCI收录的相关领域的期刊列表,收集了60种英文期刊(参见附录1)从2006-2008年刊载的12 415篇论文条目,并抽取了3 952个主题词。按照式(1)构造输入矩阵M1,即主题-期刊矩阵。为了方便识别各主题在SOM空间中的位置,用0到3 951的编号依次表示各主题。

为了避免数值范围较大的属性可能在SOM输出中占统治地位,将输入矩阵M1用‘var’[ 11]方法进行规范化;采用线性初始化和批学习算法[ 12],对输入数据进行训练,并采用超环面的SOM输出形状。应用属性叠加矩阵作为SOM输出的背景,SOM输出的结果为彩色图形,将其转换为黑白图形,如图1所示:

图1 国外图书情报类期刊的主题SOM输出

图1可见,共有33个节点,节点中的数字代表映射到该节点的主题数量。右方的颜色条指示SOM输出的背景颜色代表的属性叠加矩阵中各元素值的大小,浅色(彩色图中为红色)代表属性叠加矩阵的值较大,深色(彩色图中为蓝色)代表属性叠加矩阵的值较小。

由于SOM算法具有保留输入数据的拓扑结构的特点,属性相似的输入数据会映射到SOM输出中邻近的位置。根据输入矩阵M1的构造方法,出现在相似的期刊集合中的主题会映射到图1中邻近的节点。鉴于学术期刊通常具有一定的录稿主题范围,出现在相似的期刊集合中的主题倾向于语义相关,于是映射到SOM输出中邻近位置的主题会形成主题聚类。

由于属性叠加矩阵反映的是映射到该节点的输入数据的各属性值之和,因此映射到属性叠加矩阵的值较大的节点中的主题为被调查期刊的热点主题,映射到属性叠加矩阵的值较小的节点中的主题为冷门主题。图1显示,4个“角落”(实际上这是超环面,并不存在真正的角落)区域的节点其属性叠加矩阵的值较大,映射到这些节点中的主题是被调查期刊的热点主题(用白色方框标示的SOM节点)。将这些热点主题进行归纳,如表1所示,其中,s(i, j) (i=1,2,…,22, j=1,2,…,15)代表第i行第j列的SOM节点。

表1 热点主题及其映射的SOM节点

表1显示,虽然被调查期刊涉及3 952个主题,但热点主题仅为86个,约占全部主题数量的2%。根据图1中SOM节点的邻近程度,结合考虑主题的语义,这些热点主题可归纳为以下类别:

(1)与图书馆相关的类别,包括学术图书馆、数字图书馆、图书馆员、图书馆、图书馆学、书评、非小说、图书、图书馆资源、馆藏、参考服务、期刊、图书馆编目、书目文献、收藏、电子书、百科全书、参考书;

(2)与信息技术相关的类别,包括信息技术、数据库、技术变革、网站、信息系统、模型、软件、信息检索、因特网、搜索引擎、搜索、网络日志、系统设计、互联网访问、在线数据库、在线信息服务、开源软件、网站设计、互联网、网络门户、信息中心、信息行业;

(3)与信息管理相关的类别,包括信息管理、知识管理、信息专业人士、元数据、交流、组织行为、行为、绩效评价、信息素质、互联网资源、社会网络、决策、信息共享、营销;

(4)与教育相关的类别,包括学习、学院与大学、大学生、教育、高等教育、学生、远程学习、在线指导、教学方法;

(5)与出版相关的类别,包括电子出版、出版业、学术出版;

(6)与研究方法相关的类别,包括研究(Studies)、研究(Research)、案例研究、研究方法、研究与开发、统计分析、比较分析、投票与调查、设计;

(7)与学术活动及组织相关的类别,包括学术会议、协会、领导、会议、职业发展、指导方针;

(8)其他,包括历史、档案与记录、感知、版权、执行者。

由此可见,被调查期刊的热点主题集中于图书馆、信息技术、信息管理、教育、出版、研究方法、学术活动及组织这些类别。该研究发现与文献[13]和[14]既有相似之处,又有一些新的发现。文献[13]利用SOM等方法分析73种图书情报类期刊在1992-1997年间的期刊共引数据,将被调查期刊分为4个领域,即情报学、图书馆学、科学研究与管理。本研究发现国外图书情报类期刊的热点主题除了文献[13]所述的4个领域之外,还有一些值得注意的热点主题,如教育类、出版类、学术活动及组织类等。文献[14]通过对12种图书情报类期刊的作者共引数据进行因子分析,识别出12个对作者差异贡献最大的专业领域,即实验检索、引文分析、在线检索、文献计量学、通用图书馆系统、科学交流、用户理论、OPAC、外来创意、标引理论、引文理论及交流理论。这些重要的领域揭示了该学科的专业结构,但是这些主题没有被分类或聚类,有些主题之间存在明显的联系,如实验检索与在线检索,引文分析与引文理论等。本研究是在主题聚类的基础上识别热点主题,并且与文献[14]相比,发现了一些新的热点主题,如教育、出版、研究方法、学术活动及组织等。

3.2 期刊主题发展规律分析

学术期刊的主题范围与侧重点随着时间的推移可能会发生变化,这种变化规律可以反映该学科领域的研究热点趋势。以一种有代表性的图书情报类期刊——Journal of Information Science(JIS)为例,分析该期刊的主题发展规律。JIS期刊是英国出版的一种双月刊,被SCI和SCCI收录,据JCR报告显示,2008年其影响因子为1.648,是一种高质量的英文图书情报类期刊。通过ProQuest数据库收集该期刊从1981年至2007年的论文题录信息,并从中抽取了990个主题词,按照式(2)构造M2,即年份-主题矩阵,共有27行,990列。以‘var’方法进行规范化,采用线性初始化和批学习算法,对输入数据进行训练,并采用超环面的SOM输出形状,生成SOM输出。以常见的统一距离矩阵(U-matrix)作为SOM输出的背景颜色,以彗星模式显示,SOM输出的结果为彩色图形,将其转换为黑白图形,如图2所示:

图2 1981-2007年JIS期刊的SOM图

图2中,较早的年份用较大的白点显示,例如1981年所在的白点最大;较晚的年份用较小的白点显示,例如2007年所在的白点最小。共有96个SOM节点,其中有70个空节点,另外26个非空节点里面的数字代表映射到该节点的年份。右方的颜色条指示出SOM输出的背景颜色所代表的U-matrix值的大小,其中浅色代表U-matrix值较大,是不同聚类之间的边缘;而深色代表U-matrix值较小,形成一个聚类。

随着时间的推移,JIS期刊映射的节点的U-matrix值倾向于下降,例如,1982-1985年的背景颜色较浅,1995-2007年的背景颜色较深,这说明早期JIS期刊的主题变化较大,处于不稳定状态,从20世纪90年代中期开始该期刊的主题则逐步呈现稳定,只有少量变化。

从各年份映射的节点之间的几何距离来看,早期JIS期刊相邻年份映射的节点距离较远,例如1982与1983年之间距离为5(垂直距离4加上水平距离1),1985与1986年之间距离为4。随着时间的推移,相邻年份节点之间的距离倾向于缩小,例如1999-2000年,2001-2002年之间的距离为1,而2006-2007年之间的距离为0。通过统计相邻年份节点之间的距离,如果将1981-2007年按每6年为一个区间,计算平均值,则6年间相邻年份节点之间的平均距离分别是3.2,3.6,3,2.8,2.3。由此可见,JIS期刊早期每年的主题较之上年相比变化较大,至20世纪90年代中期开始其每年的主题逐渐保持稳定,只有些许变化。各年份节点的U-matrix值及其与上一年份节点的几何距离可归纳如表2所示:

表2 各年份节点的U-matrix值及其与上一年份的几何距离和6年平均距离

根据热点属性投影方法,将该SOM输出分别投影到由前三组热点主题:即图书馆(LIB)类主题、信息技术(IT)类主题、信息管理(IM)类主题;第4至6组热点主题:即教育(EDU)类主题、出版(PUB)类主题、研究方法(RM)类主题,构成的三维空间如图3图4所示:

图3 JIS期刊1981-2007年热点主题投影(I)

图4 JIS期刊1981-2007年热点主题投影(II)

图3图4显示,JIS期刊在某些年份投影到某类热点主题轴的较大值上,例如2005年在IM轴上的值较大,2003年在EDU轴上的值较大;而在某些年份则投影到某类热点主题轴的较小值上,例如1981年在IT轴上的值较小,1985年在PUB轴上的值较小。将这三个坐标轴划分为三个等级(见图3图4中的虚线)。将该期刊在各年份的主题特点归纳如表3所示:

表3 JIS期刊在各年份的主题特点

JIS期刊从20世纪80年代至90年代中期其图书馆类主题一直呈现中等或偏低等级,而在90年代中期至21世纪初呈现较高水平,至今仍处于中等水平。在信息技术类主题上,JIS期刊在整体上随着时间的推移而提高,在20世纪90年代初出现高峰,之后保持中等水平,至90年代末开始一直保持较高水平。在信息管理类主题方面,JIS期刊的增长趋势更为明显,从20世纪80年代初至90年代末,该期刊在信息管理类主题上一直处于较低水平,而90年代末开始上升,至21世纪初进入较高水平。在教育类主题上,JIS期刊在大多数年份处于较低水平,仅在20世纪80年代中后期及21世纪初的几年中处于中等水平,最近几年该类主题较少。在出版类主题上,JIS期刊基本呈现上升趋势,在20世纪90年代中后期达到顶峰,而最近几年该类主题处于中等水平。在研究方法类主题上,JIS期刊呈现波浪变化的现象,大约每隔5年均会出现高峰与低谷,而最近几年该类主题处于中等水平。

由此可见,JIS期刊从20世纪80年代初以图书馆和研究方法类主题为主,较少涉及信息技术、信息管理、教育与出版类主题发展,到90年代初达到信息技术与出版类主题的热潮,之后以图书馆、信息技术、出版类主题并重,在90年代末达到这三者的高点,逐渐引入信息管理类主题,近几年该期刊已转型为以信息技术类与信息管理类主题为主、出版与研究方法为辅的期刊。

虽然这只是JIS期刊的主题发展规律,但由此可看出国外图书情报类主题的发展趋势,即越来越以信息技术类与信息管理类主题为重,出版类主题呈明显上升趋势,但仍未偏离图书馆与研究方法类主题。

4 结 语

本文利用SOM算法和自定义的属性叠加矩阵识别60种国外图书情报类期刊从2006-2008年的热点主题,发现除了常见的图书馆、信息技术、信息管理类主题之外,教育、出版、研究方法、学术活动及组织等主题也是被调查期刊的热点主题。虽然被调查期刊涉及大量主题,但这7类共86个热点主题仅占全部主题数量的2%。该研究发现揭示了该领域的研究热点,为相关学术期刊选择稿件的主题侧重点提供了有益的参考。为了探索该类期刊主题的时序发展规律,选择高质量的图书情报类期刊JIS为样本,分析了该期刊近27年的主题在整体上的发展规律,发现早期该期刊每年的主题变化较大,呈现不稳定的状态,而进入20世纪90年代中期之后,该期刊的主题逐渐保持稳定,只有少量变化。从已发现的6类热点主题来看,JIS期刊越来越以信息技术类与信息管理类主题为重,出版类主题呈明显上升趋势,但仍未偏离图书馆与研究方法类主题。虽然本文仅研究一种国外图书情报类期刊的主题发展规律,存在一定的局限性,但是所建立的方法可适用于其他期刊。后续工作将研究更多期刊的主题发展规律,并比较国内外图书情报类期刊的主题发展规律之间的异同,揭示该领域的研究侧重点和发展趋势。

附录: 被调查期刊列表
参考文献
[1] 马费成, 张勤. 国内外知识管理研究热点——基于词频的统计分析[J]. 情报学报, 2006, 25(2): 163-171. [本文引用:1]
[2] 屈鹏, 吴龙婷, 隆捷, . 国际情报学研究主题的聚类分析——基于1996-2003年的LISA数据库[J]. 情报学报, 2007, 26(6): 909-917. [本文引用:1]
[3] 毕强, 滕广青. 国外信息资源管理研究进展及热点分析——基于IRMJ和JASIS的分析[J]. 中国图书馆学报, 2009, 35(5): 80-90. [本文引用:1]
[4] Chua A Y K, Yang C C. The Shift Towards Multi-Disciplinarity in Information Science[J]. Journal of the American Society for Information Science and Technology, 2008, 59(13): 2156-2170. [本文引用:1] [JCR: 2.005]
[5] 安璐, 张进, 李纲. 自组织映射用于数据分析的方法研究[J]. 情报学报, 2009, 28(5): 720-726. [本文引用:1]
[6] Zhang J, An L, Tang T, et al. Visual Health Subject Directory Analysis Based on Users’ Traversal Activities[J]. Journal of the American Society for Information Science, 2009, 60(10): 1977-1994. [本文引用:1]
[7] Kohonen T, Oja E, Simula O, et al. Engineering Applications of the Self-Organizing Map[J]. Proceedings of the IEEE, 1996, 84(10): 1358-1384. [本文引用:1] [JCR: 6.911]
[8] Kohonen T. New Developments and Applications of Self-Organizing Maps [C]. In: Proceedings of International Workshop on Neural Networks for Identification, Control, Robotics, and Signal/Image Processing. San Francisco: IEEE Press, 1996: 164-172. [本文引用:1]
[9] Ultsch A. Maps for the Visualization of High-dimensional Data Spaces [C]. In: Proceedings of Workshop on Self-Organizing Maps (WSOM’03), Kyushu Institute of Technology, Kitakyushu, Japan. 2003: 225-230. [本文引用:1]
[10] 安璐. 基于自组织映射的期刊主题研究[D]. 武汉: 武汉大学, 2009. [本文引用:1]
[11] SOM Toolbox [EB/OL]. [2008-03-01]. http://www.cis.hut.fi/somtoolbox/package/docs2/som_norm_variable.html. [本文引用:1]
[12] Kohonen T. Things You Haven’t Heard about the Self-Organizing Map [C]. In: Proceedings of International Conference on Neural Networks (ICNN), San Francisco, USA. 1993: 1147-1156. [本文引用:1]
[13] Moya-Anegon F, Herrero-Solana V, Jimenez-Contreras E. A Connectionist and Multivariate Approach to Science Maps: The SOM, Clustering and MDS Applied to Library and Information Science Research[J]. Journal of Information Science, 2006, 32(1): 63-77. [本文引用:1] [JCR: 1.238]
[14] White H, McCain K. Visualizing a Discipline: An Author Co-citation Analysis of Information Science, 1972-1995[J]. Journal of the American Society for Information Science, 1998, 49(4): 327-355. [本文引用:1]