基于时序关键词热点识别方法的图情学科研究趋势分析(2000—2009)
李树青1, 白云2
1南京财经大学信息工程学院 南京 210046
2 南京大学中国社会科学研究评价中心 南京 210093
摘要

根据所收集的2000—2009年共20多万篇图情专业期刊文献数据,提出对一般流行研究热点和潜在重要研究热点的定义方法,结合时序关键词热点识别方法,从积极趋势和消极趋势两个方面介绍6种常见的学科研究趋势分析方法,并分别给出识别算法和查询参数阈值。

关键词: 图情学科; 研究趋势; 时序热点识别
中图分类号:G250
The Analysis of Research Trend in Library and Information Science Based on Hotspot Recognition of Timing Keywords (2000—2009)
Li Shuqing1, Bai Yun2
1College of Information Engineering,Nanjing University of Finance & Economics,Nanjing 210046,China
2 Chinese Social Sciences Research Evaluation Center, Nanjing University, Nanjing 210093,China
Abstract

This paper puts forward the definitions of common popular research hotspot and latent significant research hotspot based on the collected journal articles in library and information science which are above 0.2 millions from the year 2000 to 2009. And combined with hotspot recognition method of timing keywords, 6 analysis methods of research trends are discussed including positive trends and negative trends in detail. Then this paper gives the recognition algorithm and the query parameter thresholds.

Keyword: Library and information science; Research trend; TimingHotspot recognition
1 引 言

探究一个学科的研究发展趋势,对于学者了解该学科的前沿动态和其相关背景知识有着重要的意义。尤其对于图书馆、情报与文献学(简称图情学)而言,该学科已经从以纸质文献和科技情报等传统信息资源管理的研究领域,逐渐发展到对数字资源、网络资源和多媒体等现代电子信息资源管理为基础的方向上,相应的学科研究重点已发生了巨大的变化和发展。

我国有很多学者都对图情学科的研究趋势做过大量的分析工作,并取得了很多有价值的成果。其中,较为常见的方法是文本分析方法,即通过识别出一段时期内文献中最热门的关键词及其变化,间接得到研究主题发展的潜在规律,进而寻找到研究的主题和发展趋势。在分析方法上,一般采用两种主要类型:基于词频的分析方法和基于被引关系的分析方法。两种方法各有优势,适合不同的场景要求, 也能满足各自所能胜任的任务要求。 但是对于学科研究趋势分析而言,这两种方法却都存在着各自的不足之处。基于词频的分析方法虽然有利于发现热点和关注度等问题,但对研究热点的重要性考虑不足,甚至对此也难以有效区分和识别。而基于被引关系的分析方法主要便于探究学科研究的重要性,可以明确找出不同文献在专业研究中的权重关系。但是单纯的被引量往往受到时间维度的影响,主要问题表现为新文献往往具有较低的被引量,而恰恰一些能够反映前沿热点研究问题的高质量文献正是一些新文献。

上述问题其实都反映出单纯使用一种方法所不可回避的困境,同时也需要提出更为有效和合理的实验方法和策略,以期得到更富有价值的分析结果。本文采用结合关键词词频和被引关系的方法来探索新的研究思路。

2 文献回顾
2.1 学科研究趋势的相关研究内容

学科趋势研究在很多学者的研究文献中有着不同的定义,但是基本思路是一致的,只是研究方法上存在着较大的差别。

比较重要的类似观点有科学知识图谱,它是指能够显示一个学科或知识域在一定时期发展的趋势与动向,形成若干研究前沿领域的演进历程[ 1]。同时也有学者提出了研究前沿(Research Front)和知识基础(Intellectual Base)的类似概念。其中,研究前沿可以描述研究领域的动态本质,通常某个领域的研究前沿是由30到40篇最近发表的高质量文献组成[ 2]。而知识基础则是指相关研究前沿文献的引文和共引轨迹[ 3]。从文献计量学来看,引文形成了研究前沿,被引文献组成了知识基础[ 3]

在具体的学科研究趋势识别方法上,不同学者也提出很多不同的方法,其中统计方法是较为常见的分析方法。还有学者提出的跳跃检测算法(Burst Detective Algorithm)适用于辨认新兴研究前沿专业术语概念,适用于对由时间序列组成的多词专业术语和文献的引文分析[ 4]。有学者在针对ACM会议论文集中的论文的分析文献中,提出了时序可视图(Temporal Graph Visualization)的方法,寻找计算领域的研究热点主题、逐渐过时的主题和快速发展的主题,但没有使用引文数据[ 5]。还有学者针对CiteSeer文献,根据文献中高频使用的关键词,使用聚类方法来鉴别动态发展趋势[ 6]

2.2 图情学科研究趋势的相关研究内容

有学者利用《中文社会科学引文索引(CSSCI)》的有关数据,通过分析被引用最多的文献主题和被标引最多的关键词来讨论图情学的研究热点与趋势,得出一些极有价值的结论[ 7]。该方法利用了图情方向的所有收录期刊和图书文献,同时还把引文范围扩大到所有社会科学类文献,并考虑了部分外文引文。但所研究的数据时间较早,为2000年到2004年。另外在方法上,该文只使用了单纯的被引数量。

还有学者对基于CNKI相关文献的样本集,使用关键词词频分析和词语共现分析方法对1999年到2008年我国图书馆学研究热点、结构以及特征进行研究,得到战略坐标图,并据此来分析我国图书馆学9大研究结构的发展动态[ 8]。其中提到了结合时间序列的分析方法,这体现在两点:

(1)指出高频关键词频次与关键词总频次之比,以及高频关键词与所有关键词个数之比均呈现出下降趋势;

(2)给出下降态势、增长态势、平稳状态、起伏状态、和战略坐标图基本吻合5种关键词演化状态。但只涉及图书馆学的研究方向。

3 方法说明

选择文献数据的所有关键词作为分析客体。同时,本文也认为对于学科研究趋势的研究,需要同时考虑文献和引文的双重作用。不仅如此,还要观察文献研究主题随时间变化的规律和趋势。为此,将各个分析年份的关键词组成一组时序关键词(Timing Keyword),通过算法来识别其中的热点,并通过这些热点出现的年份和变化规律来探究相关学科方向的发展趋势。

3.1 从研究内容的专业性来划分

从研究内容的专业性来看,学科研究趋势可以分为一般流行研究热点和潜在重要研究热点。在研究中,从文献关键词的词频和被引文献关键词的词频两个角度,来对这两种研究热点进行分析。

(1)一般流行研究热点

此类相关文献主题往往集中于对一些新出现的理论概念和重要技术,研究者数量较多,文献数量相对较大,质量和层次也差异很大。不过从总体上,这些文献可以反映一个时期的研究关注热点。值得注意的是,该类型的研究热点往往在其他学科中也具有较高的流行度,如“知识经济”、“Web2.0”等在经济类、管理类学科方向中也是高度流行的研究主题。由于寻找一般流行研究热点需要考虑绝大多数文献的研究内容,因此笔者借助于所有文献中出现的关键词来分析,给每个关键词计算分配一个能够反映在指定年份流行度的权值。具体方法描述如下:

设定时间期限为2000年到2009年,计算每个年份中不同关键词在所有当年发表文献中的出现频次,即文档频率(DF)。由于大多数重要关键词的绝对文档频率都会随着时间推移而逐渐增多,所以为了更为合理地识别不同关键词在指定年份的相对重要性,笔者使用指定年份关键词的文档频率之和去除指定年份所有的关键词文档频率,进行规范化处理,得到反映关键词文档频率的各个年份不同关键词的权值,称之为“流行研究热点权值(Popular Research Hotspot Weight,PRHW)”。如得到的关键词keywordi在年份yearj的权值为:

PRH= (1)

其中,DF表示文档频率。该值越大,越能反映出关键词具有较高的流行度。

在后续的分析算法中,可以根据这一权值来识别关键词在不同年份的变化规律,返回在不同年度中权值最大的关键词,倒序输出列表,以此来判断一般流行研究热点的发展趋势。

(2)潜在重要研究热点

此类研究热点往往具有较强的专业性,即便是在同一时期,不同专业的差异也很明显。而且从数量上看,此类研究文献往往并不占有优势。相反,只有那些质量也较高的专业研究文献往往才对此有较多的关注。借助于被引关系,笔者认为被引量较大的文献所具有的关键词应当比被引量较少的文献关键词更能反映潜在重要研究热点。具体方法类似于前者,但在文献获取方法上存在不同。对指定年份而言,计算每一个关键词在该年度发表并被引用的文献中的文档频率之和,而且文献被引次数越多,文献包含的关键词相关词频越大,最后也使用上述方法对权值进行规范化处理。此时可以得到一个关键词keywordi在年份yearj的权值,称之为“潜在研究热点权值(Latent Research Hotspot Weight,LRHW)”,计算方法如下:

LRH= (2)

其中,CF表示被引次数,documentk为含有关键词keywordi的该年份被引文献。该值越大,越能反映出关键词较高的重要度。

补充说明两个问题:

①为方便说明,“流行研究热点权值(PRHW)”和“潜在研究热点权值(LRHW)”在本文中被统称为“研究热点权值(Research Hotspot Weight,RHW)”。

②上述两种划分,并没有说明孰优孰劣,只是侧重点不一样,它们对于把握研究方向和选择研究点都具有较大的参考价值,研究者可以根据研究需求来合理地选择更适合自己的研究热点。

3.2 从研究内容的时变性来划分

不论是一般流行研究热点还是潜在重要研究热点,任何研究热点都不可避免地受到时间因素的影响。站在时间的维度上,更容易从大量的文献数据中识别出真正经得起时间检验的高质量文献和长期有价值的关注热点。因此,按照研究内容的时变性,笔者给出了两大类值得关注的研究热点发展趋势类型,分别是积极趋势和消极趋势,从积极和消极两个方面来了解一个研究方向的发展状况。这两大种趋势还可以细分为6小种。

(1)积极趋势

①长期受到关注的研究热点

此类研究热点能够在较长的时间内,始终保持较高的关注度,和其他研究热点相比,在既定学科范围内,能够代表这个学科的专业特色和研究热点。

该权值计算方法相对较为简单,只需直接利用权值的大小相互比较即可。具体方法如下:

1)计算每个关键词研究热点权值在各个年份的平均值;

2)设定时间期限范围阈值为大于5年(小于5年难以说明在指定的10年研究期限内具有长期的趋势特点);

3)按照平均权值的大小倒序输出所有的关键词。

②关注度长期稳定上升的研究热点

此类研究热点能够在较长的时间内,从较低的关注度逐渐发展成具有较高的关注度。这些研究热点往往不是一些流行度很大的主题,相反,它们往往表现出一种随着某些技术和理论的不断演化而逐渐被研究者关注的趋势。

该研究热点的识别算法和下面两种积极趋势识别算法基本相似,都采用同一种关键词权值Weight1来比较,只是在阈值设定和参数值的选择上有所区别,甚至可以根据实际需求灵活调整来得到更有效的结果。

首先,需要计算关键词的Weight1权值。作为一种积极趋势,从时间曲线上看,趋势图一定表现为研究热点权值不断上升的特点,具体的上升幅度可能会因研究热点权值类型不同而不同。所以,该算法主要用于在各个年份的所有关键词研究热点权值数据中识别具有权值不断上升特点的关键词,并计算相应的上升幅度,以此作为反映该关键词关注度长期稳定能力的权值Weight1,计算方法如下:

Weight1i=(3)

其中,maxweight是指该关键词在所有年份中的最大研究热点权值,maxyear表示该关键词具有最大研究热点权值的相应年份,minweightpre是指获取早于最大研究热点权值年份的最小研究热点权值,minyearpre表示该关键词具有相应最小研究热点权值的年份。分母中的10可以使具有最长时间间隔(10年)的关键词获得最小的分母值。从中可以看出,一个具有较大研究热点权值的关键词如果可以在较长的时间内获得较大的研究热点权值提升,则权值Weight1较大。

可以利用指定输出参数阈值的限定方法来完成多种类型的积极趋势研究热点查询,如对于“关注度长期稳定上升的研究热点”,在实验中采用下面三种输出参数阈值:

1)maxweight>0.0005

2)maxyear=minyearnext

3)maxyear-minyearpre>7

在具体实验中,这些参数阈值皆可以调整,以获取满足自己特定需求的结果,如更关注上升幅度而不在意自身研究热点权值大小的话,可以减少maxweight参数的阈值下限。

③近年来关注度突然上升的研究热点

关注度突然上升的研究热点往往是一些早先具有较低关注度的主题,但在很短的时间内,突然获得较大的关注度提升。

具体的识别方法和前者一样,仍然利用Weight1权值,不过在查询时的输出参数阈值不同,为:

1)maxweight>0.0001

2)maxyear=minyearnext

3)minyearnext-minyearpre<5

④关注度长期稳定上升但近年来略有下降的研究热点

此类研究热点也是一种在较长时间内不断受到更多关注的主题,然而出于某种原因,当前的关注度却呈现出一种开始下降的趋势。不可否认,这种关注度的下降很大程度上代表着研究价值的降低,应当引起相关研究学者的进一步思考。

具体的识别方法仍采用反映关键词关注度长期稳定上升能力的权值Weight1,查询的输出参数阈值为:

1)maxweight>0.0001

2)minyearnext-maxyear≥2

3)maxyear-minyearpre>3

(2)消极趋势

①早期的研究热点

从时间曲线上看,该类型的研究热点会表现为研究热点权值早期不断上升而后在较长时间内继续下降的特点,而且上升和下降的幅度都应该较为明显才有意义。因此该算法主要在于累计各个关键词的上升幅度和下降幅度,并以此作为反映关键词这种波动幅度的权值Weight2。计算方法为:

Weight2i=Weight1i+(4)

其中,maxweight、maxyear、minweightpre和minyearpre前面已有说明。minweightnext是指获取晚于最大研究热点权值年份的最小研究热点权值,minyearnext表示该关键词具有相应最小研究热点权值的年份。显然,该值越大,越能够表明波动趋势明显,值得更多关注。

在查询时的输出参数阈值为:

1)maxweight>0.0005

2)maxyear

3)maxyear-minyearpre>2

②关注度一直趋于下降的早期研究热点

在整个考察周期内,此类研究热点一直呈现关注度持续下降的趋势。这说明这些热点在较早的时期是一些具有较高关注度的热点,然而由于自身研究内容成熟或者过时,已经开始淡出学者的研究范围。

该识别算法类似于前者,其中不同之处在于需要得到反映关键词从最高研究热点权值到随后的当前最低研究热点权值变化幅度的权值Weight3,计算方法为:

Weight3i=(5)

显然,该值越大,越能够表明上述特征。在查询时的输出参数阈值为:

1)maxweight>0.0001

2)maxyear

4 实验结果说明
4.1 条件说明

系统运行的硬件环境为:CPU Intel Core 2 Duo P8400,内存 PC3-8500 DDR3 2.0GB;软件环境为:操作系统Windows Server 2003,SQL Server 2005,JDK1.6,Eclipse 3.3。

笔者对万方和CSSCI两大中文期刊数据库进行了文献数据获取,抽取了图情方向期刊文献共59种,其中核心期刊35种,时间跨度为2000—2009年共10年,总共获得202 843篇文献,共计339 000个引文链接,并将103 255个不属于图情方向的无效引文链接全部去除。

4.2 实验结果和结论

(1) 长期受到关注的研究热点

基本情况如表1所示:

表1 排名前10位的长期受到关注的研究热点关键词

表1可以看出,“图书馆”、“高校图书馆”、“数字图书馆”、“信息服务”和“网络环境”这些关键词都是图情方向一般流行研究热点和潜在重要研究热点中长期受到关注的研究热点,而且排名一致,权值也明显高于其他关键词。其中“数字图书馆”曾经是2000年左右最为热门的研究热点之一,在分析的10年中,仍然高居前位,数字图书馆依然是图情学研究的热点,其研究会更多地与新信息技术结合。另外,作为代替“信息管理”的“知识管理”依然是目前研究的热点,它的研究趋势大多以知识服务为中心来展开。

但对于其他大多数关键词而言,它们在一般流行研究热点和潜在重要研究热点上的差异却很明显。找出两组有代表性的关键词:

①在一般流行研究热点排名较高而在潜在重要研究热点排名较低的关键词,它们极可能是一些纯粹的流行研究热点而非真正有潜力的专业学术研究方向,如表2所示。

②在潜在重要研究热点中排名较高而在一般流行研究热点排名较低的关键词,它们极可能是一种真正的潜在研究热点但并非流行主题,如表3所示。

表2 排名前10位的两组排名差异程度最大的关键词之一
表3 排名前10位的两组排名差异程度最大的关键词之二

(2) 关注度长期稳定上升的研究热点

基本情况如表4所示。可以看出,在一般流行研究热点上,主要内容仍然和图书馆有关,而在潜在重要研究热点中,有关于图书馆相关的主题并非主要内容。与图书馆相关的内容主要集中于“图书馆联盟”、“医院图书馆”和“图书馆文化”等,尤其引人关注的是“医院图书馆”,从2006年来一直获得较大的权值提升,如图1所示:

图1 “医院图书馆”从2006年来获得较大权值提升的发展趋势图

对于此类研究热点,一般流行研究热点和潜在重要研究热点的差异不是非常重要,相反应该更为关注同时出现在两种类型之中的较高排名关键词,如“服务创新”和“图书馆联盟”等,体现出既为一般流行研究热点也为潜在重要研究热点的双重特点。

表4 排名前10位的关注度长期稳定上升的研究热点关键词

(3) 近年来关注度突然上升的研究热点

基本情况如表5所示。可以看出,近年来关注度突然上升的一般流行研究热点往往与某一类研究主题的突然出现有着密切的关系,如“h指数”是从2006年开始出现在文献关键词中,而该概念是由美国加州大学圣地亚哥分校的Jorge Hirsch教授于2005年提出的。

表5 排名前10位的近年来关注度突然上升的研究热点关键词

潜在重要研究热点的主题相对较为分散,然而大部分都是在最近3年内被关注而且具有较快关注度提升特点的主题,其中的很多并非流行度很大的主题。

(4) 关注度长期稳定上升但近年来略有下降的研究热点

基本情况如表6所示。可以看出,对于一般流行研究热点,数据结果和人们的普遍认识一致。相反,对于潜在重要研究热点的主题而言,和流行主题关系并不密切,却与图书馆方向相关较大。而且排名在前的几个关键词,近年来的下降幅度相对更大一些,值得研究者的进一步关注。

表6 排名前10位的关注度长期稳定上升但近年来略有下降的研究热点关键词

(5) 早期的研究热点

基本情况如表7所示:

表7 排名前10位的早期研究热点关键词

可以看出,很多关键词既可能表现为关注度长期稳定上升但近年来略有下降的热点, 也可能表现为曾经的研究热点但现已不再是热点。其中, 一般流行研究热点的重复度更大一些,这表明相关关键词的下降幅度明显,如“电子政务”和“数字参考咨询”等。对于潜在重要研究热点而言,并不具有上述特点,差异较为明显,这些关键词多早已呈现关注度下降的特点,如“图书馆史”和“图书馆权利”等关键词居然在2009年没有一篇被引文献含有这些词语,而“数字参考咨询”和“人文精神”分别早在2005年和2006年关注度就已经开始下降。

(6) 关注度一直趋于下降的早期研究热点

基本情况如表8所示。可以看出,一般流行研究热点中的一些早期研究热点确实早已退出主流的研究范围,而潜在重要研究热点并非很直观,如“网络”一词曾经是2000年到2004年较为流行的一个关键词,但显然该词已经淡出了学者的主要研究视野。

表8 排名前10位的关注度一直趋于下降的早期研究热点关键词

那些在潜在重要研究热点上一直趋于下降而在一般流行研究热点上却始终上升的研究热点不多,通常表现为一些价值不大但却非常流行的研究主题,如“知识服务”,如图2所示:

图2 “知识服务”的不同权值发展趋势图

4.3 图情学术趋势搜索引擎

笔者据此设计一款“图情学术趋势搜索引擎”,网址为:http://www.njmars.net:8088/tq/,主页如图3所示:

图3 图情学术趋势搜索引擎的主页界面

用户可以直接通过此搜索引擎查询图情专业类关键词相关的研究趋势分析结果,具体的查询结果界面如图4所示:

图4 在图情学术趋势搜索引擎查询“Web2.0”的结果界面

5 结 语

上述实验系统已经开始运行,并在更大范围内开始征求更多图情方面专家的意见,初步的用户调研反映良好。不可否认,该方法仍然存在很大的改进空间。如基于关键词的分析方法本身存在着很多局限性,如专指度低,很难反映出具体研究内容。很多诸如“案例”和“方法”等无法反映具体研究热点的一般关键词也会具有较高的权值。当然,大多数高频或者高权重值的关键词往往确实能反映研究热点,影响不是很大。关键词的发展趋势有时会表现为词语的变化,如Web2.0就会逐渐发展为Web3.0,但是从更高一层来看,它们所关注的内容紧密度很大。另外,诸如“元数据”、 “XML”和“信息组织”等关键词虽然在字面上差异很大,但是研究内容的相关度很高。还有很多如同义词和汉英同义词等问题,如“DRS”和“数字参考咨询”。笔者认为,如果能够借助语义本体来对相关关键词进行概念解析和重组,可以在更高的语义层面上得到更有价值的结果,这将是下一步工作的重点。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献
[1] 陈悦, 刘则渊. 悄然兴起的科学知识图谱[J]. 科学学研究, 2005, 23(2): 149-154. [本文引用:1]
[2] Price D J de S. Networks of Scientific Papers[J]. Science, 1965, 149(3683): 510-515. [本文引用:1]
[3] 陈超美, 陈悦, 侯剑华, . CiteSpace II: 科学文献中新趋势与新动态的识别与可视化[J]. 情报学报, 2009, 28(3): 401-421. [本文引用:2]
[4] Kleinberg J. Bursty and Hierarchical Structure in Streams[C]. In: Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2002. [本文引用:1]
[5] Erten C, Harding P J, Kobourov S G, et al. Exploring the Computing Literature Using Temporal Graph Visualization[C]. In: Proceedings of the Conference on Visualization and Data Analysis. 2003: 45-56. [本文引用:1]
[6] Popescul A, Flake G W, Lawrence S, et al. Clustering and Identifying Temporal Trends in Document Databases[C]. In: Proceedings of the IEEE Advances in Digital Libraries 2000, Washington, D. C. 2000: 173-182. [本文引用:1]
[7] 苏新宁. 图书馆、情报与文献学研究热点与趋势分析(2000~2004)——基于CSSCI的分析[J]. 情报学报, 2007, 26(3): 373-383. [本文引用:1]
[8] 邱均平, 丁敬达. 1999-2008年我国图书馆学研究的实证分析(下)[J]. 中国图书馆学报, 2009, 35(6): 79-87, 118. [本文引用:1]