基于相关性判据的学术信息检索系统成功模型实证分析
成颖
南京大学信息管理系 南京 210093
摘要

围绕面向相关性判据的学术信息检索系统成功模型(AIRSSM),采用结构方程模型进行实证分析。研究结果显示在学术信息检索系统的分析与设计中需要关注三个方面:(1)系统质量与信息质量导向;(2)均衡考虑系统质量的各影响因素;(3)权威性、完整性、实时性以及有效性不可或缺。

关键词: 学术信息检索系统; 相关性判据; 信息系统成功模型; TEDS模型; 结构方程模型
中图分类号:G358
Empirical Analysis on Relevance Criteria Oriented Academic Information Retrieval System Success Model
Cheng Ying
Department of Information Management, Nanjing University, Nanjing 210093, China
Abstract

In this paper, empirical analysis on AIRSSM is carried out based on structural equation model.The results show that special emphasis of scholarly information retrieval systems analysis and design should be focused on: (1)System quality and information quality oriented; (2)A balanced consideration of all factors affecting system quality; (3)Authority, integrity, real-time and effectiveness are essential to information quality.

Keyword: Academic information retrieval system; Relevance criteria; Information system success model; TEDS; Structural equation model

文献[1]基于相关性判据研究成果、学术信息数据库系统特征调研成果、信息系统成功模型(ISSM)以及TEDS模型构建了面向用户相关性判据的学术信息检索系统成功模型(Academic Information Retrieval System Success Model, AIRSSM)。本文结合该模型采用结构方程模型进行实证分析。

1 研究变量的度量

AIRSSM模型的变量分为两部分:第一部分是前置变量;第二部分的变量来源于相关性判据研究成果、TEDS模型以及ISSM模型。

(1)量表第一部分是AIRSSM模型前置变量的测量题项,主要了解调查对象对学术信息检索系统各种系统特征使用的倾向,题项的来源为作者对51个中外文数据系统特征的调研结果以及TEDS模型[ 2]。调研采用开放的、探索性的以及迭代的方式进行,即对于每个调查内容当某个学术数据库中出现新的元素之后,则将其纳入调查表中,然后就该特征进行回溯,筛查先前是否有遗漏。调查的信息源包括从界面上直接可以观察到的内容以及从系统帮助中可以获得的内容,除此之外,则将不能获得的信息予以排除。调研的结果包括学术信息检索系统19个方面的特征,分别是检索系统的浏览功能、检索结果的显示、检索结果的导航功能、检索结果的排序功能、检索结果的标识功能、检索结果的分类/分组功能、检索结果摘要、查询扩展功能、检索方式选择、检索字段与限定条件选择、检索技术选择、相关反馈、结果输出功能、交互性、社群服务、个性化服务、帮助服务、激励机制以及链接功能,共计153个题项,所有题项的导语均统一为“我倾向于……”,详见附表1

(2)第二部分为AIRSSM结构模型的测量题项,主要构念包括存取方式、标引质量、链接感知、准确性、完整性、实时性、全文输出、权威性、有效性、系统灵活性、本地化、隐私、费用感知、时间认知、系统安全性、系统可靠性、美感、娱乐体验、投入体验、效能认知、信息质量、自适应性、易用认知、选择性、系统性能认知、情感认知、系统质量、服务质量、满意度以及个人使用意愿等。题项来源于TEDS模型、学术信息检索系统的调研结果以及衍化于经典文献。由于本研究的变量数量比较多,如果采用类似文献的做法分别对每个构念题项来源进行充分阐释,则会导致论文的篇幅过于庞大,因此以采用少数构念为例加以阐释的方式说明。

比如作为TEDS模型中影响易用性的“存取方式”构念,其系统过程示例是“识别”,Bailey等[ 3]的有关存取的题项是“存取的便捷性”,具体的选项分别是“便捷 vs 不便捷”、“好 vs 差”、“容易vs 困难”以及“高效vs 低效”。本文根据Bailey等的研究将其具体化为学术信息检索系统中具体影响存取的相关特征,包括“该数据库提供了包括包库模式、镜像模式、机构卡模式、流量计费模式、以及阅读卡模式等多种服务方式保证了我的使用”、“该数据库提供了多个镜像站点保证了我访问的有效性”、“该数据库提供了镜像站点与总库可以同时访问的方式保证了我的随时访问”、“该数据库提供了会员卡/充值卡、移动手机充值、神州行卡、银行卡、财付通、支付宝等多种费用支付方式可以保证我的个人账户不会欠费,从而保证了系统的可访问性”以及“该数据库提供了在单位外面通过BRAS/VPN等方式接入,保证了系统的可访问性”等。

再比如易用认知构念,本研究选取TAM模型的经典文献Venkatesh等[ 4]的题项结合学术数据库系统进行衍化。在Venkatesh等的研究中易用认知的测量题项为“我与该系统的交互清楚且易理解”、“对于我而言熟练使用该系统是容易的”、“我发现该系统容易使用”以及“学习使用该系统对我而言是容易的”。具体到本研究Venkatesh等的[ 4]题项中“该系统”被代之以“该数据库”,从而完成衍化。

AIRSSM模型的其他构念都采用类似的方式形成,由于篇幅限制不再进一步展开。

2 实证分析
2.1 样本和数据

由于需要了解相关性判据对学术信息检索系统的采纳与成功的影响情况,比较合适的做法是将学术信息检索系统的真实用户作为调查对象,因此本文的调查对象选择为硕士学位及以上经常使用学术数据库的人群,以及信息管理系接受过信息检索课程系统学习的大三、大四两个年级的本科生。由于本研究量表的变量多达43个,根据问卷数量至少是变量数15倍的要求,则至少需要645份问卷,如此大的样本量仅仅在南京大学一个单位完成是非常困难的,因此本研究扩大问卷的发放范围至南京大学、东南大学、南京师范大学、南京航空航天大学、中南大学、安徽大学、福建师范大学、中国医学科学院医学信息研究所、苏州大学、青岛理工大学、南昌大学、南京医科大学、中国药科大学以及南京中医药大学等单位。

本研究问卷通过打印发放以及电子邮件发放的方式进行,共计发放问卷1 114份,回收问卷1 054份,问卷回收率为94.61%。在回收的问卷中,通过反向题辨识以及明显未认真作答的观察,去除125份问卷,得到有效问卷929份,有效问卷占回收问卷的88.14%。

2.2 探索性因子分析——结构效度

探索性因子分析的目的是获得量表的结构效度。在多变量关系中,变量间的线性组合对解释每个层面的变异量具有重要意义。在探索性因子分析中,使用最多的是主成分分析,分析的目的就是要找出能够解释多变量的线性组合,即变量的第一个线性组合可以解释最大的变异量,第二个线性组合可以解释次大的变异量,其他的线性组合可以解释的变异量依次递减。主成分分析中,力求以较少的成分解释原始变量的较大部分。本文采用SPSS 13完成。

(1)问卷第一部分

①第一轮

本研究对于问卷的第一部分题项采用基于功能组的探索性因子分析。分析的具体参数的设置根据吴明隆[ 5]的建议进行,即描述性统计量中的相关矩阵选项选择最常用的KMO and Bartlett's Test,分析基于相关矩阵进行,抽取条件为特征值大于1的选项,转轴方法选择最大变异法,系数显示格式选择依据因子负荷量排序。表1列出了根据量表第一部分探索性因子分析的结果,构念样本的KMO值均大于0.5,Sig都为0.000达显著,表示样本的相关矩阵间有共同因子存在,适合对样本进行因子分析。表1中每个题项在其相关联的变量上的因子负荷都大于0.5,交叉变量的因子负荷没有超过0.5,表明问卷具有较好的结构效度。

表1 问卷第一部分探索性因子分析结果

②第二轮

通过第一轮的分析之后,从153个题项中抽取出了42个因子,有些偏多,参考Pérez-Mira的做法[ 6],对问卷第一部分主成分分析之后的因子再次进行探索性因子分析,达到进一步降维的目的。样本的KMO值为0.946>0.5,Bartlett's球形检验的卡方值为18 479.439(自由度为1 035)达显著,表示样本的相关矩阵间有共同因子存在,可以对样本进行因子分析,提取出了8个因子(分别命名为sys1-sys8),累积解释了54.997%的方差,因子及所包含的题项如表2所示:

表2 问卷第一部分的探索性因子分析

(2)问卷第二部分外生潜变量

在问卷第二部分模型的外生潜变量方面,样本的KMO值为0.950>0.5,Bartlett's球形检验的卡方值为30 350.977(自由度为1 891)达显著,表示样本的相关矩阵间有共同因子存在,可以对样本进行因子分析。经过多轮次的分析以及删除了部分逻辑上不合理的题项之后,设定因子数为11,累积解释了63.78%的方差,每个题项在其相关联的变量上的因子负荷都大于0.5,交叉变量的因子负荷没有超过0.5,表明问卷具有较好的结构效度。

(3)问卷第二部分内生潜变量

在问卷第二部分模型的内生潜变量方面,样本的KMO值为0.960>0.5,Bartlett's球形检验的卡方值为27 205.325(自由度为1 326)达显著,表示样本的相关矩阵间有共同因子存在,可以对样本进行因子分析。经过多轮次的分析以及删除了部分逻辑上不合理的题项之后,设定因子数为11,累积可以解释的方差为70.094%。

2.3 信度分析

信度分析的作用是衡量问卷结果的一致性程度,问卷信度越高,结果越可信。本研究的信度检验方法采用Cronbach's α系数。问卷第一部分的17个构念中,Cronbach's α在0.7以上的有12个,在0.7以下的有5个,仅检索结果的标识功能信度偏低,问卷第一部分总的Cronbach's α为0.965,说明问卷总体的信度可以令人满意。问卷第二部分外生潜变量的所有构念的Cronbach's α都在0.7以上,总体的Cronbach's α为0.949,说明问卷信度令人满意。问卷第二部分内生潜变量的构念Cronbach's α基本上都在0.7以上,总体的Cronbach's α为0.959,说明问卷信度令人满意。

2.4 结构方程分析

(1) 测量模型的拟合

各个变量在其测量指标上的因子负荷均大于0.4,且T值都大于2,满足显著性的要求。除了因子负荷与t值之外,根据侯捷泰等[ 7]的观点,本研究的拟合指标报告χ2/df,RMSEA,NFI、NNFI、CFI与IFI,结果表明指标值均达到理想的建议值,表明测量模型结构合理。分析工具为Lisrel 8.7版本。具体如表3所示。

表3 测量模型拟合指标

(2)结构模型的拟合

结构模型部分,本文依然以表3的指标作为模型适配的衡量指标。根据侯杰泰等[ 7]的建议,从T值最小的路径渐次地删除之后,最后得到的拟合系数如表4所示:

表4 结构模型的拟合指标

根据TEDS模型,浏览性、结果格式、导航、排序以及可存取性对易用性有正向的影响,尝试在模型中增加路径sys7->easy和sys8->easy,结果显示路径sys8->easy的路径系数为2.07,显然不合理。其他的尝试都没有能够使得这两个因子合理地成为模型的组成部分,因此不再尝试。结构方程分析的最终结果如图1所示:

图1 面向相关性判据的学术信息检索系统成功模型拟合结果

2.5 研究假设的结果解释

根据图1,本研究的假设大部分都得到了支持,包括H19、H20、H29、H30以及H41在内的部分假设没有得到本研究数据的支持。其他没有得到验证的假设,主要原因在于先前的探索性因子分析和验证性因子分析过程中,已经从模型中删除了部分题项以及因子所致,比如有关易用性的假设主要集中在系统因子7和系统因子8中,因此H8-H13该部分没有得到验证。由于在主成分分析过程中已经删除了经费与安全的相关题项,因此研究假设H4和H6没有得到验证。除此之外,还需要考虑以下两个因素:

(1)在探索性因子分析中,功能组已经分散在各个系统因子中,因此严格按照研究假设进行验证比较困难;

(2)TEDS模型本身缺乏大量实证研究的支持,所以模型本身也有完善与修正的必要,尤其是系统过程与价值增值部分的映射关系更是如此,从而本研究在系统过程对价值增值的影响中带有探索性分析的意味。

基于此,本研究修订的部分包括:

(1)本研究未能证实研究假设H29和H30,但是发现隐私与相关反馈对于服务质量存在直接影响而无需通过自适应性的中介。

(2)在TEDS模型中,选择性示例的系统过程是选择,该系统过程在学术信息检索系统的实现中可以包括的系统功能非常多,本研究将其实例化为系统因子1和系统 2,这两个因子分别对选择性存在正性与负性的影响。研究还发现选择性和自适应性对于提高系统质量具有正性的影响。

(3)灵活性与系统因子5对系统性能存在正性的影响。

(4)系统因子4和系统因子6对易用性存在正性的影响。

3 研究结论
3.1 系统设计的系统质量与信息质量导向

在使用意图的影响因素中,系统质量和信息质量远大于另外两个因子,二者对使用意图总的影响分别达到0.61和0.38,从而提示学术信息检索系统的设计者,应坚持系统和信息质量导向的分析与设计原则。由于满意度的直接影响变量也是系统质量和信息质量,因此可以认为在系统提升了系统质量和信息质量的基础上,用户对学术数据库的满意度也能够得到保证。服务质量负性的路径系数表明现有系统的服务远不能令人满意,需要向商用信息系统以及其他竞争比较充分的系统或者领域学习其服务的理念与方法,以提升学术信息检索系统的服务水平。

3.2 均衡考虑系统质量的各影响因素

在系统质量的6个直接影响因素中,易用认知的影响最弱,证实了TAM/TAM2[ 4]等模型中有关易用认知构念的影响随着时间的推移而不断降低的结论。除了易用认知之外,其他5个因子对系统质量的贡献虽有差异,但是路径系数都在0.2以上,并且差别不大,从而提醒检索系统的设计者应均衡考虑效能认知、性能认知、选择性、情感认知以及自适应性的影响。这5个因子又分别受到系统因子1等外生潜变量的影响,这些因子对于系统质量的影响如表5所示:

表5 系统质量的总效应

表5的数据对于检索系统的启示在于,如果要提高检索系统的质量,首先应关注系统的选择性,即从检索入口、检索方式以及检索技术等层面提供丰富的选项,从而方便信息用户利用这些选项完成其信息需求的表达。不过需要注意的问题在于,系统因子2对于系统质量的影响是反向的,而系统因子2则包括检索字段1-5、检索方式1以及检索方式3等提供丰富选择的系统功能,这些选项的均值在3以下,表明是信息用户使用较少,或者是不太倾向于使用的一些系统选项。如何既充分地保证系统的选择性,同时又避免过多的选项给信息用户带来过多的认知负担,是一个需要考虑的问题。针对该问题,可以从检索方式选择中的asea2的几个因子中得到启示,asea2中包括的题项为“简单/快速检索方式”、“自然语言检索方式”、“跨库检索方式”以及“经典检索方式,即万方的提供标题、作者、关键词以及摘要检索途径的检索方式”,这些题项除了自然语言检索方式的均值为3.39之外,其他几个题项的均值都在3.6以上,也就是说是属于用户非常倾向于使用的系统功能。检索系统的设计者可以在设计系统时,将用户经常使用的选项采用类似于万方的做法,将其放在一个标签页中,而对于那些用户使用比较少但能提高系统选择性的选项放在其他标签页下,从而避免了所有的选项都在一个标签页下增加用户认知负担的做法。这种做法比较好地符合了“20/80”定律,即20%的功能即可以满足80%用户的需求,而另外80%的功能则放在不常用的标签页下,从而满足另外20%用户的需求。

通过6个系统因子的分析可以发现,除了系统因子2的贡献为负性的之外,系统因子1对于系统质量的影响远远领先于其他4个因子,通过对各个因子所包含题项的分析,可以将其分为两大类,即系统因子3-6属于检索系统普遍提供的基本功能,比如检索字段、链接、排序、分组、输出等,这些功能各系统之间的实现尽管有一定的差异,但是都达到了现有检索技术研究的顶尖水平,从而也存在类似于易用认知的情况,即随着时间的流逝,信息用户对于每个系统都提供的这些非常重要的功能已经熟视无睹,从而产生了视觉疲劳,因而显示系统因子3-6对于系统质量的影响不是很大,而系统因子1所包含的因子诸如个性化、社区、激励、交互以及帮助等在个别学术信息检索系统中新出现的功能反而是被调查对象认为是影响系统质量的主要因素。这种现象可以通过行为心理学中的“习惯化”(Habituation)理论加以解释,所谓的习惯化是指“有机体对外源刺激的反应强度随该刺激的重复出现而减弱、以至消失,停歇一定时间后遇同样刺激又恢复反应的现象”[ 8]。在学术信息检索系统中,由于调查对象都有长期使用检索系统核心功能的体验,从而导致信息用户对于这种重复出现的外源性刺激(核心功能)反应减弱,反而对检索系统新推出的个性化服务功能(新出现的外源性刺激)反应强烈。习惯化体现在问卷的结果中就是核心功能得分偏低,而新功能得分偏高。

系统因子1-6的数据提醒检索系统的分析与设计者,首先还是应该关注学术信息检索系统的核心竞争力,即系统因子3-6,在充分发掘检索技术各领域研究成果的基础上,提供更先进的检索技术等为用户服务。在此基础上,应该尽可能考虑系统因子1。本文将系统因子1中所囊括的因子称为检索系统的附加服务。电子商务领域的研究表明,这些服务能够很大程度上提高电子商务系统的采纳与接受,根据本文的数据,其必将显著地提高学术信息检索系统的质量。

系统的美感对于系统质量具有比较大的影响,因此在关注系统功能的基础上,对检索系统的界面设计等在内的可用性方面的研究也需要给予足够的重视,可以充分利用HCI领域的研究成果改进检索系统的色调、图形、字体、字形、各种按钮的标识以及整体的简洁性等。HCI已经成为一个独立的非常有前景的研究领域与学科,因此如何借鉴HCI的研究成果以改进整个检索系统的美感有待于更深入的研究。

系统灵活性、可靠性以及娱乐认知对系统质量也存在不同强度的影响,在系统分析与设计中也需要给予必要的关注。

3.3 权威性、完整性、实时性以及有效性不可或缺

在正性影响信息质量的相关性判据中,权威性占据了主要的位置,其次分别是信息的完整性、实时性和有效性,本文没有证实准确性以及全文质量对于信息质量的影响。从而提示学术数据库商应该努力做好这4个方面以提高系统的信息质量,比如权威性,需要数据库商在组织文献的时候将目光放在同行评议论文、专业协会、学会的论文、SCI、SSCI、CSSCI论文,其他诸如声誉好的出版商出版的论文、相关领域重要机构的论文等。在完整性与实时性方面,应尽量保证文献良好的连续性、增大时间跨度、资料的内容齐全、丰富的期刊品种、跨多个学科以及文献类型的丰富等。系统本身则需要加快文献处理的速度、加快数据库的更新周期,减少与纸质出版物的时差,尽可能多地提供在线评议论文等。

附加材料(Supporting information)
附表1 量表的第一部分
续表(一)
续表(二)
The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献
[1] 成颖. 基于相关性判据的学术信息检索系统成功模型建构[J]. 现代图书情报技术, 2011(9): 46-53. [本文引用:1]
[2] 成颖. 信息检索相关性判据及应用研究. [D]南京: 南京大学, 2011. [本文引用:1]
[3] Bailey J E, Pearson S W. Development of a Tool for Measuring and Analyzing Computer User Satisfaction[J]. Management Science, 1983, 29(5): 530-545. [本文引用:1] [JCR: 1.859]
[4] Venkatesh V, Morris M G, Davis G B, et al. User Acceptance of Information Technology: Toward a Unified View[J]. MIS Quarterly, 2003, 27(3): 425-478. [本文引用:3]
[5] 吴明隆. SPSS统计应用实务[M]. 北京: 中国铁道出版社, 2001: 28-46. [本文引用:1]
[6] Pérez-Mira B. Validity of DeLone and McLean's Model of Information Systems Success at the Web Site Level of Analysis[D]. Louisiana State University, 2010. [本文引用:1]
[7] 侯杰泰, 温忠麟, 成子娟. 结构方程模型及其应用[M]. 北京: 教育科学出版社, 2004. [本文引用:2]
[8] 甘怡群. 心理与行为科学统计[M]. 北京: 北京大学出版社, 2005 [本文引用:1]