分析搜索引擎评价与搜索引擎可用性分析两者的关系,并结合搜索引擎查询信息的三阶段特点分析搜索引擎可用性评价的要求,基于可用性评价指标的4大来源构建搜索引擎可用性评价指标层次模型,并用德尔菲法计算评价指标的权重,最终形成一个具有应用价值的搜索引擎可用性评价指标体系。
This paper firstly analyzes the relation between search engine evaluation and usability analysis. Based on the characteristics of the three stages of information retrieval by search engine, the demand of usability evaluation is given,and the evaluation hierarchical model on the usability of search engine is constructed based on the four foundations for the choice of evaluation indicators. Then the weights of indicators are accounted by Delphi method,and a valuable search engine usability evaluation system is provided.
随着搜索引擎进入高速发展时期,搜索引擎成为用户和信息之间最重要的接口。然而,Jansen等[ 1]在研究中发现用户利用搜索引擎来查询相关信息是一件费力的工作。于是,以提高可用性为目的成为搜索引擎研发的主要内容,可用性水平高低也成为搜索引擎成败的决定性因素。在可用性的众多定义中,最有影响的是ISO的标准定义及可用性工程学创始人Nielsen的定义。ISO 9241-11[ 2]定义可用性为产品在特定使用环境下为特定用户用于特定用途时所具有的有效性(Effectiveness)、效率(Efficiency)和用户主观满意度(Satisfaction)。Nielsen[ 3]在其著作《可用性工程》中对可用性作了全面的分析,他认为可用性包括以下5要素:易学性(Learnability)、交互效率(Efficiency)、可记忆性(Memorabiliy)、出错频率和严重性(Errors)和用户满意度(Satisfaction)。
可用性定义的多样化反映出其是一个适用于多个领域的重要概念,而上述定义只给出了其一般的描述和评价标准,在具体应用到某一个特定的领域,需要根据这一个领域的特性对其内涵具体阐释。如Shackel[ 4]认为可用性的内涵需要考虑环境因素,在各个不同领域,评价的参数和指标是不同的,不存在一个普遍适用的评价标准。因此,可用性评估十分强调环境期间因素的重要性,往往包含用户类型、具体任务、操作环境等方面。当这一概念扩展到搜索引擎时,虽然可以从一般意义上将搜索引擎可用性定义为“用户利用搜索引擎获取信息资源时的有效性、效率和主观满意度”,但是对搜索引擎的可用性评价内容,需要根据搜索引擎的工作特性来重新界定内涵。
伴随着可用性概念的出现和可用性工程的兴起,为搜索引擎的评价开辟了一个新的研究方向。
(1)可用性是搜索引擎的生存基础。搜索引擎同产品一样,更需要强调其可用性。随着搜索引擎市场的兴起,越来越多的搜索引擎网站出现,用户可选择的范围也越大,提高了搜索引擎的可用性,同时也提高了网站访问流量,其带来的经济效益和社会价值不容低估。
(2)可用性研究为搜索引擎评价提供了方向。搜索引擎评价应遵循什么样的原则,这是搜索引擎评价工作首先要解决的问题。可用性定义中提出的有效性、效率和用户满意度涵盖了搜索引擎评价的全部内容,尽管这三个方面需要在搜索引擎特定的情境下进一步阐释,但是它足以准确和精炼地指明了搜索引擎评价的研究方向。
(3)可用性成熟的实施理论为搜索引擎评价提供指导。可用性研究从学科上划分属人机工程学领域的概念,它包括一整套工程过程、方法、工具和国际标准,它应用于产品生命周期的各个阶段,核心是以用户为中心的设计方法论,强调以用户为中心来进行开发,能有效评估和提高产品可用性质量。搜索引擎的评价只是最近一、二十年的事情,缺少成熟的实施理论和方法指导,如能借鉴可用性工程中的成熟理论,将极大提高其准确性和可靠性。
搜索引擎按照其工作原理来区分,有两种基本类型:关键词式全文搜索引擎,如Google、 Baidu等;分类目录式搜索引擎,提供了对采集网站的分类目录,其中有代表性的如Yahoo。虽然两类搜索引擎的工作原理不同,但从用户角度来看,主要区别在于执行搜索的策略不同,笔者将用户利用搜索引擎查询信息的过程表述为三个阶段,在每个阶段用户都产生特定的可用性要求,具体如下:
(1)用户信息需求的形成。在实践活动中,人们为解决各种实际问题而产生信息的不满足和必要感,从而产生了对信息的需求。在第一阶段,用户还根据过去的经验、知识背景和信息需求的特点选择合适的搜索引擎。用户要解决的问题主要是:需要什么信息;到哪能找到信息。因而在这一阶段,用户对搜索引擎的可用性要求表现为:搜索引擎是否易于识别和记忆,搜索引擎的有用性是否能被用户感知。
(2)搜索过程。这是用户搜索信息的最主要活动阶段,根据用户选择不同的搜索引擎,这一阶段也表现出不同的行为特征。如果用户选择的是如Google这样的关键词搜索引擎,那么这一过程可描述为:将信息需求表示为由若干检索词构造成的查询表达式→对检索返回结果进行过滤→确定相关的检索记录。如果用户选择的是分类目录式搜索引擎,那么这一个过程可描述为:确定信息所在分类目录→过滤目录下的检索结果→确定相关的检索记录。
用户对结果的预期、用户的认知水平以及用户的智力、经验等特征都决定了用户在这一阶段的表现,对搜索引擎的可用性也提出了更直接的要求。这一阶段,用户对搜索引擎可用性的期望和要求为:搜索引擎是否易于学习、易于使用,是否具有良好的反馈性和响应性,从搜索引擎界面能否获得良好的视觉享受,能否满足用户多样化和个性化的服务要求等。
(3)检索信息的获取和利用。这是用户利用搜索引擎的根本目的,因而也是在研究搜索引擎可用性问题时不能忽视的重要内容。这一阶段,用户对搜索引擎可用性的期望和要求表现为搜索引擎提供的结果能否满足用户的信息需求,让用户满意地利用。
目前,国内外对搜索引擎可用性评价指标的研究并不多见,但是相关的研究可以为构建适用于搜索引擎可用性评价的指标体系提供借鉴和启发。笔者在研究中,主要参考了以下几个领域的研究成果。
自搜索引擎问世以来,围绕着其性能、质量的评价成为研究的热点,无论是从事搜索引擎技术研发的学者、技术人员还是负责搜索引擎商业运营的管理人员都关注搜索引擎的评价结果。据不完全统计,国内外已经有近百种不同的搜索引擎的评价方法,提出了一系列较有影响的评价指标。其中较重要的有:
Chu等[ 5]提出的评价搜索引擎的指标为检索能力、检索效果、输出和用户负担;Bar-Ila[ 6]提出应从数据库覆盖范围、查询响应时间、用户所需努力和检索效果来评价搜索引擎的性能;曾民族[ 7]提出6类评价指标:数据库规模和内容、索引方法、检索功能、检索结果、用户界面、查准率和响应时间;宛玲等[ 8]提出从10个方面评估中文搜索引擎指标,分别为收录信息范围、反馈的信息量及内容的准确性、反馈的查询结果错误率、报道与内容更新速度、检索性能、响应时间、检索界面友好性、精品推荐、与其他搜索引擎的友情链接、系统性能、点击率和附加功能;凌美秀[ 9]提出的评价搜索引擎指标为检全率、检准率、检索速度、搜索引擎索引数据库的更新周期、对信息有效性的判断;朱庆华等[ 10]提出的评价搜索引擎指标为索引构成、检索方式、检索效果、其他功能/服务。
由于搜索引擎评价已经较为成熟,且与搜索引擎可用性评价有一定程度的关联,所以可引用搜索引擎评价指标作为搜索引擎可用性评价指标的重要来源。但是需区别的是,搜索引擎可用性是一个从用户出发的概念,因而在引入搜索引擎指标时要更多地从用户角度考虑。从搜索引擎评价指标现状看,国外搜索引擎评价研究中非常强调“人性化”,常常把用户感受作为主要的评价指标,如“用户负担”、“用户所需努力”等指标。而国内学者早期的研究还是从系统角度评价,近年来有少数学者注意用户的主观感受,如“对信息有效性判断”。鉴于此,笔者在构建搜索引擎可用性评价指标时,更多地是以用户为中心,从用户的视角审视搜索引擎的可用性问题。只有站在用户的角度,才能真正体现搜索引擎可用性评价的价值所在。
这里所说的网站是区别于搜索引擎的以提供信息服务的一般性网站,如各企业门户网站、政府网站、教育网站、新闻网站等。很多学者都认为可用性是度量一个系统或者网站成功与否的重要尺度之一[ 11],并从理论和实践两方面形成了诸多可借鉴的成果。如著名可用性专家Nielsen[ 12]多年对网站的研究总结了针对网络应用的特殊情况的4个可用性参数:导航、响应时间、可信度和内容。Turner[ 13]评估网站可用性的指标为导航、网页设计、内容、可存取性、多媒体使用、互动性和一致性。Palmer[ 14]的网站可用性指标为:下载延迟、导航、内容、互动性、响应性。Tarafdar等[ 15]从信息内容、导航系统的易用性、下载速度、网站可访问性角度评估网站的可用性。Rosen等[ 16]从一致性(友好的环境、易用的导航和清晰的设计)、复杂性(包含供用户探索的各种信息和图像)和易读性(一致和清楚的网站设计)三个维度定义可用性实际上也是评估网站可用性的三个指标。他们虽然没有直接针对搜索引擎这种类型网站进行研究,但是提供了一些共性的可用性指标:如导航性、易用性、响应性等。
搜索引擎具有不同于一般网站的独特之处,在操作习惯、任务、界面、使用心理、结果获取等方面和一般网站体现出不同的可用性特征,如表1所示:
![]() | 表1 搜索引擎与一般网站对可用性的要求差异 |
鉴于此,本文在构建搜索引擎的可用性评价指标时,引用一些通用的网站可用性指标,也考虑搜索引擎对可用性的特殊要求,补充若干针对搜索引擎的特色指标。
专门针对搜索引擎可用性评价的研究在国外也开展了不少,提出了具有代表性的评价指标。如 Buzzi等[ 17]分析了5个搜索引擎Google、Yahoo、HotBot、Vivisimo、Kartoo的可用性问题,评估的要素包括组件安排、关键词的表述能力、导航功能、检索结果。文献[18]提出搜索引擎提供一个较长的文本输入框使查询可见将使系统更加有用。文献[19]认为搜索引擎能容错并且鼓励用户可逆操作是一个重要的可用性指标。
而国内很少有学者或组织关注搜索引擎可用性评价。经调研发现,清华大学IT可用性实验室(Tsinghua's IT Usability Lab)于2004年6月对搜索引擎Google、Yahoo China、Baidu、Zhongsou进行评价,选取的评价指标包括结果的相关性、网页覆盖率、死链率、及时性、专业细分、分类功能[ 20]。2005年9月再次对Google、Yisou、Baidu、Zhongsou、iAsk、Sogou这6家搜索引擎网站开展可用性评估,这次评估的指标是检索结果相关性、网页覆盖率、死链率、作弊率、结果重复率、中文分词[ 21]。
国内学者除了在关注力度上逊于国外研究外,还存在一个明显的差别,国内搜索引擎可用性评估中很少考虑到用户的因素,如上述清华大学的分析中,没有将用户区别对待,而国外Buzzi等[ 17]的实验则将用户区分为正常人和盲人。这表明国内的搜索引擎可用性分析还是没能跳出搜索引擎评价的框架,不能归于真正的可用性评价。因此,笔者在构建搜索引擎可用性评价指标时更多关注国外在这一领域的成果,但同时,也意识到可用性是一个与用户有关的概念,必须要考虑东西方文化差异带来的认知方式的不同,因此将立足于国内用户的认知心理特征制定搜索引擎可用性评估指标。
笔者设计了一套搜索引擎可用性调查问卷,采取主观回答和客观判断相结合的方式调查用户比较关心搜索引擎的哪些性能、用户对当前搜索引擎的不满意地方以及用户期望中的搜索引擎具备哪些特点。通过这一前期调查工作,笔者对搜索引擎可用性评价的内容有了更为具体的认识,也从用户手中获得了宝贵的第一手资料,这也是本文构建搜索引擎可用性评价指标的重要依据。
在依据ISO关于可用性的一般定义,并且综合考虑搜索引擎可用性评价指标4大来源的基础上,笔者构建搜索引擎可用性评价指标层次模型。根据搜索引擎可用性目标,可用性评价从有效性、效率和满意度三个维度来构建评价准则,每一准则下又细化为若干具体的指标,如图1所示:
(1)有效性是指用户利用搜索引擎完成特定的搜索任务和获得特定的信息时所具有的正确和完整程度,它能用来衡量搜索引擎提供的资源和服务功能。能够解释搜索引擎有效性的指标有:检索质量、检索结果、容错性、定制性、附加功能。
(2)效率指用户利用搜索引擎完成信息获取任务时使用的资源(如时间、努力、经济因素等)。能够解释搜索引擎效率的指标有:易记忆性、易学性、易用性、视觉呈现、响应性、灵活性、导航性。
(3)满意度指用户在使用搜索引擎过程中所感受到的主观满意和接受程度。能够解释搜索引擎满意度的指标有:愉悦度、忠诚度、推崇度。
搜索引擎可用性评价指标层次模型为评价搜索引擎的可用性提供了研究框架,然而该模型中指标的具体含义还需要深入研究。为了保证指标内容的科学性和可信度,笔者邀请20位专家对搜索引擎可用性评价指标内容进行了三轮的专家调查,主要步骤为:
(1)专家选择。本研究选择了20名有代表性的专家,包括5名高校副高及以上职称教师、5名网站管理人员、5名社会用户,同时考虑到可用性是一个专业知识领域,普通用户可能不能深切领会其含义,故还特别邀请了5名对可用性理论以及搜索引擎评价、网站评价有多年理论和实践研究经验的学者。
(2)确定指标的操作化内容。图1所构建的指标层次模型还较为抽象,需要将其转化为可观察和可辨认的具体题项,这称为指标的操作化[ 22]。这一过程通过两轮专家调查,第一轮是开放式的,向专家介绍搜索引擎可用性评价指标层次模型的15个指标,由专家自由地发表意见,提出对搜索引擎可用性指标测量的具体题项(见表2第一列);第二轮是综合第一轮专家的意见,反馈给所有专家,专家再次返回调查意见,从而确定最终的调查题项(见表2第二列),再根据各测量题项的含义将其归并入搜索引擎可用性评价指标层次模型中的15个指标中。
![]() | 表2两轮专家调查评价指标内容变化 |
(3)测量题项重要性判断。在第二轮和第三轮专家调查中都要求专家对各测量题项的重要性进行判断:非常重要(5),重要(4),无所谓(3),不重要(2),非常不重要(1)。根据德尔菲法的思想第三轮调查时各专家可以看到第二轮调查的结果,再修正自己的判断,第三轮各专家的打分结果部分如表3所示:
![]() | 表3 专家第三轮调查结果 |
(4)计算指标权重。利用公式Ck=
![]() | 表4 指标层权重 |
Nielsen[ 12]曾指出:“在网络中研究用户的行为可以发现,用户对于很难使用和速度很慢的网站是没有忍耐力的,人们不想等待。而且用户并不想去专门学习怎样使用一个网站。人们在登录网站之后就需要立即掌握网页的功能——这最多需要几秒钟。”这段话对搜索引擎尤为适用,其可用性评价也成为搜索引擎能否更好满足人们查询信息任务的关键。搜索引擎可用性评价指标体系的建立是进行评价研究的前提和基础,本文构造的搜索引擎可用性指标体系体现出三个特点:
(1)紧紧抓住了学界普遍认同的ISO和Nielson对可用性的一般定义,例如依据ISO的定义从有效性、效率和用户满意度三方面构建评价准则,又如Nielson提出的易学性、可记忆性、出错率等都涵盖其中。
(2)本文在构建可用性评价指标时,充分体现出以用户为中心的构建原则。在对指标的内容分析中,笔者在与用户的多次访谈中,从用户那里获得了宝贵的第一手资料,从而定性地了解了用户对搜索引擎的预期,因而构建的指标更能体现出面向用户的特点。
(3)充分借鉴了相关领域的成果,构建的指标体系具有可操作性。本文的可用性评价指标的选取有4大来源,经过仔细斟酌和专家调查,确定了最终的15个具体的评价指标,为后续可用性测试工作的开展打下基础。
本文研究的不足是虽然利用德尔菲法形成了最终的指标体系以及计算了各个指标的权重。但是德尔菲法是一种主观、定性的研究方法,它一般要求选择20个左右的专家就可以共同构建和确定具体的指标。这种方法虽然在一定意义上克服了单次专家调查的信息不足的缺点,但是所形成的指标对大规模的用户真实数据是否能达到一定的信度和效度,还需要更为科学的方法进行验证。通过本文的工作为评价搜索引擎可用性提供了一套操作性很强的评价标准,可以作为开展可用性测试时制定调查量表的依据,也可以作为启发式评估的启发式规则,下一步的工作是基于本文的研究成果开展用户问卷调查,运用社会统计学方法中的探索性因子分析和主成分分析进行指标的降维和主成分提取工作,从而进一步修正和完善可用性评价指标。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|