基于相关反馈的Web检索提问融合研究
景璟1, 洪颖2, 蒋媛媛3, 杲晓锋4
1南开大学商学院 天津 300071
2天津音乐学院图书馆 天津 300171
3河南农业大学学报编辑部 郑州 450002
4唐山轨道客车有限责任公司 唐山 063035
摘要

采用提问式融合与相关反馈方法的结合,对现有的TopN文献选取策略研究和分析,提出利用相关度系数选取数量可变的TopN文献进行扩展查询的提问融合算法,即基于可变N反馈的提问融合算法。通过实验对固定N和可变N算法进行对比分析,结果显示可变N反馈在一定程度上可以改进检索性能。

关键词: 提问融合; 相关反馈; 相关度系数; 元搜索引擎
中图分类号:TP393.09
Study on Web Retrieval Query Fusion Based on Relevance Feedback
Jing Jing1, Hong Ying2, Jiang Yuanyuan3, Gao Xiaofeng4
1Business School, Nankai University, Tianjin 300071, China
2Library of Tianjin Conservatory of Music, Tianjin 300071, China
3Editorial Office, Journal of Henan Agricultural University, Zhengzhou 450002, China
4Tangshan Railway Vehicles Co. Ltd., Tangshan 063035, China
Abstract

This paper introduces the combination of query fusion and relevance feedback methods.By analyzing previous TopN documents selection strategy, it puts forward a query fusion algorithm using correlation coefficient to select a variable number of TopN documents in order to extend query, which is called variable TopN feedback-based query fusion algorithm. Fixed and variable TopN query fusion experiments are analyzed separately, and the test results show that the variable TopN feedback method improves the retrieval performance to some extent.

Keyword: Query fusion; Relevance feedback; Correlation coefficient; Meta-search engine

元搜索引擎致力于通过合并由成员引擎返回的排序列表来改善最终结果,而相关反馈通过改善查询式也达到了改善检索结果的目的。二者对排序结果的改善都是基于相关度而非用户偏好,这使得元搜索与相关反馈的结合可能在更大程度上改善检索效果。

元搜索引擎及其相关问题,比如提问融合和结果融合,已经取得了一些研究成果。提问融合的传统研究是提问表达式的融合。将相关反馈方法用于提问融合的基本原理是把初始提问式及其得到的TopN结果集相融合,进行下一步检索,再次得到的TopN结果集与前者再次融合,并根据需要多次进行,这样就可得到更多相关文献,提高Web检索的查准率。

由此,本文将对信息检索中的TopN文献选取策略进行定义、分类和诠释,着重介绍伪相关反馈与元搜索引擎提问融合的相关文献,分析固定N与可变N反馈方法的优缺点,然后提出了利用相关度系数选取数量可变的TopN文献进行扩展查询的提问融合算法,即基于可变N反馈的提问融合算法。最后通过实验对固定N和可变N反馈算法进行对比分析,结果显示可变N反馈在一定程度上改进了检索性能。

1 TopN文献选取策略

在信息检索过程中,从用户查询在单一或多个数据集检索后所获得的结果列表中选择前N篇文献,用于提问融合、结果融合或者检索系统评价,这就是TopN文献选取策略。

TopN文献选取主要有以下几种情形。

(1)对于单数据集,从用户查询在单数据集检索后所获得的初始结果列表中选择前N篇文献,经处理用于扩展初始查询以获得更多相关文献。

(2)对于多数据集,从用户查询在多数据集检索后所获得的各个结果列表中分别选择前N篇文献,然后依据某种相关度计算分数降序排列,并将融合结果提供给用户,即元搜索引擎领域的结果融合研究;或者进行相关反馈,将所选TopN文献经处理用于查询扩展并再次检索,反复进行此过程直至得到用户满意的检索结果,这就是本文的研究重点。

涉及到TopN文献选取策略的情况还有很多,如利用伪相关反馈的信息检索系统自动排序或评价,关系数据库TopN查询等,这里不一一赘述。

1.1 现有方法述评

在元搜索引擎中,由于成员引擎返回的结果列表极其庞大,若全部放入结果集进行排序将会浪费资源并且延长用户等待时间;而认为排序靠前的文献较为相关,进行TopN文献的选取是必然的。Bast 等认为,前N个Web搜索结果的终端用户通常会把N设为10至100,而自动对结果进行后处理的应用类(比如多媒体检索)可能会把N值设为100到1 000之间[ 1]。余晋等介绍了PinkySearch,一个能同时调用5 个独立搜索引擎的元搜索引擎,其中的元搜索引擎模块MetaSearch中定义了num(即N)为成员搜索引擎的检索结果数目,是一个常数,由用户定义[ 2]。崔舒宁等定义第i信息源返回的前N个文档作为文档集di,并且指定N=100[ 3]

伪相关反馈不需要用户主动参与反馈,某些系统只是假设前N篇检出文献是相关的,其中N值由经验确定,通常在20至100之间。这是出于假设排在前面的结果比一个随机子集更相关,以及在此子集中发现的任何重要的共现模式与查询的相关度更高。关于样本规模,Efthimiadis描述了几种方法,被不同的研究者所采纳:Okapi框架使用的样本规模为三篇文献,有些系统建议为5篇文献,还有一些系统使用更大的样本规模[ 4]。相关文献的样本规模对检索性能没有明显的影响,而选取最佳样本规模的研究仍然是IR进一步研究的领域。在不考虑相关性判断的情况下,通常的办法是用前N篇文献全部作为相关文献的形式选取一个截止点。相关文献的样本规模可以从检出文献的截止点之前选择。

常应用于搜索引擎的伪相关反馈同样适用于元搜索引擎领域,不论是作用于元搜索引擎本身,还是作用于元搜索引擎各个代理。Jin等为了从性能上调查反馈文献的数目,运行了MRR(Multiplicative Ranking Refinement)算法之后发现反馈文献的数目在5到20之间变化。可以清楚地看到反馈文献的数目对于排序修正的性能有直接的影响。不过,即使反馈很少,MRR也能够显著地改进检索性能,特别是在前数篇文献的准确性上。由此推断该排序修正算法在样本数据规模上的鲁棒性较强[ 5]。Egozi 等受到伪相关反馈的启发,提出了一种新颖的特征选取方法。他们把使用BOW(Bag of Words)方法检索到的排序靠前和靠后的文献作为相关和无关文献集的代表。信息检索性能随着N值的增加而改进,但到达一定值后开始降低。排序靠后文献的相关度降低导致了这种降低[ 6]。Wu等提出了一种最佳数据库选取和文献集融合的新方法。这种方法使用一个可以测量无数数据库的集成数据库代表,并且允许根据查询高效选取有效数据库,从而显著改善了计算和空间的可量测性[ 7]。Shokouhi等研究了自动查询扩展技术在联合搜索环境中的应用和发展,并提出了几种新方法,其中,集中扩展在选择方式下用于为每个来源(或来源集)产生特定的查询。设定反馈文献的数量为{1,10,50}[ 8]。Serdyukov提到的N同样是经验估计值[ 9]

本质上,多数相关研究对TopN的选取比较简单,N值大都是系统指定值或人工估计值,每个成员引擎用于反馈的TopN文献数量都是相等的,本文称之为固定N。

1.2 固定N具有的优势

每个成员引擎返回的结果大多是海量的,而通常的做法是选取每个结果列表的前N篇文献。N的值凭经验估计,由人工指定,不以成员引擎或查询的差异而改变,从每个成员引擎选取的文献数量相同。

随着网页数量的几何级增加,小规模搜索引擎不断出现,元搜索引擎由此出现了两个问题:成员引擎的增加虽然扩大了覆盖率,但是也增加了额外的资源调度;查询结果数目的几何倍数增长,延长了提问融合和结果融合的时间。在这种情况下,固定N的优势很明显,不需额外调用资源来进行结果提取,节省了用户等待时间,在资源和时间上均优于可变N。

1.3 固定N忽视的问题

(1)固定N由用户或者系统限制了从各个独立搜索引擎的结果集中提取结果的数量,也限制了TopN文献集的上限。这样很可能导致TopN文献集要么充斥了部分不相关文献,要么排除了部分相关文献。

(2)固定N的做法使得元搜索引擎因此损失了不同成员引擎对同一查询以及同一成员引擎对不同查询的检索性能差异的处理能力;而这些差异实时存在并动态改变。

例如,输入查询“结果融合”,在不考虑噪声的前提下,经人工判断:百度前2个结果相关,谷歌前1个结果相关,搜狗前9个结果相关,搜搜前4个结果相关,雅虎前10个结果相关,狗狗前2个结果相关,中搜前1个结果相关。如果选取固定N,例如N=10,部分无关文献就会出现在TopN文献集里,导致扩展后的查询有噪声,与用户查询发生偏离;N=5,部分相关文献就被排除在TopN文献集之外,导致查询扩展不足不能得到足够相关文献。两种情形都会影响到元搜索引擎相关反馈的查全率和查准率。从这个简单试验可以看出,固定N的做法显然不合理。

2 基于可变N反馈的提问融合策略
2.1 相关度系数

对于同一查询,每个成员引擎即每个数据集的查询相关度是不同的,所返回的文献质量也不同;对于不同查询,同一成员引擎即同一数据集的查询相关度也是不同的。这种情况下,若同等对待,选择数量均等的TopN文献,势必要浪费元搜索引擎的资源来识别和剔除。

利用相关度系数对成员引擎进行加权,即在相关反馈过程中根据相关度对每个成员引擎选取不同数量的TopN文献,这就是可变N选取策略。实质是通过一个成员引擎的检索性能对其输出结果进行加权,引擎性能权值由检索结果来反映,而无须获取引擎内部各种描述信息,这样可以降低分析处理的难度,提高了可操作性。

本文提出的基于可变N反馈的提问融合方法,首先计算了每个成员搜索引擎结果列表的相关度系数Ci,在选取前N篇文献后,将每个列表选取的文献数量N乘以Ci系数。这样,包含更多相关文献的结果列表就能够提取更多的前N篇文献。该方法以各结果列表的相关度系数对输出文档进行加权,充分考虑了不同成员引擎检索性能上的差异,因此融合的结果更具科学性和客观性。

2.2 基于可变N反馈的提问融合算法

基于可变N反馈的提问融合算法如下:

(1)对于初始用户查询q0,在成员搜索引擎SEm(m=1,2,…,M)运行检索,从其产生的搜索结果列表Lm(m=1,2,…,M)中选取前N个检索结果作为样本,包括标题和摘要两部分。

(2)分别统计q0在搜索结果列表Lm的第i条结果Dim(m=1,2,…,M;i=1,2,…,N)的标题STi和摘要SAi中的出现次数,标题STi和摘要SAi的词数。根据式(1)计算每条检索结果Dim与q0的文档相关度。由于涉及多关键词提问进行检索,本文采用文献[10]的多关键词加权方法来测量提问与搜索结果的文档相关度。

SimDim-q0=Wt×countSTi,q0LenTi+Wa×countSAi,q0LenAi (1)

(3)利用式(2)计算成员引擎SEm(m=1,2,…,M)的相关度系数Cm。式(2)中,以0.5为被减数并求差的绝对值,实质上是计算每条检索结果Dim的文档相关度与0.5在坐标轴上的距离。对于q0,从搜索结果列表Lm(m=1,2,…,M)中选取TopCm×N检索结果。

Cm=∑i=1NSimDim-q0-0.5N (2)

(4)以搜索结果列表Lm的第i条结果Dim(m=1,2,…,M;i=1,2,…,Cm×N)中的标题STi和摘要SAi为处理对象,用词频统计方法分别统计标题中的关键词Kp在各自搜索代理结果集合中的词频,然后选出各个搜索代理结果数据集中词频最高的关键词,作为初始提问q0的m个扩展词。

(5)q0扩展为q′(含m+1个查询词)再次检索,q′由0,K1,Kj,…,Km>组成,其中K0即q0,j=0,1,…,m。从再次检索得到的搜索结果列表Lm(m=1,2,…,M)中选取TopN检索结果。

(6)分别统计q′中的每个关键词Kj在搜索结果列表Lm的第i条结果Dim(m=1,2,…,M;i=1,2,…,N)的标题STi和摘要SAi中的出现次数,以及标题STi和摘要SAi的词数。

(7)根据式(1)计算每条检索结果Dim与关键词Kj的文档相关度SimDim-Kj。根据式(3)计算每条检索结果Dim与q′的文档相关度SimDim-q',即q′中多个关键词语与同一条检索结果的文档相关度之和。

SimDim-q'=∑j=0mSimDim-Kj (3)

根据式(4)计算搜索结果列表Lm与q′的文档相关度SimLm-q',即TopN文献相关度的算术平均数,用以衡量成员引擎SEm与q′的相关度。

SimLm-q'=∑i=1N∑j=0MSimDim-KjN (4)

根据式(5)计算元搜索引擎与q′的相关度Simq′,即成员引擎相关度的算术平均数。

Simq′=∑m=1MSimLm-q'M (5)

以上就是基于可变N反馈的提问融合算法的详细步骤;其中(2)、(3)两步为相关度系数的数据统计、计算和应用,忽略这两步的算法即为通常的基于相关反馈的元搜索引擎提问融合方法,本文称之为基于固定N反馈的提问融合算法。实验部分将会据此对固定N和可变N方法进行对比实验,以证实基于可变N反馈的提问融合算法有所改进。

3 实验与分析
3.1 实验设计

固定N与可变N方法的对比实验是在Web环境下,针对诸多的英文搜索引擎,选择搜索结果与提问的相关性和独特性较好的三个搜索引擎Search[ 11]、Ask[ 12]和Google[ 13]作为元搜索引擎的成员引擎,以英文检索词进行检索实验。

3.2 实验方法

以5个英文提问“fusion”、“aggregation”、“retrieval”、“query”、“relevance”分别对Search、Ask和Google三个搜索引擎进行检索,取出各引擎返回结果的前10条文档作为代表各搜索代理的数据集。然后按照固定N提问融合方法和可变N提问融合方法进行再检索,最后依据结果与提问的相关度来对两种方法的性能进行比较。

3.3 固定N提问融合算法

在固定N提问融合算法中,本文取N=10,对于初始用户查询,针对Ask、Search和Google三者搜索代理各自返回的Top10搜索结果集L1、L2和L3,以三个数据集为处理环境,文档中的标题和摘要为处理对象,用词频统计方法分别统计标题中的关键词在各自搜索代理结果集合中的词频,然后选出各个搜索代理结果数据集中词频最高的关键词,作为初始提问的扩展词。这一步的基本原理依据相关反馈方法,即Top10篇文献反映出关键词在相关文献中的权重,它们可以被视作用户初始查询的扩展和修正。

假设L1、L2 和L3中的10篇文档标题中的关键词为Kp(p=1,2,…)序列,形成的词序列为K1,K2,…,Kp,通过计算Kp的词频来选择关键词对初始查询进行扩展,形成新的提问融合。

为了保证元搜索引擎中提问融合对于各自搜索代理的公平性,从各搜索代理Search、Ask和Google中选取第一个词频最高的关键词与初始查询进行查询的扩展和融合,从而形成新的提问。若首选关键词在不同搜索代理间重复出现,则选取词频较高的首选关键词代表该搜索代理,词频较低的所在搜索代理则选取词频排序第二位的关键词。若同一搜索代理中的词频最高的关键词有两个,则选取先出现者,以此类推。固定N反馈所选扩展用词如表1所示:

表1 固定N扩展用词

固定N扩展后再次检索,每个搜索代理返回新的结果列表。为了提高处理速度,只对少量文档进行分析,避免直接对大量返回文档的加工处理,因此在实际应用中,对每个搜索代理返回的结果列表,仍取前10篇文档作为样本。

由此计算得出Search、Ask和Google三个搜索代理返回的结果与提问查询q′之间的相关度,如表2所示:

表2 固定N搜索结果与提问的相关度
3.4 可变N提问融合算法

对于初始用户查询,针对Ask、Search和Google三个搜索代理各自返回的Top10搜索结果集L1、L2和L3,以三个数据集为处理环境,文档中的标题和摘要为处理对象,用词频统计方法统计初始查询词在各自搜索代理结果集合中的词频。依据本文的相关度系数计算方法,求得元搜索引擎按照可变N提问融合算法的各搜索代理的相关度系数,如表3所示:

表3 元搜索引擎各搜索代理的相关度系数

依据可变N提问融合原理,元搜索各代理依据其搜索引擎搜索结果的文档相关度强弱,各自返回不同的搜索结果的数量。从中统计得出可变N扩展用词,如表4所示:

表4 可变N扩展用词

在元搜索中用新的提问进行检索,利用与固定N提问融合相同的计算方法,得出Search、Ask和Google三个搜索代理返回结果与提问的相关度,如表5所示:

表5 可变N搜索结果与提问的相关度

表2表5中的平均相关度为依据,对固定N提问融合算法和可变N提问融合算法进行性能比较,如表6所示:

表6 固定N与可变N方法的反馈性能比较

表6的数据可得到本实验中元搜索引擎固定N反馈的平均相关度为0.185427219,可变N反馈的平均相关度为0.216397883,后者比前者的性能提高了16.70233%。检索实验表明,可变N提问融合算法是一种有效的提问融合扩展方法,相比于不考虑各搜索代理文档相关性的固定N提问融合算法,本文提出的新方法可以带来检索性能在一定程度上的提高。

4 结语

在元搜索引擎方面,现有的TopN选取对不同效率的成员引擎采取相同的策略,而相关反馈对TopN的选取也仅是经验估计,本文提出利用相关度系数给成员引擎加权,据此改进在元搜索查询与伪相关反馈的融合,提出基于可变N反馈的提问融合算法。实验证实该算法在一定程度上提高了元搜索引擎的检索性能。

数据集选择和结果集合并是元搜索引擎的两大关键技术。本文提出的可变N反馈不仅可以用于提问融合,也可扩展到数据库排序和结果融合领域。这是将来深入探讨和研究的方向,对于发展Web检索技术以及丰富信息检索方法有积极意义。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献
[1] Bast H, Majumdar D, Schenkel R, et al. IO-Top-k: Index-access Optimized Top-k Query Processing[C]. In: Proceedings of the 32nd International Conference on Very Large Data Bases, Seoul. Berlin: Springer-verlag, 2006: 475-486. [本文引用:1]
[2] 余晋, 邓志鸿, 田敬, . PinkySearch: 基于聚类的元搜索引擎[J]. 计算机科学, 2005, 32(7): 408-412. [本文引用:1]
[3] 崔舒宁, 冯博琴. 融合搜索引擎结果集的模糊积分算法[J]. 西安交通大学学报, 2006, 40(2): 175-178. [本文引用:1]
[4] Efthimiadis E N. Query Expansion[J]. Annual Review of Information Systems and Technology, 1996, 1(31): 121-187. [本文引用:1]
[5] Jin R, Valizadegan H, Li H. Ranking Refinement and Its Application to Information Retrieval[C]. In: Proceedings of the 17th International Conference on World Wide Web. New York: ACM, 2008: 397-406. [本文引用:1]
[6] Egozi O, Gabrilovich E, Markovitch S. Concept-based Feature Generation and Selection for Information Retrieval[C]. In: Proceedings of the 23rd AAAI Conference on Artificial Intelligence. Chicago: AAAI, 2008. [本文引用:1]
[7] Wu Z H, Meng W Y, Yu C, et al. Towards a Highly-Scalable and Effective Metasearch Engine[R]. New York: Department of Computer Science, Binghamton University, 2001. [本文引用:1]
[8] Shokouhi M, Azzopardi L, Thomas P. Effective Query Expansion for Federated Search[C]. In: Proceedings of SIGIR. Boston: ACM, 2009. [本文引用:1]
[9] Serdyukov P. Query Routing in Peer-to-Peer Web Search[D]. Saarland : Saarland University, 2005. [本文引用:1]
[10] 李培. 基于词序的多关键词加权检索融合研究[J]. 现代图书情报技术, 2008(10): 32-37. [本文引用:1]
[11] Metasearch Search Engine-Search. com[EB/OL]. [2010-11-01]. http://www.search.com. [本文引用:1]
[12] Ask. com-What’s Your Question?[EB/OL]. [2010-11-01]. http://www.ask.com. [本文引用:1]
[13] Google[EB/OL]. [2010-11-01]. http://www.google.com.hk. [本文引用:1]