用户查询中潜在时间意图分析及其检索建模
张晓娟, 陆伟, 周红霞
武汉大学信息资源研究中心 武汉 430072
摘要

基于Sogou实验室提供的查询日志数据和新闻数据,探讨潜在时间意图查询的判断及其相关时间属性识别,构建潜在时间意图查询的检索排序模型。实验结果表明,时间属性识别的准确率为85%,且构建的检索模型能有效提高排序效果。

关键词: 潜在时间意图查询; 潜在时间意图; 时间属性; 检索模型
中图分类号:G353.4
Analyzing and Retrieval Modeling on Implicit Temporal Intents in User’s Queries
Zhang Xiaojuan, Lu Wei, Zhou Hongxia
Center for Information Resource Research, Wuhan University, Wuhan 430072, China
Abstract

Based on the query logs and news data provided by Sogou Lab, this paper studies judging queries involving implicit temporal intent and recognizing the implicit temporal attribute of these queries,and it also constructs the retrieval model of implicit temporal intent of queries.The experiment results show that the precision of temporal attributes recognition is 85% and the retrieval model can improve the effectiveness of ranking results.

Keyword: Implicit temporal intent query; Implicit temporal intent; Temporal attribute; Retrieval model
1 引 言

随着互联网应用的普及,搜索引擎作为Web信息入口,已经成为人们查找信息的必备工具,在一定程度上缓解了用户查找信息的难度。但因搜索引擎的搜索方式大多基于关键词组合,而用户提交给搜索引擎的有限关键词不能完整地表达其信息需求,因此搜索引擎返回的结果常常难以令人满意。于是,用户迫切需要搜索引擎能根据用户的查询,自动识别出用户查询意图(即查询中应包含的用户信息需求),返回与其信息需求相关的信息。因此,查询意图的研究对提高搜索引擎检索质量有着重要意义,是解决“信息过载”、“信息迷航”的有效途径。

鉴于此,学界对其进行了广泛探讨。其中,查询意图分析主要包含以下几个方面:用户的查询目标(如信息、导航和事务)、查询主题、查询的属性分析(如时间意图、地理意图)等。相对于其他几个方面来说,学界对时间意图的探讨甚少。而Metzler等[ 1]的调查表明,超过7%的用户查询属于时间意图类查询,该类查询在一定程度上影响着搜索引擎质量,因此对该类查询的研究具有一定的实用价值。 关于时间意图的定义, Kanhabua等[ 2]先将其分为明确时间意图和潜在时间意图两类,然后分别从这两方面加以界定。其中,明确时间意图是指在查询中明确给定了时间限定,如“2008年 北京奥运会”;而潜在时间意图查询是指,用户查询中没有包含明确的时间词,而当用户在构造该查询时,其头脑中已对该查询进行了时间界定,如用户构造查询“雅典奥运会”时,潜在的时间属性为“2004年”。理解用户查询中的潜在时间意图,搜索引擎能为用户提供特定时间范围内的信息,则潜在时间意图分析是当前时间意图分析的研究重点。其中,如何识别出潜在的时间属性以及如何对该类查询的检索结果建模是本研究中的难点。

本文基于Sogou实验室提供的查询日志数据和新闻语料数据,探讨了潜在时间意图查询识别、潜在时间意图查询的时间属性识别,以及潜在时间意图查询的检索建模。其中,考虑到表示时间的短语过于丰富,将时间意图中的时间属性限定为“年份”。

2 国内外相关研究综述

一直以来,时间属性被认为是信息空间中的重要特征,如在信息抽取、问答系统和自动摘要中。作为用户相关性判断的重要维度[ 3],时间属性在信息检索中也有大量的成果,其相关研究主要集中在如何确定待检索文档的时间属性以及如何将查询中的明确时间属性应用到检索排序中。如Diaz等[ 4]利用文档中表示时间的元数据识别出该文档的时间属性(如文档的创建时间、最后修改时间等)。Nunes等[ 5]利用某网页所链接的目标网页以及该网页中的媒体信息来识别该网页的时间特征。Alonso等[ 6, 7]探讨了如何将文档中的时间属性应用到检索结果的聚类上。Li等[ 8]认为用户关注的是某一特定时间范围内的信息,提出了一种时间语言模型,即将时间属性结合到语言模型中。文献[9]至文献[11]也探讨了如何将查询中的明确时间属性应用到检索模型中。

以上研究大多基于用户查询中有明确时间属性,而与潜在时间意图查询的相关研究并不多:如Metzler等[ 1]考虑到查询中潜在时间需求,通过挖掘用户日志以及分析不同时间的查询频率来识别与时间有强关联的查询;Kanhabua等[ 2]基于经过标注的新闻语料“New York Times Annotated Corpus”构建时间语言模型,以此来识别潜在时间意图查询;Jones等[ 12]将潜在时间意图查询分为时间不敏感型、时间歧义型、时间无歧义型三类。时间不敏感型是指随时可发生、对时间没有明确界定的查询,如查询“我的行程”;时间歧义型查询是指有多个时间限定的查询,如查询“SIGIR”受“2008”、“2009”等年份限制;时间无歧义查询是指有唯一时间限定的查询,如“北京奥运”、“汶川地震”。Alonso等[ 13]构建了文档的时间片段,利用这些片段建立检索模型,并取得了较好的实验结果。Campos等[ 14]探讨了如何从网络片段和查询日志中识别出潜在时间查询意图。沈益舒[ 15]利用支持向量机技术构造了一个查询语句的分类器,对具有潜在时间属性的查询语句进行时间属性识别,并在搜索结果的排序中考虑到了潜在的时间属性。

3 相关方法
3.1 潜在时间意图查询判断[ 1]

参考文献[1],定义潜在时间意图查询具有以下特征:

(1)在用户查询日志中,该查询与不同的年份共同出现。

(2)该查询与年份共同出现的情况多于该查询单独出现的情况。

基于上述特征,文献[1]利用以下公式用于判断某查询是否潜在具有时间意图:

w(q,y)=#(q,y)+#(y,q) (1)

其中,#(q,y)表示在查询日志中,查询q之后有时间限定的频次,如查询“奥运会 2008”,“奥运会 2004”;#(y,q)表示在查询日志中查询q之前有时间限定的频次,如“2008 奥运会”、“2004 奥运会”。其中,若一个查询在用户查询日志中至少两次受到时间限定,且该查询受时间限制的次数大于未受时间限制的次数,则该查询具有潜在的时间意图。文献[1]也对歧义时间意图查询进行了界定,并采用以下公式衡量某潜在时间查询针对特定时间的歧义性:

a(q)=

(2)

其中,ΣyWA(q,y)表示的是查询q受不同年份限制的频次;Σx #(x,q)与Σx#(q,x)分别表示在搜索日志中, q受特定时间属性x前后限制的总频次,且Σx#(x,q)+Σx#(q,x)的值最小为2。若a(q)=1,表示该查询总是受一个特定的时间限制,则表明该潜在意图的查询只与特定的时间相关,即为时间无歧义型。a(q)值越大,则表明查询q与时间x之间的歧义性越大;反之,歧义性越小。

3.2 时间属性识别

时间属性识别是潜在时间意图分析的重要部分,其意义在于:利用识别出的潜在时间属性对查询进行限定,可进一步提高搜索引擎的检索准确度。关于时间属性的识别,其主要思路为:首先为每个时间属性建立相关的搜索词库(库中词汇与该时间属性在查询日志中共现于同一查询),然后根据查询中的词在词库中的出现情况来识别出该查询的潜在时间属性。本文基于tf-idf的思想识别出潜在时间查询的时间属性。但因目前的tf-idf算法中, idf在一定规模的数据集中具有一定的类别区分度,而本实验仅有9个时间属性样本数据,其区分度将不明显。结合式(2),本文对tf-idf进行了改进,其主要思想是:若某潜在时间意图查询中的词在某一特定时间属性的词库中出现频次tf值越高,且该词对该时间属性的歧义性越低,则该时间属性越有可能为该查询的潜在时间属性。具体计算方法如下:

tft,x=( ) (3)

idf′t,x=

(4)

其中, tft,x表示查询词t在时间属性x词库中所出现的频率;nt,x表示查询词t在时间属性x词库中出现的频次;Σknt,x表示时间属性x词库中所有词的词频之和。idf ′t,x表示改进后的idf值;a(t)表示查询词t与时间属性x之间歧义性的大小。

计算时间x是潜在时间查询q的潜在时间属性的概率,公式如下:

z(q,x)=

(5)

其中, z(q,x)表示时间x是潜在时间查询q的潜在时间属性的概率;假设查询中的词t是相互独立的,则z(q,x)相当于查询q中每个查询词t的tf-idf′值之积。将式(2)至(4)带入到式(5)可得:

z(q,x)=

(6)

通过式(6)计算q与每个潜在时间属性的z(q,x)值,最后将最大概率值所对应的时间作为查询q的潜在时间属性。

3.3 潜在时间意图查询检索建模

一般检索模型对潜在时间意图查询检索时,只考虑到查询与文档之间的关键词匹配,而未将其潜在时间属性应用到检索模型中。在对潜在时间意图查询检索建模时,本文除要考虑文档与潜在时间查询之间的相似性,也要考虑时间属性对检索排序结果的影响。对于时间属性对检索排序结果的影响,本文基于以下思想:若某文档中包含该查询潜在时间属性词库中的词,则该文档可能与该时间属性相关。假设查询q中的查询词t之间是相互独立的,则检索排序模型如下:

S(q,d)=∂×S′(q,d)+(1-∂)×

(7)

其中, S′(q,d)表示查询q与文档d之间的相关性分数,可由一般检索模型(如向量空间模型、语言模型等)计算得出。由于采用Lucene建立索引,则相应的检索模型为向量空间模型;tft,d表示查询关键词t在文档d中的tf值, idf′t,x表示查询关键词t在时间x的搜索词库数据中的分布情况,参见式(6)。∂为权值,关于∂值的设定,通过调节步长来设定,最终∂的最优值为0.6。

4 实验及其结果评测
4.1 数据集

(1)Sogou查询日志

Sogou查询日志[ 16]是Sogou实验室发布的2008年8月的用户搜索日志,数据格式如图1所示:

图1 Sogou查询日志的数据格式[ 16]

其中,从左到右代表的含义分别为:用户访问时间、用户ID、查询词、该URL在返回结果中的排名、用户点击的顺序号以及用户点击的URL。查询日志是用户行为的载体,且由一系列的信息需求组成,是用户查询意图分析的重要数据来源[ 17, 18]。本文利用该数据集分析时间意图,主要是对查询日志的查询词进行分析。

(2)Sogou新闻数据

Sogou新闻数据[ 19]是Sogou实验室提供的2008年1-6月的新闻数据,其数据格式如图2所示:

图2 Sogou新闻数据格式

利用该数据集进行检索模型测试,提取< content >之间的内容,并利用Lucene建立索引。

4.2 实 验

(1)构建年份查询语句库

首先提取查询日志中具有明确时间限定的查询,并将此类查询分为时间属性部分和关键词部分。通过式(1)判断关键词部分是否具有潜在时间意图,若有,则将该部分存贮到该时间属性对应的查询词库中,如查询“2006 超女”,经式(1)判断“超女”具有潜在时间意图,则将“超女”存贮到2006年查询语句库中。本实验参照文献[16]的思想,分别构建了“2001年”至“2008”年及“其他年份”共9个查询语句库。其中,年份为2006年的查询语句库样本如图3所示:

图3 年份为“2006年”的查询语句库样本

(2) 构建年份查询语句词库

本文采用中国科学院计算技术研究所的中文分词包ICTCLAS对查询语句进行分词。由于网络词更新频繁,而分词包的训练语料固定,因此对一些新词的切分存在一些缺陷。如“奥运会福娃”将会切分为“奥运会/n 福/n 娃/ng”, 而2008年期间“福娃”表示一种事物名,可作为一个词语单元。由于查询是针对网络信息而提出的,查询中包含了大量的新词,为了提高分词的准确度,假设在查询日志中频繁出现的一些短语可以作为一个词语单元,从而不必进行切分。统计Sogou查询日志中时间无歧义型查询的关键词部分出现频次(如查询为“2006年超级女声”,则统计“超级女声”的出现频次),若其频次大于一定阈值(本文设定为10)且其长度在限制范围内(本文将其限定为4),则将其导入到用户词表中。获得的用户词表样本如图4所示:

图4 用户词表样本

在利用分词工具进行分词时,导入该用户词表,从而获得每个时间属性的相应查询词库。年份为“2006”的查询词库样本如图5所示:

图5 年份为“2006年”查询词库样本

4.3 实验评测

(1)时间属性识别评测

笔者选取了20个具有潜在时间意图的查询进行实验。表1为潜在时间查询“北京奥运会”的相应z(q,x)值。

表1 以“北京奥运会”为查询的各时间属性对应z(q,x)值

最后的评测结果如表2所示:

表2 时间属性识别最终评测结果

表2中的z(q,x)值进行比较,可得出该查询的潜在时间属性应该为“2008”年。

(2)排序模型评测

Sogou新闻数据只包含2008年的信息,本文选取了15个潜在时间属性为2008年的潜在时间意图查询对本文所提出检索模型(参见文献(7))的效能进行测试。其中,将一般检索模型的排序结果作为Baseline,并将其与式(7)的检索结果进行对比。选取的评测指标有MAP@30, P@20, p@10,其检索结果的评测结果如表3所示:

表3 检索结果评测结果
5 结 语

本文探讨了如何根据Sogou查询日志判断某查询是否为潜在时间意图查询以及对其相关时间属性的识别,并提出了一种对潜在时间查询排序的模型。总体来说,本文只是对潜在时间查询意图分析进行了一个初步尝试,在后续工作中,笔者将会从以下几个方面进行深入研究:对时间意图探讨不只是限定在特定范围如“年份”,而是从更加细化的范围加以研究;对时间属性的识别方面,将会结合相关的分类技术,选取一定的分类特征来识别潜在意图的时间属性;对潜在时间意图的识别将会借助于搜索引擎返回的文档内容来识别潜在的时间属性;在时间属性识别以及排序建模方面,将会考虑到查询词之间的依赖关系。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献
[1] Metzler D, Jones R, Peng F, et al. Improving Search Relevance for Implicitly Temporal Queries[C]. In: Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval. 2009. [本文引用:3]
[2] Kanhabua N, Norvag K. Determining Time of Queries for Re-ranking Search Results[C]. In: Proceedings of the 14th European Conference on Research and Advanced Technology for Digital Libraries. 2010: 261-272. [本文引用:2]
[3] Saracevic T. Relevance: A Review of the Literature and a Framework for Thinking on the Notion in Information Science. Part II: Nature and Manifestations of Relevance[J]. Journal of the American Society for Information Science and Technology, 2007, 53(13): 1915-1933. [本文引用:1] [JCR: 2.005]
[4] Diaz F, Jones R. Using Temporal Profiles of Queries for Precision Prediction[C]. In: Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2004. [本文引用:1]
[5] Nune S, Ribeiro C, David G. Using Neighbors to Date Web Documents[C]. In: Proceedings of the 9th Annual ACM International Workshop on Web Information and Data Management. 2007: 129-136. [本文引用:1]
[6] Alonso O, Gertz M, Baeza-Yates R. Clustering and Exploring Search Results Using Timeline Constructions[C]. In: Proceedings of the 18th ACM Conference on Information and Knowledge Management. 2009. [本文引用:1]
[7] Alonso O, Gertz M. Clustering of Search Results Using Temporal Attributes[C]. In: Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2006. [本文引用:1]
[8] Li X, Croft W B. Time-based Language Models[C]. In: Proceedings of the 12th International Conference on Information and Knowledge Management. 2003. [本文引用:1]
[9] Berberich K, Bedathur S, Neumann J, et al. A Time Machine for Text Search[C]. In: Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2007. [本文引用:1]
[10] Norvag K. Supporting Temporal Text-Containment Queries in Temporal Document Databases[J]. Journal of Data & Knowledge Engineering, 2004, 49(1): 105-125. [本文引用:1]
[11] Sato N, Uehara M, Sakai Y. Temporal Ranking for Fresh Information Retrieval[C]. In: Proceedings of the 6th International Workshop on Information Retrieval with Asian Languages. 2003. [本文引用:1]
[12] Jones R, Diaz F. Temporal Profiles of Queries[J]. ACM Transactions on Information Systems, 2007, 25(3): 1-32. [本文引用:1] [JCR: 1.07]
[13] Alonso O, Baeza-Yates R, Gertz G. Effectiveness of Temporal Snippets[C]. In: Proceedings of the 18th International Conference on World Wide Web. 2009. [本文引用:1]
[14] Campos R, Jorge A M, Dias G. Using Web Snippets and Query-logs to Measure Implicit Temporal Intents in Queries[C]. In: Proceedsings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2011. [本文引用:1]
[15] 沈益舒. 搜索语句的时间属性研究及其在检索排序中的应用[D]. 杭州: 浙江大学, 2011. [本文引用:1]
[16] Sougou查询日志[EB/OL]. [2011-08-11]. http://www.sogou.com/labs/dl/q.html. [本文引用:1]
[17] Liu Y, Zhang M, Ru L, et al. Automatic Query Type Identification Based on Click Through Information[J]. Information Retrieval Technology, 2006: 593-600. [本文引用:1]
[18] Park K, Jee H, Lee T, et al. Automatic Extraction of User's Search Intention from Web Search Logs[J/OL]. Multimedia Tools and Applications. 2011. [2011-08-11]. http://posgrado.escom.ipn.mx/biblioteca/Automatic%20extraction%20of%20user%E2%80%99s%20search%20intention.pdf. [本文引用:1] [JCR: 1.014]
[19] Sogou新闻数据[EB/OL]. [2011-08-11]. http://www.sogou.com/labs/dl/cs.html. [本文引用:1]