Advanced Search
数据分析与知识发现, 2019, 3(3): 66-75
doi: 10.11925/infotech.2096-3467.2018.0550
基于查询表达式特征的时态意图识别研究*
Temporal Intent Classification with Query Expression Feature
桂思思1,2, 陆伟3, 张晓娟4,

摘要:

【目的】针对时态意图识别问题, 探讨可抽取查询表达式特征的有效性及采用不同类别分类算法的识别准确度, 为后续相关研究提供一定的借鉴。【方法】按查询表达式特征与时间的关联性, 将其归类为时间无关特征、潜在时间特征、显式时间特征。在此基础上, 分别采用有监督分类算法及半监督分类算法, 探讨采用不同特征组合的有效性及不同分类算法的识别准确度。【结果】在抽取的三类查询表达式特征中, 仅使用显式时间特征的平均分类准确率最高, 且“查询是否包含年份”这一特征为强特征; 使用不同分类算法的识别准确度相差不大; 时态意图识别结果优于已有参与时态意图分类子任务(TQIC)测评的成果, 平均分类准确率为81.14%。【局限】限于数据集的获取途径, 仅对300条查询的时态意图识别效果进行验证; 仅考虑已有的查询表达式特征, 未提出用于时态意图识别的新特征。【结论】查询表达式特征中与时间关联性高的特征能提高时态意图识别准确度, 而基于统计的特征(如查询词长度)对时态意图识别分类准确度的提升效果不明显。

关键词: 时态意图 ; 有监督分类 ; 半监督分类 ; 特征抽取

Abstract:

[Objective] This paper investigates the effectiveness of query-based features and compares the performance of two types of classifiers in a query temporal intent classification task. [Methods] This paper first reviews all query-based features and then classifies those features into three types, according to their temporal relevance, namely, atemporal, implicit temporal and explicit temporal. Then, it tests accuracy of a temporal query intent classification task, using a supervised classifier and a semi-supervised classifier individually, with various combinations of query-based features of different types. [Results] Among all tested query-based features, using explicit temporal features achieves best accuracy, especially for the feature on whether a query contains a year; The performance hardly varies across classifiers; Our best macro average accuracy of 81.14% is higher than that in previous studies with the same experimental setups. [Limitations] Due to accessibility of dataset, our experiments are done on a limited size dataset. Only existing query-based features are studied and no new feature is proposed or tested. [Conclusions] Using highly temporal relevant features can improve accuracy in temporal query intent classification task, whereas using slightly temporal relevant features could hardly improve accuracy.

Key words: Temporal Intent ; Supervised Classification ; Semi-supervised Classification ; Feature Engineering

1 引 言

查询意图常被定义为用户通过查询表达式(即查询)而表达出的用户信息需求[1,2]。搜索引擎允许用户输入的关键词个数有限, 导致查询表达式不能完整描述用户的信息需求。因此, 理解查询意图、返回与用户信息需求相关的信息, 成为提高搜索引擎检索效率的主要途径之一。文献[3,4,5]表明, 时态是理解查询意图的一个重要维度。查询时态意图(简称时态意图)主要指用户通过查询语句所表达出来的对检索结果所属时间段的需求[4,5], 如查询“Olympics 2008(奥运会 2008)”表明用户想获得在2008年举行的奥运会的相关信息; 查询“Einstein early life(爱因斯坦 童年)”主要想获取爱因斯坦童年时期的故事、经历等。Campos等[6]发现在AOL查询日志的样本中, 具有时态意图的查询占比约8.21%, 因此具有时态意图的查询在一定程度上会影响搜索引擎的检索质量。在2013年-2016年间, 信息检索领域的一些重要测评会议(如SemEval、TREC或NTCIR等)也对时态信息检索相关研究给予了高度重视, 然而在此之后, 时态信息检索研究成果较少, 且外文成果多于中文成果[7]。时态意图识别是时态信息检索研究中的一个基础问题, 旨在判断用户提交某查询后是否想获得某特定时间段的信息[7], 其结果有助于搜索引擎根据用户时态需求返回更精确的检索结果, 如在主题同等相关的条件下, 返回更新的文档(近因敏感排序, Recency-based Ranking)或为查询返回不同时间段的文档(时间依赖性排序, Time-dependent Ranking)。

时态意图识别研究的主要方法是基于给定时态意图分类体系的查询分类研究[7], 即通过特征选择及模型训练, 将查询分类至给定分类体系中的某一个类别。常见的时态意图分类体系包括Jones等[8]提出的体系和TQIC体系[9]。大多数查询意图识别研究是基于TQIC体系展开的, 该体系由NTCIR测评会议中的时态意图分类子任务(Temporal Query Intent Classification, TQIC)(①http://ntcirtemporalia.github.io/.)首次提出, 将时态意图分为4类[9]:

(1) 过去: 查询与过去相关的资源, 用户所需的查询结果不随查询时间而改变;

(2) 现在: 查询与现在相关的资源, 用户所需的查询结果及时更新, 随查询时间而改变;

(3) 未来: 查询与未来相关的资源, 如预测或预定的事件等;

(4) 与时间无关(简称为无关): 查询不具备上述时态意图, 用户所需的查询结果与时间无关。

基于该分类体系, TQIC还发布测评数据, 为时态意图识别研究提供统一评测平台, 从而为时态意图查询的相关研究奠定基础。

基于TQIC体系的时态意图识别的分类特征主要来自查询表达式与伪相关文档集合。相比伪相关文档集合, 查询表达式是用户信息需求的一种表达形式[10], 且基于查询表达式的文本处理与特征抽取更为简易; 文献[9]表明, 在查询表达式特征的基础之上考虑伪相关文档集合特征(如n-gram、发布时间、包含的时间信息等), 无论采用单一分类器, 或以投票思想聚合多个基分类器, 均难以提高仅使用查询表达式特征的时态意图识别准确度。由此可见, 查询表达式是时态意图识别的理想特征来源, 然而, 现有研究存在如下两个问题: 仅分别汇报各研究中所选取的查询表达特征及利用所选取特征实现时态意图识别的最终结果, 而未探讨所选取查询表达式特征对时态意图识别的有效性; 多数研究只采用有监督分类算法, 未对比分析采用相同特征时不同分类算法的识别准确度。

鉴于此, 本文对基于查询表达式的时态意图识别研究进行归纳总结, 将从查询表达式中抽取的特征按照其与时间的关联性归为与时间无关特征、潜在时间特征与显式时间特征三类; 在此基础上, 基于TQIC的时态意图分类体系(过去类、现在类、未来类、无关类), 采用有监督分类算法及半监督分类算法, 探讨不同类别的特征组合进行时态意图识别的有效性及采用不同分类算法的识别准确度。

2 相关研究
2.1 基于查询表达式特征的时态意图识别

该类研究只考虑查询表达式本身的特征, 主要分为与时间无关的特征(例如查询长度)和与时间相关的特征(例如动词时态与时间表达式等)。

Yu等[11]抽取查询包含的时间与查询提交时间的时间差、核心动词的时态及实体特征三类查询表达式特征, 分别使用有监督分类算法(逻辑回归)与半监督分类算法(线性回归)实现时态意图识别。实验表明, 相比半监督分类算法, 使用全部特征的逻辑回归算法平均分类准确度在已有研究中最优。Shah等[12]提出查询长度、查询中动词数量和查询中是否包含年份三个特征, 分别使用朴素贝叶斯、支持向量机及决策树算法进行时态意图识别。虽然最终的平均分类准确率不是最优, 但是“无关类”的分类准确率在已有研究中最优。Filannino等[13]考虑11个与时间相关的特征及支持向量机、朴素贝叶斯、决策树和随机游走4种分类算法, 其实验表明仅使用5个特征的支持向量机平均分类准确率最高, 这5个特征为查询是否包含时间表达式、查询包含的时间与查询提交时间的时间差、查询中动词时态、查询中明显指示时态类别词汇(Triggers, 即时间关键词)的频率以及出现顺序。

上述研究为首次TQIC测评成果, 如何选取特征仍处于初期研究阶段, 故存在如下问题: 缺乏对可抽取特征的归纳总结; 缺乏对特征有效性的探讨。

2.2 融合查询表达式与伪相关文档集合特征的时态意图识别

该类研究同时考虑查询表达式特征及伪相关文档集合特征。其中, 抽取的查询表达式特征也主要包括与时间相关或时间无关的特征; 抽取的伪相关文档集合特征可以分为文档的时间特征(如发布时间、包含的时间信息等)和文档的一般特征(如n-gram)。

Burghartz等[14]抽取n-gram、查询词项的时态类别、语言特征、主题特征4组查询表达式特征及文档发布时间和文档包含的时间信息两类伪相关文档集合特征, 分别使用朴素贝叶斯与决策树识别时态意图。实验结果表明, 朴素贝叶斯算法优于决策树算法, 且同样采用朴素贝叶斯算法时, 从6个特征组中人工选取的15个特征优于利用模拟退火算法(Simulated Annealing)选取的特征组合。Hasanuzzaman等[15]在查询表达式特征(查询包含的时间与查询提交时间的时间差、n-gram、查询词项的时态类别)的基础上, 从伪相关文档集合抽取文档分类结果特征与文档时间信度值特征(Document Temporal Confidence Value)[16], 利用集成学习(Ensemble Learning)算法, 以权重为各个基分类器分类准确率的加权投票思想聚合8个基分类器进行时态意图的自动识别。实验结果表明, “现在类”的分类准确率最高。在此基础上, Hasanuzzanman等[17]提出聚合基分类器权重计算的其他三种方式, 并将基分类器数量由8种扩展至28种, 结果表明, 其平均分类准确率优于TQIC任务的最优测评结果。与Hasanuzzaman等[15,17]的方法相似, Hou等[18]通过两步实验进行时态意图识别: 先采用PRISM算法进行时态意图识别, 若该算法无法将查询归为某类, 则采用投票思想聚合多个基分类器。基分类器训练的特征包括查询表达式特征(n-gram、实体特征、查询词项的时态类别、查询包含的时间信息、查询包含的时间与查询提交时间的时间差)及伪相关文档集合特征(n-gram)。实验结果表明, 选择使用基于伪相关文档集合特征的基分类器优于基于其他特征的基分类器。

上述研究表明, 在查询表达式特征的基础上考虑伪相关文档集合特征, 无论采用单一分类器, 或以投票思想聚合多个基分类器, 均难以提高时态意图识别的平均分类准确率。

3 查询表达式特征归类与分类算法选择
3.1 查询表达式特征归类

将相关研究中涉及的查询表达式特征根据其与时间关联性的强弱, 归为与时间无关的特征、显式时间特征及潜在时间特征三类。

(1) 与时间无关特征

与时间无关特征指无法体现“时间”的通用特征, 主要包括:

①查询长度特征, 即查询包含的词项个数, 例如文献[12]。用户为表明对检索结果时间的需求, 可能在查询表达式中加入与时间相关的限定词, 导致查询长度的增加。例如查询“Martin Luther King Day(马丁·路德·金纪念日)”可返回关于该纪念日在多个时间段的相关信息, 为明确查找2013年的相关信息, 可在原查询的基础上添加年份信息“2013”, 将查询表达式修改为“Martin Luther King Day 2013”, 最终查询长度增加, 查询意图更加明确。

②实体特征, 即查询中是否包含人名、机构名、地址等实体信息, 例如文献[11]。实体蕴含一定的时间信息, 例如与实体相关事件的发生时间等。以人名实体“Neil Armstrong”为例, 关于该人物的检索结果应多集中于他所生活的时间段。

(2) 显式时间特征

显式时间特征指查询中包含明显的与“时间”有关的特征, 主要包括:

①年份信息特征[12]。年份信息限定查询结果对应信息的时间范围, 例如查询“movies 2012(电影 2012)”只查找与2012年相关的电影。

②核心动词时态特征[11]。核心动词指主句中的动词。在英文中, 动词的时态能表示行为发生的时间(过去、现在、未来), 然而从句使得一个句子中可能包含多个动词, 例如“When did Neil Armstrong die(尼尔·阿姆斯特朗何时逝世)”中包含“did”与“die”两个动词, 一个为过去时、一个为现在时, 根据语法规则, 只有主句中动词(did)的时态才能指示行为发生的时间(过去时)。因此, 需先识别查询的句法结构, 分清主句与从句, 在此基础上识别核心动词(主句中动词), 并将该核心动词的时态作为特征。

③时间关键词(Dominant Keyword)特征, 例如文献[13]。时间关键词指属于某一时间类别查询中反复出现的词项, 可将查询所包含时间关键词的时间类别作为查询的时态意图类别。例如对于未来类的查询而言, 包含时间关键词“will”、“forecast”、“shall”、“upcoming”或“next”的查询属于“未来类”的几率会很大。

(3) 潜在时间特征

潜在时间特征指该查询包含一些时间特征, 但是需要借助一定的手段与方法分辨该特征的时间属性, 主要包括:

①查询时间差特征, 例如文献[11,13,15]。它指查询中的时间表达式所指代时间(查询包含的时间)与当前时间(查询提交至搜索引擎的时间)在时间测度上的差值。差值的正、零、负值可对应于时态意图分类体系中的“过去类”、“现在类”、“未来类”。例如, 查询“Martin Luther King Day 2013(马丁·路德·金纪念日2013)”中所包含的时间为2013年, 假设查询提交的时间为2015年, 则查询时间差为-2年, 在一定程度上可判断该查询的时态意图为“过去类”; 假设查询提交的时间为2013年, 则查询时间差为0年, 在一定程度上可判断该查询的时态意图为“现在类”。

②查询词项的时态特征[14,15], 即查询词项属于某一时态类别的概率值(获取方法参见4.2节)。查询词项的时态类别在一定程度上能反映该查询的时态, 即查询的时态意图可由查询词所属时态类别体现, 以查询“weather today(天气 今天)”为例, 查询词项“今天”与“天气”属于“现在类”的概率高, 故该查询属于“现在类”的概率高。

3.2 查询自动分类算法选择

本文任务是依据查询的时态意图将查询分为过去类、现在类、未来类、与时间无关类4类。根据输入训练数据的标注程度, 自动分类算法可分为有监督分类和半监督分类。两者均需区分训练数据与测试数据, 并将依据某个分类体系标注过类别的数据作为训练数据, 然后在训练数据上训练模型, 最终利用该模型将未标记类别的测试数据自动分类至该分类体系中的某个类别; 与有监督分类相比, 半监督分类还可以将未标记数据作为训练数据。半监督分类中未标记的训练数据越多, 分类器的泛化能力越强。

4 实验数据与实验构建
4.1 实验数据介绍及预处理

本实验采用以下两个数据集。

(1) TQIC查询数据: TQIC于2014年5月9日发布的300条英文查询(①http://research.nii.ac.jp/ntcir/permission/ntcir-11/perm-en-Temporalia.html.), 示例如图1所示。

图1 TQIC查询数据示例

每一条数据记录以下信息: 查询的唯一编号(id); 查询表达式(query_string); 查询提交至搜索引擎的时间(query_issue_time); 基于TQIC分类体系的人工标注时态意图类别(temporal_class)。

(2) AOL日志数据(②http://www.cim.mcgill.ca/~dudek/206/Logs/AOL-user-ct-collection/.): 2006年3月1日-2006年5月31日连续三个月的查询日志, 示例如图2所示。

图2 AOL日志数据的三条示例

每一条数据从左到右分别记录以下信息: 用户ID; 查询表达式; 查询提交至搜索引擎的时间; 该URL在返回结果中的排名; 用户点击的URL。

本实验只需要考虑查询表达式、查询提交至搜索引擎的时间以及人工标注后的时态意图类别三类信息。其中, 前两类信息均包含于两个数据集中, 是有监督分类与无监督分类必须使用的信息; 最后一类信息只包含于TQIC查询数据中, 是有监督分类必须使用的信息, 而非无监督分类必须使用的信息。

相较于文本数据, 查询为短文本, 需预处理的内容较少, 针对以上两个数据集, 将查询转化为小写, 去除标点符号, 最后以文本格式存储, 以方便后续的特征抽取。

4.2 特征抽取

根据实验操作中特征的不同记录方式, 3.1节所述的三类7种查询表达式特征可具体为19个特征, 为便于描述, 将上述19个特征分为A、B、C、D、E与F这6个特征组, 如表1所示。

表1 本文所抽取的查询表达式特征

笔者使用Stanford NLP工具集(①http://nlp.stanford.edu/software/index.shtml.)抽取表1中特征, 涉及分词、实体抽取、句法分析、词项标注、时间表达式抽取等步骤。其中, 特征组E包含的时间关键词特征借助文献[12]中的词典抽取; 特征组F包含的查询词项的时态概率借助TempoWordNet词典(TWnH-1.0版)(②https://tempowordnet.greyc.fr/download_TWn.html.)抽取, 该词典是基于WordNet[19]的词典, 对收录的每一个词汇均标注了其属于“过去类”、“现在类”、“未来类”、“无关类”的概率。

4.3 实验构建

构建一个基准实验(Baseline)的特征组合以及多个对照组实验的特征组合, 在相同特征组合上, 分别使用SVMlin(③http://vikas.sindhwani.org/svmlin.html.)与LIBSVM(④https://www.csie.ntu.edu.tw/~cjlin/libsvm/.)实现半监督算法与有监督算法。对于SVMlin, 将TQIC中随机抽取的80条数据及AOL中随机抽取的10 000条数据作为训练数据, 将TQIC剩余的220条数据作为测试数据; 对于LIBSVM, 以10折交叉检验的方式训练参数, 最终展示分类器10折交叉检验准确率的平均值。针对每类分类算法(SVMlin或LIBSVM), 均采用一对多的分类思想构建分类器, 即针对每一个时态意图类别构造一个二值分类器, 因此共构造4个二值分类器。与TQIC任务测评要求一致, 分类器效果通过分类准确率(Accuracy), 即被正确分类的样本数除以所有样本数[20]测评, 主要包括单类分类准确率和平均分类准确率两个指标, 前者指单个二值分类器的准确率, 后者指4个二值分类器的准确率平均值。

(1) 基准实验的特征组合构建

根据研究目的, 基准实验的构建需满足两个原则:

①为探讨三类查询表达式特征的有效性, 基准实验组需包含三类查询表达式特征;

②为探讨时态意图识别的准确度, 基准实验组需为已有研究中最优结果。

在所有基于TQIC的测评研究中, 文献[11]的平均分类准确率最高[9], 且其所抽取的三种特征(1、C、D)分别对应三类查询表达式特征, 因此特征组合(1+C+D)可直接作为基准实验组。为减少对照实验组数, 在特征组合(1+C+D)的基础上加入查询长度特征(编号10), 从而构建一个新的特征组合(A+C+D)。随后基于TQIC分类体系, 在以上两个特征组合下分别采用SVMlin与LIBSVM进行时态意图识别, 结果如表2所示。

表2 时态意图识别初始实验结果

使用SVMlin时, 采用(1+C+D)的准确度略高于采用(A+C+D)的准确度, 但采用基于(A+C+D)的LIBSVM准确度在以上所有实验组中最高, 因此本文使用特征组合(A+C+D)的实验结果作为基准实验。

(2) 对照组实验的特征组合构建

为验证不同类别查询表达特征的有效性, 构建三个对照实验的特征组合, 具体如表3所示。

表3 对照实验的特征组合

5 实验结果分析
5.1 基于不同特征组合下的时态意图识别效果

(1) 显式时间特征组合的时态意图识别结果

4个显式时间特征组合(B+C, B+E, C+E, B+C+E)下分别采用SVMlin及LIBSVM的时态意图识别结果如图3所示。可知, SVMlin与LIBSVM的实验结果基本一致。对于平均分类准确率而言, Baseline与C+E组较差, 其他三组(B+C, B+E, B+C+E)优于Baseline; B+C+E最优(81.14%), 且双尾T检验结果表明只有B+C+E组对于Baseline结果有显著提高(p=0.048<0.05)。实验效果最优的特征组合B+C+E与C+E组相比, 增加表明查询是否包含年份信息的特征B, 故可说明特征B (是否包含年份信息)是时态意图识别的强特征; 对于单类的分类准确率, 所有实验组的“过去类”与“未来类”分类效果均明显优于“现在类”与“无关类”。因本实验中B+C+E的实验结果最优, 后文以“BEST”指代该组合。

图3 显式时间特征组合的时态意图识别实验结果

(2) 显式时间特征与潜在时间特征组合的时态意图识别结果

测试潜在时间特征组合D+F, 随后测试显式时间特征与潜在时间特征混合组合(见表3), 采用SVMlin及LIBSVM的实验结果分别如图4图5所示。

图4 显式时间特征与潜在时间特征混合组合的时态意图SVMlin识别实验结果

图5 显式时间特征与潜在时间特征混合组合的时态意图LIBSVM识别实验结果

①潜在时间特征组合(D+F)与Baseline对比: 对于平均分类准确率, D+F与Baseline相似, 但是采用D+F“现在类”的分类准确率明显高于Baseline, “过去类”的分类准确率低于Baseline。

②显式时间特征与潜在时间特征混合组合与Baseline对比: 前者相对Baseline均有提升, 但因使用潜在时间特征的不同, 提升的效果也有差异。如图4(a)、图4(b)、图4(d)所示, 在平均分类以及“过去类”的准确率提升上, 仅加入F的混合特征组合明显优于加入D或共同加入D和F。

③显式时间特征与潜在时间特征混合组合与潜在时间组合(D+F)对比: 前者的平均分类准确率均高于潜在时间特征组合, 且在“过去类”、“未来类”、“无关类”的准确率上均有明显提高, 而在“过去类”的分类准确率不及D+F组合。

④显式时间特征与潜在时间特征混合组合与显式时间特征组合(BEST)对比: 前者对于BEST组而言, 平均分类准确率稍有下降, 且除了“过去类”的分类准确率均低于BEST; 结合图3实验结果, 可知虽然显式时间特征与潜在时间特征的组合能提高仅采用潜在时间特征组合的平均分类准确率, 但不及仅采用显式时间特征组合的平均分类准确率。

采用显式时间特征与潜在时间特征的混合实验组平均分类准确率高于Baseline, 高于潜在时间特征组, 但不及采用显式时间特征组合; 在显式时间特征组合上加入不同的潜在时间特征对于准确度的提升有差异。图5图4不同的结论为: 显式时间特征与潜在时间特征的混合组中B+E+F的平均分类准确率高于BEST组, 尤其是“无关类”的准确率高于BEST组的准确率, 然而双尾T检验表示B+E+F组、Baseline以及BEST组之间并没有显著差异, 即识别效果提高有差异但不具显著性; 相对而言, 在显式时间特征组的基础上同时加入D与F的实验效果优于单独加入D或单独加入F的实验组。

(3) 三类特征组合的时态意图识别结果

根据表3, 三类特征组合时, 只考虑了不同分类算法下, 最优显式时间特征与潜在时间特征的组合加上与时态无关特征组(A)。例如, SVMlin实验中组合B+C+E+F识别效果最优, LIBSVM实验中组合B+E+F识别效果最优, 因此针对SVMlin与LIBSVM, 本部分实验只考虑A+B+C+E+F和A+B+E+F。时态意图识别的实验结果如图6所示。

图6 三类特征组合的时态意图识别实验结果

虽然其他实验组相对Baseline在平均分类准确率上均有提升, 但是BEST组的平均分类准确率依然最优。就单类的分类准确率而言, 使用SVMlin时, 单类的分类准确率均有提高, 尤其是“未来类”及“无关类”提升很明显; 在使用LIBSVM时, 只有“未来类”的分类准确率提升效果较为明显, BEST组“现在类”及“无关类”的分类准确度反而较低。针对图6中实验结果的双尾检验p值如表4所示。

表4 三类特征组合的时态意图识别双尾检验结果

在两种分类器下, 只有BEST组与Baseline组的p值小于0.05, 即具有显著差异。因此综合所有结果来看, 仅考虑显式时间特征的组合相较于Baseline而言, 具有显著提升, 而加入潜在时间特征或者时间无关特征的实验结果虽然相对于Baseline有提升, 但并非显著提升。

5.2 查询表达式特征统计分析

由上述实验结果可知, 部分查询表达式特征组合用于时态意图识别的效果优于其他查询表达式特征组合, 针对实验中涉及的5组查询表达式特征进行深入分析。各查询表达式特征统计结果如图7所示, 虚线为19个特征的平均占比, 为26.79%。

图7 时态意图特征分析

部分特征占比偏高, 例如特征10(100%)与特征16(88.67%); 部分特征占比几乎可以忽略不计, 例如特征1(0.33%)与特征18(0.00%)。按平均准确率由高到低, 分别基于上述三类时态意图识别的结果排序为: 显式时间特征>潜在时间特征>时间无关特征组, 该排序与三类特征按照包含特征平均占比由低到高的排序相同: 显式时间特征(B+C+E, 18.70%)>潜在时间特征(D+F, 30.04%)>时间无关特征组(A, 50.17%), 即采用特征占比越低的特征组用于时态意图识别的准确度越高。笔者认为此现象的可能解释为: 特征出现频率越高, 说明该特征是普遍特征, 因此区分度较低, 在分类实验中有效性较差; 但是若出现频率过低, 则说明该特征几乎不存在于本实验所选用的具有时态意图的查询集合中, 因此区分度也会较低, 在分类实验中有效性较差。因此, 较为理想的分类特征出现频率不能过高也不能过低。

6 结 语

针对时态意图识别问题, 本文以查询表达式的特征为例, 按照其与时间的关联性归为与时间无关特征、显式时间特征以及潜在时间特征三类, 根据不同的特征组合分别使用有监督分类器和半监督分类器探讨上述三类特征的识别有效性, 最终实现的时态意图识别结果优于同类任务测评的成果, 平均分类准确率最高可达81.14%。尽管如此, 本文仍存在一些不足, 这也将是需要进一步探讨的内容:

(1) 实验数据只有300条查询, 可考虑自建一个较大的数据集, 在此基础上验证结论的有效性;

(2) 主要考虑已有的查询表达式特征, 未提出用于时态意图识别的新特征, 后续研究需提出新的特征, 进一步探讨如何提升时态意图识别的平均分类准确率;

(3) 采用本文方法准确识别时态意图的基础上, 可考虑优化检索结果列表, 实现近因敏感排序或时间依赖性排序。

作者贡献声明

桂思思: 提出研究思路, 负责实验, 论文起草;

陆伟, 张晓娟: 论文修改及最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: sgui0229@whu.edu.cn。

[1] 桂思思. AOL_sample_10000.txt. AOL美国在线查询日志中随机抽取的10000条数据.

[2] 桂思思. 300_query_features.txt. 300条查询的查询表达式特征值.

参考文献

[1] Broder A.A Taxonomy of Web Search[J]. SIGIR Forum, 2002, 36(2): 3-10.
DOI:10.1145/792550      URL     [本文引用:1]
[2] Sushmita S, Piwowarski B, Lalmas M.Dynamics of Genre and Domain Intents[C]// Proceedings of the 6th Asia Information Retrieval Societies Conference on Information Retrieval Technology. Springer, 2010: 399-409.
[本文引用:1]
[3] Calderón-Benavides L, González-Caro C, Baeza-Yates R A. Towards a Deeper Understanding of the User’s Query Intent[C]// Proceedings of the 2010 Workshop on Query Representation and Understanding. 2010: 21-24.
[本文引用:1]
[4] Nguyen B V, Kan M.Functional Faceted Web Query Analysis[C]// Proceedings of the 16th International World Wide Web Conference. 2007.
[本文引用:2]
[5] González-Caro C, Baeza-Yates R.A Multi-faceted Approach to Query Intent Classification[C]// Proceedings of the 18th International Conference on String Processing and Information Retrieval. 2011: 368-379.
[本文引用:2]
[6] Campos R, Dias G, Jorge A M.What is the Temporal Value of Web Snippets?[C]// Proceedings of the 1st International Temporal Web Analytics Workshop. 2011: 9-16.
[本文引用:1]
[7] 张晓娟, 韩毅. 时态信息检索研究综述[J]. 数据分析与知识发现, 2017, 1(1): 3-15.
[本文引用:3]
(Zhang Xiaojuan, Han Yi.Reviews on Temporal Information Retrieval[J]. Data Analysis and Knowledge Discovery, 2017, 1(1): 3-15.)
[8] Jones R, Diaz F. Temporal Profiles of Queries[J]. ACM Transactions on Information Systems, 2007, 25(3): Article No.14.
DOI:10.1145/1247715      URL     [本文引用:1]
[9] Joho H, Jatowt A, Blanco R, et al.Overview of NTCIR-11 Temporal Information Access (Temporalia) Task[C]// Proceedings of the 11th NTCIR Conference on Evaluation of Information Access Technologies. 2014: 217-224.
[本文引用:4]
[10] Mizzaro S.How Many Relevances in Information Retrieval?[J]. Interacting with Computers, 1998, 10(3): 303-320.
DOI:10.1016/S0953-5438(98)00012-5      URL     [本文引用:1]
[11] Yu H, Kang X, Ren F.TUTA1 at the NTCIR-11 Temporalia Task[C]// Proceedings of the 11th NTCIR Conference on Evaluation of Information Access Technologies. 2014: 461-467.
[本文引用:5]
[12] Shah A, Shah D, Majumder P.Andd7@NTCIR-11 Temporal Information Access Task[C]// Proceedings of the 11th NTCIR Conference on Evaluation of Information Access Technologies. 2014: 456-460.
[本文引用:4]
[13] Filannino M, Nenadic G.Using Machine Learning to Predict Temporal Orientation of Search Engines’ Queries in the Temporalia Challenge[C]// Proceedings of the 11th NTCIR Conference on Evaluation of Information Access Technologies. 2014: 438-442.
[本文引用:2]
[14] Burghartz R, Berberich K.MPI-INF at the NTCIR-11 Temporal Query Classification Task[C]// Proceedings of the 11th NTCIR Conference on Evaluation of Information Access Technologies. 2014: 443-450.
[本文引用:2]
[15] Hasanuzzaman M, Dias G, Ferrari S.HULTECH at the NTCIR-11 Temporalia Task: Ensemble Learning for Temporal Query Intent Classification[C]// Proceedings of the 11th NTCIR Conference on Evaluation of Information Access Technologies. 2014: 478-482.
[本文引用:3]
[16] Campos R, Dias G, Jorge A, et al.GTE: A Distributional Second-order Co-occurrence Approach to Improve the Identification of Top Relevant Dates in Web Snippets[C]// Proceedings of the 21st ACM International Conference on Information and Knowledge Management. 2012: 2035-2039.
[本文引用:1]
[17] Hasanuzzaman M, Saha S, Dias G, et al.Understanding Temporal Query Intent[C]// Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2015: 823-826.
[本文引用:2]
[18] Hou Y, Tan C, Xu J, et al.HITSZ-ICRC at NTCIR-11 Temporalia Task[C]// Proceedings of the 11th NTCIR Conference on Evaluation of Information Access Technologies. 2014: 468-473.
[本文引用:1]
[19] Miller G A.WordNet: A Lexical Database for English[J]. Communications of the ACM, 1995, 38(11): 39-41.
[本文引用:1]
[20] Sokolova M, Lapalme G.A Systematic Analysis of Performance Measures for Classification Tasks[J]. Information Processing and Management, 2009, 45(4): 427-437.
DOI:10.1016/j.ipm.2009.03.002      URL     [本文引用:1]
资源
PDF下载数    
RichHTML 浏览数    
摘要点击数    

分享
导出

相关文章:
关键词(key words)
时态意图
有监督分类
半监督分类
特征抽取

Temporal Intent
Supervised Classification
Semi-supervised Classific...
Feature Engineering

作者
桂思思
陆伟
张晓娟

Gui Sisi
Lu Wei
Zhang Xiaojuan
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn