基于搜索日志的用户行为分析*
童国平, 孙建军
南京大学信息管理学院 南京 210093
童国平, ORCID: 0000-0003-3351-5708, E-mail: 313928468@qq.com。
摘要
目的

利用搜索引擎日志数据对用户查询行为特征进行分析。

方法

采用分词、统计分析、聚类分析、可视化等方法, 分别从用户的查询串、查询方式、查询主题、查询点击行为和用户类型5个方面对用户使用搜索引擎时的行为特征进行分析。

结果

发现搜索用户偏好使用2-5个中文名词短语组成的查询串; 更少使用口语化查询, 不爱使用高级检索功能; 查询用词变得多样化; 查询时间存在高峰低谷; 再次证实存在“翘尾现象”。【局限】使用的数据量不够大, 没有结合用户详细信息进行分析。

结论

使用搜索引擎日志可以获得用户行为特征, 并能为改善搜索引擎提供一些建议。

关键词: 搜索引擎日志; 查询日志; 用户行为分析; 日志挖掘
中图分类号:
User Behavior Analysis Based on Search Engine Log
Tong Guoping, Sun Jianjun
School of Information Management, Nanjing University, Nanjing 210093, China
Abstract

[Objective] This paper aims to analyse user behavior based on search engine log. [Methods] Analyse user behavior from query string, query methods, query subjects, user click behavior and user types by word segmentation, statistical analysis, clustering analysis and visualization. [Results] Search users prefer to use 2-5 Chinese noun phrases; Use less colloquial query strings; Dislike using advanced search functions; Perfer to use various query strings; There are peaks and valleys in the number of users. Up-tail phenomenon is confirmed once again in this research. [Limitations] The amount of data used in this paper is not big enough and details of user information is not considered. [Conclusions] Analysis on search engine log is beneficial to acquisition of user behavior characteristics and improving search performance.

Keyword: Search; engine; log; Query; logs; User; behavior; analysis; Log; mining
1 引 言

人们在使用搜索引擎时会留下痕迹, 即搜索引擎日志, 通过对搜索引擎日志的分析可以得到搜索用户的行为特征。据《中国互联网络发展状况统计报告》[1]统计, 截至2014年12月, 我国网民规模达到6.49亿, 其中搜索引擎用户达到5.22亿, 占总网民的80.4%。使用人数最多的两个搜索引擎分别是百度和搜狗。海量的搜索日志数据为搜索用户行为分析提供了坚实的基础。

Silverstein等[2]最早开始对大型商用搜索引擎日志进行统计分析, 发现了英文查询串长度分布等规律。Jansen等[3]利用查询日志对查询记录的同一会话中查询策略的改变、查看页面数、相关反馈的使用、查询词的个数、高级检索功能的使用、查询词的频率等进行分析, 并深入研究用户的行为特征。

国内学者在21世纪初才开始对搜索引擎日志进行研究。郭岩等[4]对网络日志的规模和用户数、Web文档数、用户对网络访问的动机进行分析发现用户存在稳定兴趣, 并对用户稳定兴趣进行细致分析。余慧佳等[5]通过对Sogou日志的统计, 发现了查询长度、查询频度、结果排序对用户点击的影响等规律。陈红涛等[6]在对搜索引擎日志分析时引入中文分词技术, 重点分析用户查询词的规律并提出用户提交查询词的模型。赖茂生等[7]利用中文分词工具对搜索引擎查询日志进行分词、词性标注和挖掘研究, 发现用户主要使用名词进行概念性检索。其他学者还对特定的词性组合进行分析, 如N1+N2型[8]、N+V型[9]等。马少平等[10]对2006年-2011年的中文搜索引擎的用户行为的演化规律进行分析和挖掘, 得到许多新的规律和结论。

本文利用Sogou搜索日志数据, 分别从用户的查询串、查询方式、查询主题、查询点击行为和用户类型5个方面进行分析, 揭示了搜索用户的行为特征, 并与以往的研究成果进行对比, 同时给出改善搜索引擎的相关建议。

2 日志数据

本文数据来自Sogou(搜狗)实验室(http://www. sogou.com/labs/dl/q.html), 包括两部分: 第一部分是2011年12月30日的查询日志(802 069条查询记录), 记为2011; 第二部分是2008年6月某天的查询日志(1 724 228条查询记录), 记为2008。数据格式如表1所示:

表1 Sogou查询记录格式

很多搜索引擎日志在获得时都比较“ 脏” , 即数据比较杂乱, 需要进行预处理。主要包括数据清洗、数据抽取和数据集成[11]。数据清洗是对日志中的诸如噪音数据、缺失数据的“ 脏数据” 进行处理。数据抽取是将需要用到的数据从日志中抽取出来, 如查询时间、查询词、用户ID、用户IP地址等。数据集成是将不同格式的数据用统一的格式集成在一起, 便于统一分析和利用。这里使用的数据已经经过预处理。

3 用户行为分析
3.1 用户查询串分析

(1) 查询串长度分析

每个查询串都是由若干个词语组成, 用户在使用搜索引擎查询时会自动对句子进行分割, 如查询串“ 百度一下 你就知道” , 用户自动分成两部分。如果只考虑用户的自动分词, Sogou用户在2011年12月30日平均输入1.08个词语。而Silverstein等[2]指出英文搜索引擎用户平均输入2.35个单词, 高于中文用户的查询词语的平均值。笔者使用中国科学院计算技术研究所分词软件NLPIR①(①NLPIR汉语分词系统(又名ICTCLAS2013), 主要功能包括中文分词、词性标注、命名实体识别、用户词典功能。下载地址: http://ictclas. nlpir.org/downloads。), 统计发现2011年12月30日的Sogou日志用户平均输入3.98个词语, 比英文搜索引擎用户的词数要高很多, 比董志安等[12]用2010年某段时间的百度搜索日志统计出的词数3.29还要高。

不考虑词语, 以单个汉字、字母或标点为单位, 统计2011年12月30日查询串发现, 用户平均每次输入7.68个汉字、字母或标点; 统计2008年6月某天的查询串发现, 用户平均每次输入6.68个汉字、字母或标点。对比2008年和2011年查询串长度, 发现查询串长度在变长。由此可以联想到查询串中词数也在变多。这一方面说明了搜索引擎能搜到的资源越来越多, 人们需要使用更多的查询词来限定资源; 另一方面也说明由于自然语言处理能力增强, 人们可以使用较为冗余的查询语句来进行查询。由图1可以看出, 查询串长度主要在4-9个汉字, 与2-5个词语相符(因为中文词语以两个汉字组成的词居多)。由此可见, 搜索引擎在进行查询扩展时一般提供2-5个词语的推荐查询串为宜(现在的搜索引擎也是这么做的)。

图1 查询串长度和查询串中词数的分布

(2) 查询串词性组合分析

为了考察查询串中词性组合情况, 笔者对查询串进行分词和词性标注, 结果如表2所示。这里使用中

国科学院计算技术研究所汉语词性标记集(共计99个, 22个一类, 66个二类, 11个三类)①汉语词性标记集具体内容参见http://wenku.baidu.com/link?url=_p81QqhslQMJrMtJbkYgC-JOb-hQYB5KS5MosRfFk5O7u0Kl_fmew LhwWbcZ-cadUQv3Pr4LUQLikum_TPWax7pY1pK8yw-ZGDqjjnnuUjO。)。

表2 查询串词性组合统计结果

表2可以看出, 大部分结果是相同的。笔者的统计结果之所以出现次数最多的词性组合是“ /x” , 是因为这类查询是英文字符串(包括网址), 在赖茂生等的词性标注集里对应的是“ /nx” , 可见出现次数最多的前三个词性组合还是“ 非汉字字符串” 、“ 名词+名词” 、“ 名词” 。所以在进行查询扩展(或查询推荐)时, 可以考虑多使用“ N+N” 的形式。在对用户查询串进行语义分析时, 优先考虑出现次数多的词性组合形式。将出现次数最多的前100个词性组合绘制成折线图, 发现用户查询串词性组合的结果符合幂律分布。

(3) 查询串语言偏好分析

为了考察用户在查询时使用哪种语言, 笔者将查询串分为中文查询串(只有中文、数字和标点符号)、英文查询串(只有英文字母、数字和标点符号, 包括纯英文URL地址)、中英文查询串(至少有一个中文字符、一个英文字母和若干个数字和标点)、其他查询串(其他情况, 如日文查询串, 这类查询串很少, 可以忽略)。统计结果如图2所示。

Sogou搜索引擎的查询串中中文查询串占绝大多数。对比陈红涛等[6](中文查询串占81.8%, 2006年Sogou数据)和董志安等[12](中文查询串占77.02%, 2010年百度数据)的统计结果, 中文查询串在所有查询串中比重最大, 约80%。

图2 Sogou2011查询串语言类型(笔者统计)

3.2 用户查询方式分析

(1) 问题式查询(口语化查询)分析

岑荣伟等[13]对2009年某搜索引擎查询日志进行分析, 发现有2.96%的查询串是问题式查询(如“ 非诚勿扰主题歌是什么” )。笔者认为只要有“ 谁” 、“ 哪” (包括哪里、哪儿、哪样等)、“ 何” (包括为何、如何、何处、何时、何物等)、“ 怎” (包括怎么、怎会、怎样、怎可等)、“ 几” (包括几时、几只、几个、几样等)、“ 什么” (包括为什么、干什么等)、“ 嘛” (如干嘛、为嘛等)等疑问词的句子都是问句, 或者带“ ?” 的查询串都是疑问句。利用该方法统计得到2008年某天问题式查询占总查询的4.84%, 2011年12月30日问题式查询占总查询的4.36%。这个结果与岑荣伟等的统计结果相差比较大, 因此笔者尝试使用另一种方法统计。

笔者曾经对查询串进行过分词, 做过词性标注。由于“ /ry” 表示疑问代词, 那么包括疑问代词的查询串基本都是问题式查询, 再结合是否含有“ ?” , 最后统计得到2011年12月30日问题式查询占总查询的4.39%, 与原统计结果(4.36%)相差不大。故笔者认为上面的统计结果是对的。问题式查询占总查询的比例随着年份增加而变小(从2008年的4.84%到2011年的4.36%), 笔者认为这是因为用户使用搜索引擎次数变多, 检索能力变强, 更能清楚地表达自己的检索需求。

(2) 高级检索功能使用情况分析

Sogou搜索支持高级检索, 有精确匹配(“ ” )、在特定网站内搜索(site:)、在特定的网页标题中搜索(intitle:)、减除无关资料(-)、特定文件搜索(filetype:)等高级检索功能。笔者统计了2008年某天数据, 发现有1.14%的查询串存在高级检索。观察使用高级检索的查询串, 发现“ 减除无关资料” 这类高级检索有很大一部分不是用户有意使用的, 如“ sj-m博客” 查询, 并不存在高级检索意图。故去除这类高级检索后, 有0.65%的查询串使用了高级检索。这说明在用户使用搜索引擎时, 很少会用到高级检索功能。这一方面是因为用户不了解该搜索引擎的高级检索功能, 另一方面是因为其提供的高级检索功能不太好用, 用户不想去用。2008年6月某天高级检索情况如表3所示:

表3 2008年6月某天高级检索情况
3.3 用户查询主题分析

(1) 高频查询串分析

人们在使用搜索引擎查询时会经常重复输入相同的查询串, 如“ 百度” 这个查询串在2011年12月30日被使用了6 055次, 占总查询次数的0.755%。根据高频查询串和高频查询词语, 可以得到一些隐藏的信息。如2008年6月某天的高频查询串中, “ 汶川地震原因” 出现58 764次, 占总查询次数的3.4%(排名第二), 说明汶川地震在当时是一个热门话题, 由此可以推出2008年6月左右已发生或可能发生汶川地震。事实证明, 2008年5月12日确实发生过汶川大地震。由此可以联想, 高频查询词语也可以用于发现热点或挖掘潜在知识。而且, 高频查询词的变迁可以反映当前社会热点的变迁。当然, 需要剔除如“ 百度” 这种查询频率一直很高的查询串。

(2) 查询串频率分布分析

为了更好地展示查询串的频率分布, 这里将查询串按查询频率从高到低排列, 并从高到低累加到查询串的0%, 10%, 20%, …, 90%, 100%, 求出相应的查询次数占总查询次数的比例, 如图3所示:

图3 高频查询串所占比例和查询次数占总次数比例的关系

图3可知, 很少的高频查询串的查询次数就已经占总次数的很大一部分, 如前10%的查询串占总查询次数的50%左右。所以对高频查询串的搜索结果进行缓存对提高搜索引擎响应速度会有帮助。

为了粗略考察用户查询范围, 笔者自定义了一个变量叫做查询范围系数。

查询范围系数=查询串总数/查询总次数

查询总次数是指所有查询记录的个数, 查询串总数是指所有查询次数中不相同的查询串的个数。如“ 百度” 被查询了6 055次, 只算一个查询串, 就是“ 百度” , 查询次数则算6 055次。

2008年6月某天的查询范围系数为18.3%, 即5.5个查询中就会出现一个新的查询串; 2011年12月30日的查询范围系数为36.9%, 即2.7个查询中就会出现一个新的查询串, 由此可以推出搜索引擎用户的查询范围在逐渐变大。结合图3中2011年的曲线比2008年要低, 推出查询主题由原来的较高频查询词转向其他较低频查询词。进一步统计得到, 2008年6月某天同一个查询词平均查找2.1次, 2011年12月30日变为1.5次。分析其原因, 一是用户的检索能力增强, 不再使用单一检索词进行多次翻页查找, 而是采用尝试多种不同查询词进行查找的策略; 二是搜索引擎的准确率上升, 用户能很快找到检索结果, 导致同一检索词使用频率下降。因此, 对于同一个用户而言, 使用不同的检索系统完成同一任务得到的查询范围系数, 系数越大说明检索系统准确率越高。

(3) 查询词频率时序变化分析

查询词的频率会随着时间的变化而变化, 频率变高说明该主题正在变热, 频率变低说明该主题正在消逝。由于实验数据没法做查询词频率时序变化分析, 故采用百度数据进行分析。

百度公司提供了查询词频的功能(百度指数), 可以查看该查询词最近几年总体查询情况和最近一个月的详细查询情况①(①百度指数, 详见http://index.baidu.com/。)。例如: 2011年-2014年的“ 反腐” 查询词被查询的次数如图4所示。可以看出近几年的政府反腐工作越来越受到民众的重视, 尤其是2012年11月召开了中国共产党第十八次全国代表大会, 中央领导集团表达了惩治腐败的决心之后, “ 反腐” 关注度瞬间增加(图4中的黑点处)。

(4) 查询词共现分析

查询词可以反映用户的查询主题, 研究查询词的共现情况, 可以了解用户的兴趣分布和兴趣间的关联程度。图5给出了2011年12月30日的查询词(选取查询频率在500以上的名词)的共现关系, 其中节点大小反映了查询词的被查询频率, 节点越大, 被查询次数越多。节点间的连线反映了查询词出现在同一查询串中的频率。可知, 查询主题主要分为两类, 一类是左边的娱乐类(包括电影、视频、游戏、图片、电视剧等), 另一类是右边的学习工作类(包括中国、大学、学院、公司、有限公司、银行等)。

图4 2011年-2014年的“ 反腐” 查询词被查询的次数

图5 查询词的共现图

3.4 用户查询点击行为分析

(1) 点击时间分布分析

每个用户使用搜索引擎的时间是不同的, 笔者统计2008年6月某天和2011年12月30日的用户使用搜索引擎的情况, 发现用户主要在9: 00-24: 00使用搜索引擎, 其中11: 00、17: 00、21: 00-22: 00是使用高峰期。具体情况如图6所示。

图6 用户使用搜索引擎情况

根据搜索引擎的使用情况, 搜索引擎公司应该在使用高峰期(11: 00-22: 00)运行更多服务器以保证搜索速度和质量, 服务器维护时间应尽量放在使用低峰期(3: 00-7: 00)。

(2) 被点击的URL分布分析

用户在使用搜索引擎时往往只翻看前几页的搜索结果。考察URL在搜索结果中的位置对被点击(或被使用)的影响, 如图7所示, 可以看出用户往往只翻看第一页的检索结果。如2008年6月某天第一页被翻看次数占总次数的87.3%。所以想在搜索引擎中投放广告的商家一定要把广告页面放在第一页搜索结果中。此外, 正是由于这种特性存在, 评价一个搜索引擎不再像以往评价传统检索系统那样, 检准率主要针对的应是前几页的检索结果而不是所有检索结果。

图7 URL在搜索结果中的位置与被点击的关系

图7中在10位置处有一个上翘的现象。马少平等[10]将其称为“ 翘尾现象” 。笔者列出检索结果每页最后三条URL被点击情况, 如表4所示, 证实确实存在“ 翘尾现象” 。所以, 想在搜索引擎中投放广告的商家可以考虑把广告链接放在每页最后那个位置上。

表4 检索结果每页最后三条URL被点击情况

用户在使用搜索引擎进行查询时, 一般只翻看前几页查询结果, 很少会翻看几十页以后的结果。笔者查看了点击第1 008条结果(100页之后)的查询串, 发现有117条查询串, 而且内容主题各异, 并未发现规律。姚婷等[14]认为色情类查询的用户行为比较特别, 点击和翻页的次数特别多, 停留时间很长。但笔者并没有发现色情类查询的翻页次数特别多的现象。

(3) 用户同一个查询任务点击情况分析

用户使用搜索引擎时同一个查询任务很少会点击上百次, 对每个用户的每个查询串的点击次数进行统计发现, 点击次数较高的查询串包括三种: 色情类查询、多媒体资源类查询(包括图片、视频等多媒体资源)和其他类查询(主题较宽泛, 难以概括)。

找出点击次数最多的15个查询串, 发现色情类查询和多媒体资源类查询占多数, 从而证实姚婷等[14]的观点, 色情类查询点击次数比较多。

3.5 用户类型分析

如果两位用户的兴趣爱好相同, 那么他们使用的查询串和点击的URL网址应该存在相似性, 而且兴趣爱好越相同, 相似性就越高。因此可以通过使用查询串和点击的URL网址对用户进行聚类, 同一类用户存在相同的兴趣爱好。

找出用户使用的查询词, 如查询词1, 查询词2, …, 查询词N, 得到该用户查询词向量Q=(查询词1, 查询词2, …, 查询词N), 然后找出其点击的URL网址, 如URL1, URL2, …, URLM, 得到其URL向量U= (URL1, URL2, …, URLM)。接着使用Q和U向量计算用户间的相似度。用户1和用户2的相似度可以使用以下公式计算:

SIM(用户1, 用户2)=SIM(Q用户1, Q用户2)× α +

SIM(U用户1, U用户2)× (1-α )

其中, α 表示查询词的重要程度, 具体值可以根据最后用户聚类效果确定。

由于查询词和URL地址很多, 所以需要进行降维处理。URL地址降维很简单, 可以只考虑一级目录(或根目录, 通过去除URL中除“ http://” 外第一个“ /” 后面的字符串即可)。查询词降维比较复杂, 可以通过聚类求出每个查询词类的中心, 再通过求解查询词最近的类中心确定该查询词的类别。可以使用查询词对应的URL对查询词聚类, 也可以使用文本相似性计算进行聚类(如潜在语义索引)。周婷婷[15]通过使用查询词对应的URL对查询词聚类以达到降维目的。段建勇等[16]利用《知网》对查询词进行相似度计算并聚类。笔者并没有对查询词进行降维, 只是选择频率大于10次的名词、动词和形容词作为查询词维度, 共12 741个; 对URL进行降维, 并选择降维后频率大于10次的URL地址作为URL维度, 共6 680个。

笔者采用K-means聚类, K取6-12, α 取0.4-0.6, 每次循环迭代20 000次, 实验结果表明当K=8, α =0.4时, 聚类效果最好。聚类结果如表5所示:

表5 K=8, α =0.4时的聚类结果

用户主要分为8类, 即时事新闻类、下载类、游戏类、视频类、艺术类、学习类、社交类、经济类, 每类中重要的特征词和URL以及它们在类中的重要程度(即权重)都已给出。权重是用类中心向量中该词或URL维度的值除以所有词或URL维度的总值求得的。权重越大, 表明该词或URL在该类中越重要。

通过对用户的聚类分析, 搜索引擎可以总结出每种类型用户的特点、查询偏好。能在用户查询时向其推荐同类用户的查询词和相关页面, 这也有助于提高搜索引擎的性能。

3.6 小 结

本文利用Sogou日志, 分别从用户的查询串、查询方式、查询主题、查询点击行为和用户类型5个方面对用户在使用搜索引擎时的行为特征进行分析。

(1) 发现在查询词选择上, 搜索用户喜欢使用中文查询串进行检索, 查询用词2-5个, 主要是名词性短语, 动词次之。了解用词个数和词性偏好有助于搜索引擎对查询串进行解析以及更好地提供查询扩展功能。

(2) 在查询方式上, 随着用户检索能力越来越强, 问题式查询(口语化查询)越来越少, 而且用户很少使用高级检索功能。因而搜索引擎公司需要改进高级检索功能, 使其变得更加方便快捷。

(3) 在查询主题上, 用户的查询范围在变大, 主题在变多。2008年6月某天的查询范围系数为18.3%, 即5.5个查询中就会出现一个新的查询串, 2011年12月30日的查询范围系数为36.9%, 即2.7个查询中就会出现一个新的查询串。此外, 查询效率在提高。2008年6月某天同一个查询词平均查找2.1次, 2011年12月30日变为1.5次。用户最常使用的查询串(前10%的查询串)的查询次数占总查询次数的50%, 为通过缓存高频查询词结果提高搜索响应速度提供了理论支持。

(4) 在查询点击行为上, 用户使用搜索引擎的高峰期在11: 00、17: 00、21: 00-22: 00, 低谷期在3: 00- 7: 00。搜索引擎公司可以根据高峰低谷在不同时间段运行相应数量的服务器, 服务器维护或数据更新、备份也应尽量选择在低谷期。用户一般只翻看前几页检索结果, 尤其是每页的前几条和最后一条检索结果。因此搜索引擎在比较检索性能(查全率和查准率)时应该优先考虑前几条检索结果。

(5) 在用户类型上, 通过对用户的聚类分析, 搜索引擎可以总结出每种类型用户的特点、查询偏好, 能在用户查询时向其推荐同类用户的查询词和相关页面, 这也有助于提高搜索引擎的性能。本文通过K-means聚类, 得到8类用户, 分别是时事新闻类、下载类、游戏类、视频类、艺术类、学习类、社交类、经济类。

4 结 语

本文利用Sogou日志, 从5个方面对用户使用搜索引擎时的行为特征进行分析, 为改善搜索引擎提供了一些建议。同时再次验证了很多前人的结论, 包括查询词词性偏好、“ 翘尾现象” ; 也有一些结论因为数据的不同和时间的差异导致与前人的结论不同。本文从多个方面对日志数据进行分析, 为如何分析日志数据提供借鉴。由于没有足够多的日志数据和用户详细信息, 不能分析各类用户的行为特征。因此下一步的工作是利用更多的日志数据, 结合用户详细信息, 分析不同类型用户的行为特征, 为用户个性化服务提供数据支持。

参考文献
[1] 中国互联网络信息中心. 中国互联网络发展状况统计报告[R/OL]. [2015-02-03]. http: //www. cnnic. net. cn/hlwfzyj/hlwxzbg/hlwtjbg/201502/P020150203548852631921. pdf.
( China Internet Network Information Center (CNNIC). Statistical Report on Internet Development in China[R/OL]. [2015-02-03]. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201502/P020150203548852631921.pdf [本文引用:1]
[2] Silverstein C, Henzinger M, Marais H, et al. Analysis of a Very Large Web Search Engine Query Log[J]. ACM SIGIR Forum, 1998, 33(1): 6-12. [本文引用:2]
[3] Jansen B J, Spink A, Saracevic T. Real Life, Real Users, Real Needs: A Study and Analysis of User Queries on the Web[J]. Information Processing & Management, 2000, 36(2): 207-227. [本文引用:1]
[4] 郭岩, 白硕, 杨志峰, . 网络日志规模分析和用户兴趣挖掘[J]. 计算机学报, 2005, 28(9): 1483-1496.
(Guo Yan, Bai Shuo, Yang Zhifeng, et al. Analyzing Scale of Web Logs and Mining Users’ Interests[J]. Chinese Journal of Computers, 2005, 28(9): 1483-1496. ) [本文引用:1] [CJCR: 2.219]
[5] 余慧佳, 刘奕群, 张敏, . 基于大规模日志分析的搜索引擎用户行为分析[J]. 中文信息学报, 2007, 21(1): 109-114.
(Yu Huijia, Liu Yiqun, Zhang Min, et al. Research in Search Engine User Behavior Based on Log Analysis[J]. Journal of Chinese Information Processing, 2007, 21(1): 109-114. ) [本文引用:1] [CJCR: 0.88]
[6] 陈红涛, 杨放春, 陈磊. 基于大规模中文搜索引擎的搜索日志挖掘[J]. 计算机应用研究, 2008, 25(6): 1663-1665.
(Chen Hongtao, Yang Fangchun, Chen Lei. Mining Query Log of Large-scale Chinese Search Engine[J]. Application Research of Computers, 2008, 25(6): 1663-1665. ) [本文引用:2] [CJCR: 0.676]
[7] 赖茂生, 屈鹏. 搜索引擎查询日志的词性标注和挖掘研究[J]. 现代图书情报技术, 2009(4): 50-56.
(Lai Maosheng, Qu Peng. The POS & Mining Study on Search Engine’s Query Log[J]. New Technology of Library and Information Service, 2009(4): 50-56. ) [本文引用:1]
[8] 刘志杰, 吕学强, 程涛. 搜索引擎日志中“N1+N2”型名词短语研究[J]. 现代图书情报技术, 2010(12): 58-63.
(Liu Zhijie, Lv Xueqiang, Cheng Tao. Study on Noun Phrase of “N1+ N2” Structure in Search Engine Query Logs[J]. New Technology of Library and Information Service, 2010(12): 58-63. ) [本文引用:1]
[9] 赵红改, 肖诗斌, 王洪俊, . 搜索引擎日志中“N+V”型主谓短语研究[J]. 中文信息学报, 2011, 25(5): 24-29.
(Zhao Honggai, Xiao Shibin, Wang Hongjun, et al. Study on Subject-predicate Phrase of “N+V” Structure in Search Engine Query Logs[J]. Journal of Chinese Information Processing, 2011, 25(5): 24-29. ) [本文引用:1] [CJCR: 0.88]
[10] 马少平, 刘奕群, 刘健, . 中文搜索引擎用户行为的演化分析[J]. 中文信息学报, 2011, 25(6): 90-97.
(Ma Shaoping, Liu Yiqun, Liu Jian, et al. Dynamic Analysis of Chinese Search Engine User Behavior[J]. Journal of Chinese Information Processing, 2011, 25(6): 90-97. ) [本文引用:2] [CJCR: 0.88]
[11] 唐涛. 基于搜索引擎日志分析的网络舆情监测方法研究[J]. 情报杂志, 2012, 31(8): 27-30.
(Tang Tao. Research on Method of Monitoring Net-Mediated Public Sentiment Based on Analysis of Search Engine Logs[J]. Journal of Intelligence, 2012, 31(8): 27-30. ) [本文引用:1]
[12] 董志安, 吕学强. 基于百度搜索日志的用户行为分析[J]. 计算机应用与软件, 2013, 30(7): 17-20.
(Dong Zhian, Lv Xueqiang. User Behavior Analyses Based on Baidu Search Logs[J]. Computer Applications and Software, 2013, 30(7): 17-20. ) [本文引用:2] [CJCR: 0.476]
[13] 岑荣伟, 刘奕群, 张敏, . 基于日志挖掘的搜索引擎用户行为分析[J]. 中文信息学报, 2010, 24(3): 49-54.
(Cen Rongwei, Liu Yiqun, Zhang Min, et al. Search Engine User Behavior Analysis Based on Log Mining[J]. Journal of Chinese Information Processing, 2010, 24(3): 49-54. ) [本文引用:1] [CJCR: 0.88]
[14] 姚婷, 张敏, 刘奕群, . 低频查询的用户行为分析和类别研究[J]. 计算机研究与发展, 2012, 49(11): 2368-2375.
(Yao Ting, Zhang Min, Liu Yiqun, et al. Empirical Study on Rare Query Categorization[J]. Journal of Computer Research and Development, 2012, 49(11): 2368-2375. ) [本文引用:2]
[15] 周婷婷. 基于海量查询日志的数据挖掘及用户行为分析[D]. 北京: 北京邮电大学, 2012.
(Zhou Tingting. Data Mining and User Behavior Analysis Based on the Massive Query Log [D]. Beijing: Beijing University of Posts and Telecommunications, 2012. ) [本文引用:1] [CJCR: 0.581]
[16] 段建勇, 徐骥超, 张梅. 网络日志中查询串语义关系挖掘及其应用研究[J]. 现代图书情报技术, 2012(1): 58-62.
(Duan Jianyong, Xu Jichao, Zhang Mei. Query Semantic Relation Mining from Web Log and Its Application[J]. New Technology of Library and Information Service, 2012(1): 58-62. ) [本文引用:1]