网络用户搜索行为特征分析
陈勇1, 李红莲1, 吕学强2
1北京信息科技大学信息与通信工程学院 北京 100101
2北京信息科技大学网络文化与数字传播北京市重点实验室 北京 100101
通讯作者: 陈勇 E-mail: cy565025164@163.com

作者贡献声明:

吕学强: 提出研究命题, 收集数据;

陈勇: 提出研究思路, 设计研究方案, 分析数据, 论文起草;

李红莲: 论文修订。

摘要

【目的】对网络用户行为的有关数据进行统计、分析, 为进一步提高搜索引擎的性能提供依据。【方法】分析用户搜索词特点; 对搜索引擎返回用户搜索结果进行分析; 借用熵的概念, 对用户的点击情况进行量化分析。【结果】在所有用户记录中, 无空格搜索占93.66%, 其中83.59%的用户使用较长搜索词串; 用户确定性点击达到64.26%; 71.26%的用户查看了前三个返回结果。【局限】搜索用户的规模在一定程度上影响分析结果。【结论】实验结果表明, 用户点击的可靠性与确定性密切相关, 搜索引擎对较长搜索词的关键词定位存在一定缺陷。

关键词: 用户行为; 日志分析; 搜索引擎; 信息熵
中图分类号:TP391
Analysis for the Search Behavior of Web Users
Chen Yong1, Li Honglian1, Lv Xueqiang2
1School of Information and Communication Engineering, Beijing Information Science and Technology University, Beijing 100101,China
2Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100101, China
Abstract

[Objective] To count and analyze for the data of Web users behavior, provide the basis for further improving the performance of search engines.[Methods] Analyze the characteristics of users’ query and the user’s query results that the search engine returns. To introduce the concept of entropy, quantify the behavior of interaction process of users and search engines.[Results] In all user records, no spaces queries accounted for 93.66%, 83.59% of the users use a longer query, user’s certainty click reaches 64.26%, and 71.26% of the users view the first three return results.[Limitations] The size of the user’s query may affect the result of the analysis in a certain extent.[Conclusions] The results show that the user’s click on the reliability is closely related to the certainty, search engine has some defects on positioning of the long query words.

Keyword: User behavior; Log analysis; Search engine; Entropy
1 引言

网络所提供的信息资源非常丰富, 对于一个普通用户来说, 在海量信息流中寻找对自己有用的信息是一件十分困难的事。搜索引擎作为整合网络资源的主要工具, 逐渐成为用户获取知识的重要途径。然而, 随着信息的不断积累和用户搜索方式的多样性, 搜索引擎反馈给用户的搜索结果经常存在不确定性, 给用户的查找造成困扰。如何提高搜索效率, 帮助用户定位所需的网络目标资源, 成为各种搜索平台所关注的重点。针对这个问题, 目前的研究方向主要是建立查询推荐系统模型使用户行为智能化[1, 2]。因此, 进行搜索引擎网络信息用户行为特征分析是非常必要的。网络用户行为特征分析是挖掘用户搜索意图和了解用户兴趣方向的主要方法之一, 受到研究界和产业界的广泛关注, 已成为网络信息搜索和知识挖掘的重要研究领域之一。

对于网络用户行为, 数据的主要来源是存放每一位浏览者行为的网络日志, 根据不同的网站流量, 网络日志可以包含数百万个寄存器, 用以记录用户的具体搜索情况, 包括搜索内容、点击的顺序号以及点击的URL等重要信息。本文将从用户的角度出发, 在与前人的分析方法和结果进行对比的过程中, 对用户行为日志中的相关参数进行详细分析, 并进一步对用户点击网页的确定性做出更全面的判断。相关分析结论对于搜索引擎算法的改进和搜索性能的改善具有一定的参考价值。

2 相关工作

目前, 很多不同的学科如语言学、心理学、经济学、社会学、市场营销和计算机等, 都对人类行为的特征进行了分析研究。但他们都有一个共同的思路: 挖掘日志中用户的行为信息[3]

(1) 早在20世纪90年代, 国外就提出了基于日志的方法, 分析搜索引擎搜索日志中用户行为特征。1998年, Silverstein等[4]分析了历时6个星期大约10亿条用户行为, 统计其中的独立搜索、重复性搜索以及日志中搜索之间的相关性, 发现互联网用户主要查看搜索引擎返回的前10个结果, 并且很少有用户修改搜索内容; Eickhoff等[5]基于网络日志中的一些相关主题, 深入分析了2.1亿条用户的点击情况与搜索内容的关系, 以及搜索行为随着时间的变化情况, 实验结果表明用户对网页的访问量与新兴领域有很大的联系, 而只有约3%的用户有明确的搜索意图; Park等[6]通过对商务日志中的20 700 000条记录进行定量分析发现, 在科学技术领域, 用户行为特征在监测信息系统的模式方面具有重要的价值; Jiang等[7]通过分析日志记录, 认为通过简单的修改搜索词串, 比如添加和删除一些搜索词, 或者用同义词或相关术语取代之前的搜索词串, 通常都能获得满意的搜索结果; Mei等[8]基于商业搜索引擎的大规模搜索日志, 分析搜索词串与URL的点击关系, 并通过统计大规模搜索和点击的二分图, 得出语义相关的搜索; Downey等[9]分析了日志中搜索串与点击网页之间的关系, 发现用户对于稀有搜索和常见搜索的交互过程存在很大差异。

(2) 国内对于用户行为日志的分析起步相对较晚。2006年, 余慧佳等[10]对中文环境下的网络用户行为日志进行了详细的分析和研究, 被作为后期改进搜索引擎性能的基本依据; 姚婷等[11]首次分析了用户低频搜索, 使用AdaBoost算法对2 000个低频搜索进行分类, 分析用户在低频搜索上的行为差异; 万飞等[12]从用户搜索词、会话以及用户点击三个角度出发, 对某搜索引擎一周内网络日志中的搜索词特征、会话搜索总数以及用户点击位置进行了详细的统计分析; 张磊等[13]以用户为满足某个信息需求而在一段时间内的搜索行为的连续序列为单位, 将网页搜索引擎搜索日志进行划分, 利用多重属性决策树方法对搜索词之间的相关性进行统计分析; 刘健等[14]将搜索日志中用户的搜索分为高频、中频、低频三个频度等级, 并将用户搜索进行分词标注, 分别研究搜索词频度和搜索词歧义对用户满意度的影响, 他们分析的仅仅是单个词语存在的歧义性; 朱玲等[15]分析了日志中的高级搜索和默认搜索, 发现高级搜索的使用一般紧接发生于已进行的默认搜索之后, 是默认搜索结果不够满意时转而选择的后备方式; 董志安等[16]从搜索词串长度和频次、URL点击深度和频次以及高级搜索情况三个方面对百度搜索日志进行详细分析; 窦志成等[17]分析了中文搜索日志中的搜索重复性, 发现高搜索频率用户的搜索重复率较高, 搜索词串的搜索频率、点击频率以及用户搜索频率均符合Zipf分布; 王倩等[18]从连续重复点击、非连续重复点击、过多点击、异常点击4个方面分析了网络日志中用户的浏览点击情况, 发现连续点击的不可靠性比较明显; 赖茂生等[19]对搜狗日志中的搜索词进行标注研究, 发现用户在搜索中以使用名词为主, 动词为辅, 鲜有其他词类出现在高频搜索中; 岑荣伟等[20]基于7.56亿条网络用户行为日志, 考察用户搜索行为中的搜索长度、搜索修改率、相关搜索点击率和搜索点击分布等信息, 发现不同目的的搜索行为存在差异性。

研究者们对网络用户的行为特征进行了大量研究, 而搜索和点击作为用户与搜索引擎交互的主要参数, 在研究过程中显得尤为重要。但是, 以往研究工作仅限于片面的行为特征分析, 缺乏对用户搜索和点击相结合进行深入分析, 也很少有学者对数据进行量化分析。为此, 笔者在前人分析方法的基础上, 基于搜狗日志的用户行为记录, 首先, 对日志中的参数进行统计, 与前人的相关研究结果进行对比, 详细分析用户的行为特征; 然后, 借助熵的概念, 量化分析用户搜索、点击的行为特征, 探索用户不确定点击与搜索词之间的关系, 试图发现较长搜索对搜索引擎精准定位关键词、用户点击确定性和对返回结果的满意程度的影响。

3 搜索行为结构和日志结构
3.1 搜索行为结构

为了更好地理解用户的搜索行为过程, 在用户与搜索引擎之间, 建立一个中间平台, 即搜索选择平台[21], 如图1所示。该平台主要作用是生成用户搜索日志, 以便利用这些日志对用户的行为特征进行分析。

图1 搜索选择平台

用户在搜索过程中, 首先选择一种搜索引擎, 然后输入一个搜索词, 搜索引擎将根据搜索词返回一个URL集合。用户在返回结果中进行浏览, 如果没有找到合适的结果, 可能会通过添加、删除、修改搜索词或者更换浏览器的方式继续搜索, 直到找到满意的结果或者放弃搜索。

3.2 日志结构

搜狗日志记录了用户的访问时间、ID、搜索词串、点击URL在返回结果中的排名、点击的顺序号以及点击的URL, 如表1所示:

表1 日志内容
4 搜索日志分析

本文的实验数据为2011年12月30日至31日的43 545 423条真实网络用户记录。

4.1 搜索词串分析

网络搜索引擎广泛普及的一个关键因素是为用户提供了一个简便快捷的交互界面。事实上, 搜索引擎是通过关键字列表为用户提供指定搜索, 关键字往往表示广泛的主题, 可以是语义相近的词, 也可以是搜索相关文档的专有名词。尽管用户能够在网上进行简单的搜索并得到满意的结果, 但关键字列表并不能完全描述用户的搜索需求, 所以不能每次都为用户提供满意的搜索。其原因之一是, 语言在很多方面存在模糊性和多义性, 有些关键词搜索到的是语义相关的文档, 并不是用户所需要的; 另一方面, 用户通常为搜索引擎提供非常短的搜索词, 短搜索词的意图更可能是不明确的。Jansen等[22]从搜索引擎的研究中, 得出结论: 大多数较短的搜索词(约两个词), 其含义是不精确的。

搜狗日志中的搜索词串分为两种: 无空格搜索词串, 例如“孩子上幼儿园后的变化” ; 多个“小搜索词串” 构成的搜索, “小搜索词串” 之间用空格隔开, 例如“大集经 四依法” 。

通过统计, 日志中共有40 784 472个用户使用无空格搜索词串进行搜索, 占所有搜索的93.66%; 有 2 760 951个搜索由两个或两个以上的“小搜索词串” 组成, 占所有搜索的6.34%。与文献[12]和文献[16]统计的无空格搜索词串分别占全部搜索的91.91%和87.49%相比, 基本相符。在无空格搜索词串中, 其中长度大于5的有37 582 827个, 占无空格搜索的21.50%, 这与文献[16]的长度大于5的只有极少数的结果存在偏差, 其原因可能是本文关于搜索词串的研究均是在未分词的基础进行的。通过数据对比可以看到, 用户更倾向于简单搜索, 即直接输入一个短语或短句进行搜索, 没有自主分词行为, 这一点与互联网搜索是一致的。

搜索词串长度分布情况如图2所示, 这里的长度指搜索词串中汉字的个数, 其中, 英文和数字的长度为空格隔开的个数, 例如“百度地图” 长度为4、“data compass” 长度为2、“2010” 长度为1。其中, 有91.53%的用户搜索词长度在2-19之间, 长度大于5的占83.59%, 与文献[16]中的89.6%数字相近, 与文献[21]的搜索词大部分在2-6之间的结果相比, 相差较大。出现偏差的原因可能是文献[21]仅限于分析中文搜索, 而用户使用的搜索词是多样化的。通过对比发现, 用户更喜爱精确性查找, 例如, 该日志中对于“火影忍者” 的搜索, 用户搜索词有“火影忍者中文全集优酷” 和“火影忍者MV” 。

图2 搜索词串长度分布

4.2 搜索结果分析

用户提交一个搜索词串后, 搜索引擎可能会返回较多主题的结果, 而用户只会对其所需要的结果进行点击浏览, 如果结果与用户的意图无关, 则用户可能会重新提交搜索词。这就需要搜索引擎尽可能将用户需求的URL放在返回结果的前面, 用户在浏览时能快速进行选择。而用户的搜索、点击次数以及URL的排名则直接反映了用户对搜索结果的满意程度和搜索引擎性能的好坏。

(1) 返回结果分析

对本实验数据集中的URL返回结果进行统计分析, 如图3所示。其中URL在返回结果中排名为1次的占41.96%, 不高于3次的占71.26%, 高于6次(不包含6次)的占0.91%, 与文献[12]统计的92%的用户选择点击位置在前5个的结果相比, 结果是一致的, 说明用户更倾向于在首页进行浏览, 且大部分选择前三条返回结果。少数返回结果排名相对靠后, 可能原因有两方面: 用户搜索内容不够明确, 比如意图不明确的短搜索词、语义比较广泛的搜索词, 均会导致搜索引擎不能精确查找而返回较多结果; 搜索引擎对结果的排列不够优化。

(2) 信息熵特征分析

熵(Entropy)这个概念来自于统计热力学, 是由德国物理学家克劳修斯于1865年所提出, 用来表示任何一种能量在空间中分布的均匀程度, 一个体系的能量完全均匀分布时, 这个系统的熵就达到最大值。熵在科学技术上泛指某些物质系统状态的一种量度, 某些物质系统状态可能出现的程度。Shannon[23]于1948年提出信息熵的概念, 主要采用数值形式表达随机变量取值的不确定性程度。

假定X是一个离散随机变量, p(x)表示变量X在取值为x时的概率, 那么表示X的不确定程度可以由信息熵H(x)来表示:

(1)

用户的搜索行为存在两种不确定性。一是搜索的不确定性。如果搜索引擎能够准确理解用户的搜索意图, 并返回用户想要的搜索结果, 则用户只需搜索一次, 不用再修改搜索词串; 反之, 用户可能修改搜索词重新搜索, 直到找到满意的结果。二是点击的不确定性。如果用户在点击搜索引擎返回的结果后, 得到满意的结果, 则可能停止浏览其他页面; 否则, 用户可能会继续点击其他相关结果, 直到找到自己想要的目标页面。本实验主要统计用户对同一个搜索词的点击情况, 分析用户对搜索结果的满意程度。

①搜索次数分析

张磊等[13]使用时间间隔的方式对日志进行切分研究, 选择的时间长, 且划分出的用户均是在连续时间内的行为记录, 其中不可避免会有同一用户在相同时间内进行上网浏览, 继而被划分为同一组数据中, 这将会导致浏览结果相对集中, 对实验结果产生一定的误差。本文的实验数据均是对日志的随机切分, 避免了重复分析同一用户在同一时间段的上网行为。首先, 统计整个日志中用户的搜索次数分布情况; 然后, 将用户的行为随机等分为三组进行实验, 如表2所示。由于数据的离散性, 通过多次统计和所有用户的行为进行比较, 能较好地反映用户搜索次数的分布情况。

表2 实验分组

日志中用户的搜索次数分布情况如图4所示。在三组数据中, 分别有69.39%、69.75%和70.17%的用户只提交了一次搜索, 与整个日志中69.74%的用户只提交了一次搜索相比, 结果相符, 与文献[4]中一次搜索占63.7%的数字接近。同时可以看出, 搜索次数超过3次的用户平均占4.12%, 与文献[4]中的14%有少许偏差, 可能原因是搜索平台对用户的搜索行为也有一定的影响。还有0.94%的用户搜索了5次以上, 这与文献[4]中1%的数据一致, 说明有些用户为找到自己需要的结果是比较有耐心的。该特征分析的结论也说明还有较多用户的搜索存在不确定性。

图4 搜索次数分布

②点击次数分析

经统计, 日志中共有91 893 963条独立的用户点击纪录, 笔者随机切分成10 000个文档作为实验数据, 计算每个文档中用户点击信息熵 (Click-Entropy, CE), 评估用户点击的精确度。点击信息熵由如下公式计算得到:

(2)

其中, 为用户的点击分布, 其计算方法为:

岑荣伟等[24]研究了每个时间段用户的点击情况, 而此处的px是随机统计所有用户行为的点击分布, 数据量较大, 因而更能反映用户对搜索引擎返回结果的满意程度。当点击次数为1次时, 为确定性点击, 则CE=0。

用户点击信息熵分布如图5所示, 可以看出, CE值小的点击较为集中, 其中有64.26%的用户在选择的过程中, 对搜索引擎返回结果很满意, 只点击浏览了一次。在一次搜索过程中, CE值超过2的用户达到2.33%, 说明用户在搜索过程中存在不确定点击。

图5 点击信息熵分布

文献[12]统计了移动搜索引擎日志中所有用户的点击情况, 显示用户的点击分布没有明显规律, 文献[20]分析了百度搜索日志中同一搜索内的点击情况, 指出同一搜索内点击次数呈现幂律分布规律, 本文分析了搜狗日志中所有用户的点击信息熵分布情况。通过三种结果对比, 可以看出用户点击情况在移动互联网搜索引擎与传统互联网搜索引擎上存在一定的差异。究其原因, 可能与用户输入的搜索信息有关, 移动互联网搜索除了传统意义上的文字, 还有语音、图像、手势等, 而一些传感数据, 如位置、时间等, 也会成为移动用户当前搜索的隐含信息, 这些都会影响返回结果, 也可能是移动设备屏幕小, 且受网页传输速度和操作的限制, 影响了用户的点击行为。文献[20]只是片面地分析了点击情况, 能一定程度地观察用户的浏览满意度, 但不可避免会存在不确定的搜索, 将会导致有些点击次数虽然只有一次, 但可能没有满足用户的需求, 用户会修改搜索重新点击浏览, 这将会对结果的分析产生一定的影响。本文的点击信息熵分布是在确定用户搜索的基础上得到的, 反映用户的点击精准性程度。用户对搜索的结果满意度高, 则点击具有更强的确定性; 反之, 如果用户对搜索结果的选择次数较多, 则这些点击的可靠性相对较低。因此, 搜索引擎在提高搜索结果的精准率和用户浏览的满意度上显得尤为重要。

③影响点击可靠性分析

笔者将日志中点击次数超过三次的所有用户提取出来, 经分析发现, 其中有72.93%的用户采用长搜索词串(长度大于9)进行搜索, 提取其中的用户行为进行进一步分析。例如, 关键词“壹周立波秀” , 经统计, 日志中共有2 669名用户进行过此搜索, 其中有1 954条搜索点击了一次, 在715条点击次数超过一次的搜索中, 搜索词串长度超过10的有523条。用搜狗、百度和移动导航分别搜索其中的两条用户搜索记录, 截取首页中排名前三的返回结果, 如表3表4所示。

表3 短搜索词串(关键词: 壹周立波秀)
表4 长搜索词串(关键词: 壹周立波秀2011下载最新)

可以看出, 用户搜索“壹周立波秀” , 此时提交给搜索引擎的关键词信息比较明确, 除了“百度百科” , 搜索返回前三的结果中均是相关视频, 用户选择点击任何一个均能满足需求; 对于搜索词“壹周立波秀2011下载最新” , 传统搜索引擎会理解两种意思: 观看和下载, 所以在返回结果中会有下载和在线观看供用户选择, 而用户的需求只是下载, 表明搜索引擎在追寻关键词方面存在一定的缺陷, 这为今后其性能的完善提供了一定的方向。笔者还发现, 百度搜索定位关键词的性能相对更加准确, 移动设备相对较差, 因为不同的搜索平台对用户的搜索行为会有一定的影响, 但是理解搜索关键词、精准定位用户搜索意图是所有搜索平台提高搜索性能的一个重要方向。

5 结语

本文充分结合前人的相关工作, 分析研究者们采用过的评价方法, 对搜狗日志中用户搜索和搜索结果的相关数据进行统计, 同时定义并实现基于熵的评价方法。通过统计分析, 用户更偏向于简单和精确的搜索方式, 可在今后的大数据研究中, 对关键词列表进行补充; 在浏览方式上, 用户更喜爱停留在首页进行选择, 这对搜索引擎性能的好坏要求更高。借助信息熵的概念, 对日志中所有用户的点击确定性进行度量, 结果表明, 用户点击的确定性与可靠性密切相关。本文还分析了不同搜索类型对用户搜索的影响, 发现搜索引擎对较长搜索词的关键词定位均存在一定的缺陷, 为今后进一步提高搜索引擎性能提供一定的方向。同时, 基于与移动搜索引擎的对比, 认为传统搜索引擎在搜索信息输入上的多元化, 也将是未来改善搜索方式的一个重点。

参考文献
[1] Wu T, He H, Gu X, et al. An Intelligent Network User Behavior Analysis System Based on Collaborative Markov Model and Distributed Data Processing [C]. In: Proceedings of the 17th International Conference on Computer Supported Cooperative Work in Design (CSCWD), Whistler, BC, Canada. IEEE, 2013: 221-228. [本文引用:1]
[2] Burke R. Hybrid Recommender Systems: Survey and Experiments[J]. User Modeling and User-Adapted Interaction, 2002, 12(4): 331-370. [本文引用:1] [JCR: 1.6]
[3] Silvestri F. Mining Query Logs: Turning Search Usage Data into Knowledge[J]. Foundations and Trends in Information Retrieval, 2010, 4(1-2): 1-174. [本文引用:1]
[4] Silverstein C, Henzinger M R, Marais H, et al. Analysis of a Very Large Web Search Engine Query Log[J]. ACM Special Interest Group on Information Retrieval (SIGIR), 1999, 33(1): 6-12. [本文引用:1]
[5] Eickhoff C, Teevan J, White R, et al. Lessons from the Journey: A Query Log Analysis of Within-session Learning [C]. In: Proceedings of the 7th ACM International Conference on Web Search and Data Mining. ACM, 2014: 223-232. [本文引用:1]
[6] Park M, Lee T. Understand ing Science and Technology Information Users Through Transaction Log Analysis[J]. Library Hi Tech, 2013, 31(1): 123-140. [本文引用:1]
[7] Jiang S, Zilles S, Holte R. Query Suggestion by Query Search: A New Approach to User Support in Web Search[C]. In: Proceedings of the IEEE/WIC/ACM International Joint Conferences on Web Intelligence and Intelligent Agent Technologies, Milan, Italy. IET, 2009, 1: 679-684. [本文引用:1]
[8] Mei Q, Zhou D, Church K. Query Suggestion Using Hitting Time [C]. In: Proceedings of the 17th ACM Conference on Information and Knowledge Management. ACM, 2008: 469-478. [本文引用:1]
[9] Downey D, Dumais S, Liebling D, et al. Understand ing the Relationship Between Searchers’ Queries and Information Goals[C]. In: Proceedings of the 17th ACM Conference on Information and Knowledge Management. ACM, 2008: 449-458. [本文引用:1]
[10] 余慧佳, 刘奕群, 张敏, . 基于大规模日志分析的搜索引擎用户行为分析[J]. 中文信息学报, 2007, 21(1): 109-114.
(Yu Huijia, Liu Yiqun, Zhang Min, et al. Research in Search Engine User Behavior Based on Analysis[J]. Journal of Chinese Information Processing , 2007, 21(1): 109-114. ) [本文引用:1] [CJCR: 1.13]
[11] 姚婷, 张敏, 刘奕群, . 低频查询的用户行为分析和类别研究[J]. 计算机研究与发展, 2012, 49(11): 2368-2375.
(Yao Ting, Zhang Min, Liu Yiqun, et al. Empirical Study on Rare Query Categorization[J]. Journal of Computer Research and Development, 2012, 49(11): 2368-2375. ) [本文引用:1]
[12] 万飞, 赵溪, 梁循, . 基于移动互联网日志的搜索引擎用户行为研究[J]. 中文信息学报, 2014, 28(2): 144-150.
(Wan Fei, Zhao Xi, Liang Xun, et al. Search Behavior Study Based on the Mobile SearchLog[J]. Journal of Chinese Information Processing , 2014, 28(2): 144-150. ) [本文引用:1] [CJCR: 1.13]
[13] 张磊, 李亚楠, 王斌, . 网页搜索引擎查询日志的 Session 划分研究[J]. 中文信息学报, 2009, 23(2): 54-61.
(Zhang Lei, Li Ya’nan, Wang Bin, et al. Session Segmentation Based on Query Logs of Web Search[J]. Journal of Chinese Information Processing, 2009, 23(2): 54-61. ) [本文引用:2] [CJCR: 1.13]
[14] 刘健, 刘奕群, 马少平, . 搜索引擎用户行为与用户满意度的关联研究[J]. 中文信息学报, 2014, 28(1): 73-79.
(Liu Jian, Liu Yiqun, Ma Shaoping, et al. Analysis into the Relationship Between Research of Search Engine User Behavior and User Satisfaction Evaluation[J]. Journal of Chinese Information Processing, 2014, 28(1): 73-79. ) [本文引用:1] [CJCR: 1.13]
[15] 朱玲, 聂华. 通过日志挖掘研究图书馆资源发现服务用户的搜索行为[J]. 现代图书情报技术, 2011(12): 74-78.
(Zhu Ling, Nie Hua. Research of User’s Searching Behaviour of Library Resources Discovery Service by Log Mining[J]. New Technology of Library and Information Service, 2011(12): 74-78. ) [本文引用:1] [CJCR: 1.073]
[16] 董志安, 吕学强. 基于百度搜索日志的用户行为分析[J]. 计算机应用与软件, 2013, 30(7): 17-20.
(Dong Zhian, Lv Xueqiang. Use Behaviour Analyses Based on Baidu Search Logs[J]. Computer Applications and Software, 2013, 30(7): 17-20. ) [本文引用:1] [CJCR: 0.515]
[17] 窦志成, 袁晓洁, 何松柏. 大规模中文搜索日志中查询重复性分析[J]. 计算机工程, 2008, 34(21): 40-41, 44.
(Dou Zhicheng, Yuan Xiaojie, He Songbai. Analysis of Query Repetition in Large-scale Chinese Search Log[J]. Computer Engineering, 2008, 34(21): 40-41, 44. ) [本文引用:1] [CJCR: 0.492]
[18] 王倩, 刘奕群, 马少平, . 面向用户互联网访问日志的异常点击分析[J]. 中文信息学报, 2010, 24(3): 44-48, 61.
(Wang Qian, Liu Yiqun, Ma Shaoping, et al. Abnormal Click Analysis in Web User Access Logs[J]. Journal of Chinese Information Processing, 2010, 24(3): 44-48, 61. ) [本文引用:1] [CJCR: 1.13]
[19] 赖茂生, 屈鹏. 搜索引擎查询日志的词性标注和挖掘研究[J]. 现代图书情报技术, 2009(4): 50-56.
(Lai Maosheng, Qu Peng. The POS & Mining Study on Search Engine’s Query Log[J]. New Technology of Library and Information Service, 2009(4): 50-56. ) [本文引用:1] [CJCR: 1.073]
[20] 岑荣伟, 刘奕群, 张敏, . 基于日志挖掘的搜索引擎用户行为分析[J]. 中文信息学报, 2010, 24(3): 49-54.
(Cen Rongwei, Liu Yiqun, Zhang Min, et al. Search Engine User Behavior Analysis Based on Log Mining[J]. Journal of Chinese Information Processing, 2010, 24(3): 49-54. ) [本文引用:1] [CJCR: 1.13]
[21] 王浩, 姚长利, 郭琳, . 基于中文搜索引擎网络信息用户行为研究[J]. 计算机应用研究, 2009, 26(12): 4665-4668.
(Wang Hao, Yao Changli, Guo Lin, et al. Research on Web User Behavior Based on Chinese Search Engine[J]. Application Research of Computers, 2009, 26(12): 4665-4668. ) [本文引用:1] [CJCR: 0.601]
[22] Jansen B J, Spink A, Bateman J, et al. Real Life Information Retrieval: A Study of User Queries on the Web[J]. ACM SIGIR Forum, 1998, 32(1): 5-17. [本文引用:1]
[23] Shannon C E. A Mathematical Theory of Communication[J]. SIGMOBILE Mobile Computing and Communications Review, 2001, 5(1): 3-55. [本文引用:1]
[24] 岑荣伟, 刘奕群, 张敏, . 网络检索用户行为可靠性分析[J]. 软件学报, 2010, 21(5): 1055-1066.
(Cen Rongwei, Liu Yiqun, Zhang Min, et al. Reliability Analysis for the Behavior of Web Retrieval Users[J]. Journal of Software, 2010, 21(5): 1055-1066. ) [本文引用:1] [CJCR: 2.181]