Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (7-8): 80-88     https://doi.org/10.11925/infotech.1003-3513.2015.07.11
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于搜索日志的用户行为分析
童国平, 孙建军
南京大学信息管理学院 南京 210093
User Behavior Analysis Based on Search Engine Log
Tong Guoping, Sun Jianjun
School of Information Management, Nanjing University, Nanjing 210093, China
全文: PDF (3069 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

目的】利用搜索引擎日志数据对用户查询行为特征进行分析。【方法】采用分词、统计分析、聚类分析、可视化等方法, 分别从用户的查询串、查询方式、查询主题、查询点击行为和用户类型5个方面对用户使用搜索引擎时的行为特征进行分析。【结果】发现搜索用户偏好使用2-5个中文名词短语组成的查询串; 更少使用口语化查询, 不爱使用高级检索功能; 查询用词变得多样化; 查询时间存在高峰低谷; 再次证实存在"翘尾现象"。【局限】使用的数据量不够大, 没有结合用户详细信息进行分析。【结论】使用搜索引擎日志可以获得用户行为特征, 并能为改善搜索引擎提供一些建议。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
Abstract

[Objective] This paper aims to analyse user behavior based on search engine log. [Methods] Analyse user behavior from query string, query methods, query subjects, user click behavior and user types by word segmentation, statistical analysis, clustering analysis and visualization. [Results] Search users prefer to use 2-5 Chinese noun phrases; Use less colloquial query strings; Dislike using advanced search functions; Perfer to use various query strings; There are peaks and valleys in the number of users. Up-tail phenomenon is confirmed once again in this research. [Limitations] The amount of data used in this paper is not big enough and details of user information is not considered. [Conclusions] Analysis on search engine log is beneficial to acquisition of user behavior characteristics and improving search performance.

收稿日期: 2015-02-04      出版日期: 2015-08-25
:  TP391  
基金资助:

本文系国家社会科学基金重大招标项目"面向学科领域的网络信息资源深度聚合与服务研究"(项目编号:12& ZD221)和国家自然科学基金项目"融合范式视角下的链接分析理论集成框架及其实证研究"(项目编号:71273125)的研究成果之一。

通讯作者: 童国平, ORCID: 0000-0003-3351-5708, E-mail: 313928468@qq.com。     E-mail: 313928468@qq.com
作者简介: 作者贡献声明: 童国平: 数据的获取与分析, 论文起草; 孙建军: 研究命题的提出、设计, 论文最终版本修订。
引用本文:   
童国平, 孙建军. 基于搜索日志的用户行为分析[J]. 现代图书情报技术, 2015, 31(7-8): 80-88.
Tong Guoping, Sun Jianjun. User Behavior Analysis Based on Search Engine Log. New Technology of Library and Information Service, 2015, 31(7-8): 80-88.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.07.11      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2015/V31/I7-8/80

[1] 中国互联网络信息中心. 中国互联网络发展状况统计报告[R/OL]. [2015-02-03]. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/ hlwtjbg/201502/P020150203548852631921.pdf. (China Internet Network Information Center (CNNIC). Statistical Report on Internet Development in China[R/OL]. [2015-02-03]. http:// www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201502/P020150203548852631921.pdf.)
[2] Silverstein C, Henzinger M, Marais H, et al. Analysis of a Very Large Web Search Engine Query Log [J]. ACM SIGIR Forum, 1998, 33(1): 6-12.
[3] Jansen B J, Spink A, Saracevic T. Real Life, Real Users, and Real Needs: A Study and Analysis of User Queries on the Web [J]. Information Processing & Management, 2000, 36(2): 207-227.
[4] 郭岩, 白硕, 杨志峰, 等. 网络日志规模分析和用户兴趣挖掘[J]. 计算机学报, 2005, 28(9): 1483-1496. (Guo Yan, Bai Shuo, Yang Zhifeng, et al. Analyzing Scale of Web Logs and Mining Users' Interests [J]. Chinese Journal of Computers, 2005, 28(9): 1483-1496.)
[5] 余慧佳, 刘奕群, 张敏, 等. 基于大规模日志分析的搜索引擎用户行为分析[J]. 中文信息学报, 2007, 21(1): 109-114. (Yu Huijia, Liu Yiqun, Zhang Min, et al. Research in Search Engine User Behavior Based on Log Analysis [J]. Journal of Chinese Information Processing, 2007, 21(1): 109-114.)
[6] 陈红涛, 杨放春, 陈磊. 基于大规模中文搜索引擎的搜索日志挖掘[J]. 计算机应用研究, 2008, 25(6): 1663-1665. (Chen Hongtao, Yang Fangchun, Chen Lei. Mining Query Log of Large-scale Chinese Search Engine [J]. Application Research of Computers, 2008, 25(6): 1663-1665.)
[7] 赖茂生, 屈鹏. 搜索引擎查询日志的词性标注和挖掘研究[J]. 现代图书情报技术, 2009(4): 50-56. (Lai Maosheng, Qu Peng. The POS & Mining Study on Search Engine's Query Log [J]. New Technology of Library and Information Service, 2009(4): 50-56.)
[8] 刘志杰, 吕学强, 程涛. 搜索引擎日志中"N1+N2"型名词短语研究[J]. 现代图书情报技术, 2010(12): 58-63. (Liu Zhijie, Lv Xueqiang, Cheng Tao. Study on Noun Phrase of "N1+ N2" Structure in Search Engine Query Logs [J]. New Technology of Library and Information Service, 2010(12): 58-63.)
[9] 赵红改, 肖诗斌, 王洪俊, 等. 搜索引擎日志中"N+V"型主谓短语研究[J]. 中文信息学报, 2011, 25(5): 24-29. (Zhao Honggai, Xiao Shibin, Wang Hongjun, et al. Study on Subject-predicate Phrase of "N+V" Structure in Search Engine Query Logs [J]. Journal of Chinese Information Processing, 2011, 25(5): 24-29.)
[10] 马少平, 刘奕群, 刘健, 等.中文搜索引擎用户行为的演化分析[J]. 中文信息学报, 2011, 25(6): 90-97. (Ma Shaoping, Liu Yiqun, Liu Jian, et al. Dynamic Analysis of Chinese Search Engine User Behavior [J]. Journal of Chinese Information Processing, 2011, 25(6): 90-97.)
[11] 唐涛. 基于搜索引擎日志分析的网络舆情监测方法研究[J]. 情报杂志, 2012, 31(8): 27-30. (Tang Tao. Research on Method of Monitoring Net-Mediated Public Sentiment Based on Analysis of Search Engine Logs [J]. Journal of Intelligence, 2012, 31(8): 27-30.)
[12] 董志安, 吕学强. 基于百度搜索日志的用户行为分析[J].计算机应用与软件, 2013, 30(7): 17-20. (Dong Zhian, Lv Xueqiang. User Behavior Analyses Based on Baidu Search Logs [J]. Computer Applications and Software, 2013, 30(7): 17-20.)
[13] 岑荣伟, 刘奕群, 张敏, 等. 基于日志挖掘的搜索引擎用户行为分析[J]. 中文信息学报, 2010, 24(3): 49-54.(Cen Rongwei, Liu Yiqun, Zhang Min, et al. Search Engine User Behavior Analysis Based on Log Mining [J]. Journal of Chinese Information Processing, 2010, 24(3): 49-54.)
[14] 姚婷, 张敏, 刘奕群, 等. 低频查询的用户行为分析和类别研究[J]. 计算机研究与发展, 2012, 49(11): 2368-2375. (Yao Ting, Zhang Min, Liu Yiqun, et al. Empirical Study on Rare Query Categorization [J]. Journal of Computer Research and Development, 2012, 49(11): 2368-2375.)
[15] 周婷婷. 基于海量查询日志的数据挖掘及用户行为分析[D]. 北京: 北京邮电大学, 2012. (Zhou Tingting. Data Mining and User Behavior Analysis Based on the Massive Query Log [D]. Beijing: Beijing University of Posts and Telecommunications, 2012.)
[16] 段建勇, 徐骥超, 张梅. 网络日志中查询串语义关系挖掘及其应用研究[J]. 现代图书情报技术, 2012(1): 58-62. (Duan Jianyong, Xu Jichao, Zhang Mei. Query Semantic Relation Mining from Web Log and Its Application [J]. New Technology of Library and Information Service, 2012(1): 58-62.)

[1] 王鸿, 舒展, 高印权, 田文洪. 一种单分类器联合多任务网络的隐式句间关系分析方法*[J]. 数据分析与知识发现, 2021, 5(11): 80-88.
[2] 吴彦文, 蔡秋亭, 刘智, 邓云泽. 融合多源数据和场景相似度计算的数字资源推荐研究*[J]. 数据分析与知识发现, 2021, 5(11): 114-123.
[3] 李振宇, 李树青. 嵌入隐式相似群的深度协同过滤算法*[J]. 数据分析与知识发现, 2021, 5(11): 124-134.
[4] 董淼, 苏中琪, 周晓北, 兰雪, 崔志刚, 崔雷. 利用Text-CNN改进PubMedBERT在化学诱导性疾病实体关系分类效果的尝试[J]. 数据分析与知识发现, 2021, 5(11): 145-152.
[5] 余传明, 张贞港, 孔令格. 面向链接预测的知识图谱表示模型对比研究*[J]. 数据分析与知识发现, 2021, 5(11): 29-44.
[6] 丁浩, 艾文华, 胡广伟, 李树青, 索炜. 融合用户兴趣波动时序的个性化推荐模型*[J]. 数据分析与知识发现, 2021, 5(11): 45-58.
[7] 华斌, 吴诺, 贺欣. 基于知识融合的政务信息化项目多专家审批意见整合*[J]. 数据分析与知识发现, 2021, 5(10): 124-136.
[8] 王媛, 时恺泽, 牛振东. 一种用于实体关系三元组抽取的位置辅助分步标记方法*[J]. 数据分析与知识发现, 2021, 5(10): 71-80.
[9] 杨辰, 陈晓虹, 王楚涵, 刘婷婷. 基于用户细粒度属性偏好聚类的推荐策略*[J]. 数据分析与知识发现, 2021, 5(10): 94-102.
[10] 戴志宏, 郝晓玲. 上下位关系抽取方法及其在金融市场的应用*[J]. 数据分析与知识发现, 2021, 5(10): 60-70.
[11] 汪雪锋, 任惠超, 刘玉琴. 融合聚类信息的技术主题图可视化方法研究 [J]. 数据分析与知识发现, 0, (): 1-.
[12] 王一钒,李博,史话,苗威,姜斌. 古汉语实体关系联合抽取的标注方法*[J]. 数据分析与知识发现, 2021, 5(9): 63-74.
[13] 车宏鑫,王桐,王伟. 前列腺癌预测模型对比研究*[J]. 数据分析与知识发现, 2021, 5(9): 107-114.
[14] 周阳,李学俊,王冬磊,陈方,彭莉娟. 炸药配方设计知识图谱的构建与可视分析方法研究*[J]. 数据分析与知识发现, 2021, 5(9): 42-53.
[15] 马江微, 吕学强, 游新冬, 肖刚, 韩君妹. 融合BERT与关系位置特征的军事领域关系抽取方法*[J]. 数据分析与知识发现, 2021, 5(8): 1-12.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn