Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (7-8): 80-88    DOI: 10.11925/infotech.1003-3513.2015.07.11
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于搜索日志的用户行为分析
童国平, 孙建军
南京大学信息管理学院 南京 210093
User Behavior Analysis Based on Search Engine Log
Tong Guoping, Sun Jianjun
School of Information Management, Nanjing University, Nanjing 210093, China
全文: PDF(3069 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

目的】利用搜索引擎日志数据对用户查询行为特征进行分析。【方法】采用分词、统计分析、聚类分析、可视化等方法, 分别从用户的查询串、查询方式、查询主题、查询点击行为和用户类型5个方面对用户使用搜索引擎时的行为特征进行分析。【结果】发现搜索用户偏好使用2-5个中文名词短语组成的查询串; 更少使用口语化查询, 不爱使用高级检索功能; 查询用词变得多样化; 查询时间存在高峰低谷; 再次证实存在"翘尾现象"。【局限】使用的数据量不够大, 没有结合用户详细信息进行分析。【结论】使用搜索引擎日志可以获得用户行为特征, 并能为改善搜索引擎提供一些建议。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
Abstract

[Objective] This paper aims to analyse user behavior based on search engine log. [Methods] Analyse user behavior from query string, query methods, query subjects, user click behavior and user types by word segmentation, statistical analysis, clustering analysis and visualization. [Results] Search users prefer to use 2-5 Chinese noun phrases; Use less colloquial query strings; Dislike using advanced search functions; Perfer to use various query strings; There are peaks and valleys in the number of users. Up-tail phenomenon is confirmed once again in this research. [Limitations] The amount of data used in this paper is not big enough and details of user information is not considered. [Conclusions] Analysis on search engine log is beneficial to acquisition of user behavior characteristics and improving search performance.

收稿日期: 2015-02-04     
:  TP391  
基金资助:

本文系国家社会科学基金重大招标项目"面向学科领域的网络信息资源深度聚合与服务研究"(项目编号:12& ZD221)和国家自然科学基金项目"融合范式视角下的链接分析理论集成框架及其实证研究"(项目编号:71273125)的研究成果之一。

通讯作者: 童国平, ORCID: 0000-0003-3351-5708, E-mail: 313928468@qq.com。     E-mail: 313928468@qq.com
作者简介: 作者贡献声明: 童国平: 数据的获取与分析, 论文起草; 孙建军: 研究命题的提出、设计, 论文最终版本修订。
引用本文:   
童国平, 孙建军. 基于搜索日志的用户行为分析[J]. 现代图书情报技术, 2015, 31(7-8): 80-88.
Tong Guoping, Sun Jianjun. User Behavior Analysis Based on Search Engine Log. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2015.07.11.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.07.11

[1] 中国互联网络信息中心. 中国互联网络发展状况统计报告[R/OL]. [2015-02-03]. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/ hlwtjbg/201502/P020150203548852631921.pdf. (China Internet Network Information Center (CNNIC). Statistical Report on Internet Development in China[R/OL]. [2015-02-03]. http:// www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201502/P020150203548852631921.pdf.)
[2] Silverstein C, Henzinger M, Marais H, et al. Analysis of a Very Large Web Search Engine Query Log [J]. ACM SIGIR Forum, 1998, 33(1): 6-12.
[3] Jansen B J, Spink A, Saracevic T. Real Life, Real Users, and Real Needs: A Study and Analysis of User Queries on the Web [J]. Information Processing & Management, 2000, 36(2): 207-227.
[4] 郭岩, 白硕, 杨志峰, 等. 网络日志规模分析和用户兴趣挖掘[J]. 计算机学报, 2005, 28(9): 1483-1496. (Guo Yan, Bai Shuo, Yang Zhifeng, et al. Analyzing Scale of Web Logs and Mining Users' Interests [J]. Chinese Journal of Computers, 2005, 28(9): 1483-1496.)
[5] 余慧佳, 刘奕群, 张敏, 等. 基于大规模日志分析的搜索引擎用户行为分析[J]. 中文信息学报, 2007, 21(1): 109-114. (Yu Huijia, Liu Yiqun, Zhang Min, et al. Research in Search Engine User Behavior Based on Log Analysis [J]. Journal of Chinese Information Processing, 2007, 21(1): 109-114.)
[6] 陈红涛, 杨放春, 陈磊. 基于大规模中文搜索引擎的搜索日志挖掘[J]. 计算机应用研究, 2008, 25(6): 1663-1665. (Chen Hongtao, Yang Fangchun, Chen Lei. Mining Query Log of Large-scale Chinese Search Engine [J]. Application Research of Computers, 2008, 25(6): 1663-1665.)
[7] 赖茂生, 屈鹏. 搜索引擎查询日志的词性标注和挖掘研究[J]. 现代图书情报技术, 2009(4): 50-56. (Lai Maosheng, Qu Peng. The POS & Mining Study on Search Engine's Query Log [J]. New Technology of Library and Information Service, 2009(4): 50-56.)
[8] 刘志杰, 吕学强, 程涛. 搜索引擎日志中"N1+N2"型名词短语研究[J]. 现代图书情报技术, 2010(12): 58-63. (Liu Zhijie, Lv Xueqiang, Cheng Tao. Study on Noun Phrase of "N1+ N2" Structure in Search Engine Query Logs [J]. New Technology of Library and Information Service, 2010(12): 58-63.)
[9] 赵红改, 肖诗斌, 王洪俊, 等. 搜索引擎日志中"N+V"型主谓短语研究[J]. 中文信息学报, 2011, 25(5): 24-29. (Zhao Honggai, Xiao Shibin, Wang Hongjun, et al. Study on Subject-predicate Phrase of "N+V" Structure in Search Engine Query Logs [J]. Journal of Chinese Information Processing, 2011, 25(5): 24-29.)
[10] 马少平, 刘奕群, 刘健, 等.中文搜索引擎用户行为的演化分析[J]. 中文信息学报, 2011, 25(6): 90-97. (Ma Shaoping, Liu Yiqun, Liu Jian, et al. Dynamic Analysis of Chinese Search Engine User Behavior [J]. Journal of Chinese Information Processing, 2011, 25(6): 90-97.)
[11] 唐涛. 基于搜索引擎日志分析的网络舆情监测方法研究[J]. 情报杂志, 2012, 31(8): 27-30. (Tang Tao. Research on Method of Monitoring Net-Mediated Public Sentiment Based on Analysis of Search Engine Logs [J]. Journal of Intelligence, 2012, 31(8): 27-30.)
[12] 董志安, 吕学强. 基于百度搜索日志的用户行为分析[J].计算机应用与软件, 2013, 30(7): 17-20. (Dong Zhian, Lv Xueqiang. User Behavior Analyses Based on Baidu Search Logs [J]. Computer Applications and Software, 2013, 30(7): 17-20.)
[13] 岑荣伟, 刘奕群, 张敏, 等. 基于日志挖掘的搜索引擎用户行为分析[J]. 中文信息学报, 2010, 24(3): 49-54.(Cen Rongwei, Liu Yiqun, Zhang Min, et al. Search Engine User Behavior Analysis Based on Log Mining [J]. Journal of Chinese Information Processing, 2010, 24(3): 49-54.)
[14] 姚婷, 张敏, 刘奕群, 等. 低频查询的用户行为分析和类别研究[J]. 计算机研究与发展, 2012, 49(11): 2368-2375. (Yao Ting, Zhang Min, Liu Yiqun, et al. Empirical Study on Rare Query Categorization [J]. Journal of Computer Research and Development, 2012, 49(11): 2368-2375.)
[15] 周婷婷. 基于海量查询日志的数据挖掘及用户行为分析[D]. 北京: 北京邮电大学, 2012. (Zhou Tingting. Data Mining and User Behavior Analysis Based on the Massive Query Log [D]. Beijing: Beijing University of Posts and Telecommunications, 2012.)
[16] 段建勇, 徐骥超, 张梅. 网络日志中查询串语义关系挖掘及其应用研究[J]. 现代图书情报技术, 2012(1): 58-62. (Duan Jianyong, Xu Jichao, Zhang Mei. Query Semantic Relation Mining from Web Log and Its Application [J]. New Technology of Library and Information Service, 2012(1): 58-62.)

[1] 李晓峰,马静,李驰,朱恒民. 基于XGBoost模型的电商商品品名识别算法研究 *[J]. 数据分析与知识发现, 2019, 3(7): 34-41.
[2] 尤众喜,华薇娜,潘雪莲. 中文分词器对图书评论和情感词典匹配程度的影响 *[J]. 数据分析与知识发现, 2019, 3(7): 23-33.
[3] 关鹏,王曰芬,傅柱. 基于LDA的主题语义演化分析方法研究 * ——以锂离子电池领域为例[J]. 数据分析与知识发现, 2019, 3(7): 61-72.
[4] 胡佳慧,方安,赵琬清,杨晨柳,任慧玲. 面向知识发现的中文电子病历标注方法
研究 *
[J]. 数据分析与知识发现, 2019, 3(7): 123-132.
[5] 孔贝贝,谢靖,钱力,常志军,吴振新. 科技大数据增值丰富化方法研究与工具研发 *[J]. 数据分析与知识发现, 2019, 3(7): 113-122.
[6] 范雪雪, 王志荣, 徐晤, 梁银, 马小虎. 基于医学本体的术语相似度算法研究[J]. 现代图书情报技术, 2015, 31(12): 57-64.
[7] 任海英, 于立婷. 一种基于维基百科的多策略词义消歧方法[J]. 现代图书情报技术, 2015, 31(11): 18-25.
[8] 杜坤, 刘怀亮, 郭路杰. 结合复杂网络的特征权重改进算法研究[J]. 现代图书情报技术, 2015, 31(11): 26-32.
[9] 叶川, 马静. 多媒体微博评论信息的主题发现算法研究[J]. 现代图书情报技术, 2015, 31(11): 51-59.
[10] 颉夏青, 吴旭. “经典阅读”网络平台可视化技术应用及实现[J]. 现代图书情报技术, 2015, 31(11): 96-103.
[11] 何宇, 吕学强, 徐丽萍. 新能源汽车领域中文术语抽取方法[J]. 现代图书情报技术, 2015, 31(10): 88-94.
[12] 杜思奇, 李红莲, 吕学强. 汉语组块分析在产品特征提取中的应用研究[J]. 现代图书情报技术, 2015, 31(9): 26-30.
[13] 许德山, 李辉, 张运良. 文献关键词链接标引方法研究[J]. 现代图书情报技术, 2015, 31(9): 31-37.
[14] 敦文杰, 孙一钢, 朱先忠. 互联网络电视多媒体文档格式设计与实现[J]. 现代图书情报技术, 2015, 31(9): 82-89.
[15] 陈诗琴, 李文江. WebSocket在图书馆移动信息服务中的应用[J]. 现代图书情报技术, 2015, 31(9): 90-96.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn