Please wait a minute...
Advanced Search
现代图书情报技术  2009, Vol. 25 Issue (4): 50-56     https://doi.org/10.11925/infotech.1003-3513.2009.04.10
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
搜索引擎查询日志的词性标注和挖掘研究
赖茂生 屈鹏
(北京大学信息管理系 北京 100871)
The POS &|Mining Study on Search Engine’s Query Log
Lai Maosheng  Qu Peng
(Department of Information Management, Peking University, Beijing 100871, China)
全文: PDF (455 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

利用搜狗(Sogou)2007年3月的查询日志,使用词性标注方法,得出高频词性标注结果的分布特征。发现用户在查询中以使用名词为主,动词为辅,鲜有其它词类出现在高频词性标注结果中。以“的”为代表的虚词较少地出现在高频词性标注结果中。网络搜索的查询式与自然语言在句法上存在一定差异,但也有相通之处。用户主要使用名词进行概念性检索,关键词仍为用户进行检索的主要手段。高频词性标注结果部分符合Zipf定律。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
赖茂生
屈鹏
关键词 日志挖掘词性标注语言行为词性分布查询句法    
Abstract

The paper analyzes the query logs in March, 2007, from Sogou search engine. POS tagging is used to get the characters of high frequency POS results. Web users use nouns as primary and verbs as complementary methods in Web queries; but other parts of speech seldom appear in the queries. The empty words in natural language, such as “的”, do not appear in the high frequency POS results very often. Queries in the Web searching are different from natural language in syntax to a certain degree and they have shared characters at the same time. Web users’ use nouns to do concept-focused retrieval and keywords are still the primary method to search on the Web. The high frequency results of POS tagging partially obey the Zipf’s law.

Key wordsLog mining    Part-of-speech tagging    Language behavior    POS distribution    Query syntax
收稿日期: 2009-02-16      出版日期: 2009-04-25
: 

G352

 
通讯作者: 屈鹏     E-mail: pqu@pku.edu.cn
作者简介: 赖茂生,屈鹏
引用本文:   
赖茂生,屈鹏. 搜索引擎查询日志的词性标注和挖掘研究[J]. 现代图书情报技术, 2009, 25(4): 50-56.
Lai Maosheng,Qu Peng. The POS &|Mining Study on Search Engine’s Query Log. New Technology of Library and Information Service, 2009, 25(4): 50-56.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2009.04.10      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2009/V25/I4/50

[1] 赖茂生, 屈鹏. 网络搜索中语言使用特征研究 [J]. 现代图书情报技术, 2008(7): 47-53.
[2] Jansen B J, Spink A, SarcevicT. Real Life, Real Users, and Real Needs: A Study and Analysis of User Queries on the Web [J]. Information Processing and Management, 2000, 36(2): 207-227.
[3] Spink A, Jansen B J, Wolfman D, et al. 2002. From E-sex to E-commerce: Web Search Changes [J]. IEEE Computer, 35(3): 133-135.
[4] Jansen B J, Spink A. How are We Searching the World Wide Web? A Comparison of Nine Search Engine Transaction Logs [J]. Information Processing and Management, 2006, 42(1): 248-263.
[5] Rieh S Y, Xie, H I. Analysis of Multiple Query Reformulations on the Web: the Interactive Information Retrieval Context[J]. Information Processing and Management, 2006, 42(3): 751-768.
[6] 王继民, 彭波. 搜索引擎用户点击行为分析 [J]. 情报学报, 2006, 25(2): 154-162.
[7] 王继民, 孟涛. Web搜索引擎日志挖掘研究 [R/OL] // 中国人搜索行为研究实验室年度报告2006. 北京: 北京大学信息管理系, 2006: 35-48. [2008-08-22]. http://www.searchlab.com.cn/web/thesis/thesis_151.html.
[8] 余慧佳, 刘奕群, 张敏, 等. 基于大规模日志分析的搜索引擎用户行为分析 [J]. 中文信息学报, 2007, 21(1): 109-114.
[9] 郭岩, 白硕, 杨志峰, 等. 网络日志规模分析和用户兴趣挖掘 [J]. 计算机学报, 2005, 28(9): 1483-1496.
[10] 李亚楠, 王斌. 一个中文搜索引擎的查询日志分析 [J]. 数字图书馆论坛, 2008(7): 2-10.
[11] Jurafsky D, Martin J H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition [M]. Upper Saddle River: Prentice Hall, 2000.
[12] 中文Web信息检索论坛. 天网相关工具 [CP/OL]. (2004-12-06). [2008-07-25]. http://www.cwirf.org/.
[13] 中文自然语言处理开放平台ICTCLAS [CP/OL]. [2008-07-05]. http://www.nlp.org.cn/.
[14] 词性标记集汇总 [EB/OL]. [2008-07-25]. http://nlp.org.cn/~liuqun/research/publications/%BA%BA%D3%EF%B4%CA%D0%D4%B1%EA%BC%C7%BC%AF%B6%D4%D5%D5%B1%ED.xls.

[1] 张琪,江川,纪有书,冯敏萱,李斌,许超,刘浏. 面向多领域先秦典籍的分词词性一体化自动标注模型构建*[J]. 数据分析与知识发现, 2021, 5(3): 2-11.
[2] 袁悦,王东波,黄水清,李斌. 不同词性标记集在典籍实体抽取上的差异性探究*[J]. 数据分析与知识发现, 2019, 3(3): 57-65.
[3] 陈润文, 邱勇, 黄文彬, 王军. 基于日志分析的民办高校大学生网络生活类型研究[J]. 数据分析与知识发现, 2017, 1(8): 31-38.
[4] 童国平, 孙建军. 基于搜索日志的用户行为分析[J]. 现代图书情报技术, 2015, 31(7-8): 80-88.
[5] 谷威, 李超凡, 王洪俊, 肖诗斌, 施水才. 专利检索日志的同义词获取[J]. 现代图书情报技术, 2015, 31(2): 24-30.
[6] 强韶华, 吴鹏. 地域性差异视角下的网站分类用户心智模型空间性研究[J]. 现代图书情报技术, 2015, 31(11): 68-74.
[7] 王继民, 李雷明子, 张鹏. 搜索引擎日志挖掘领域的论文合著网络分析[J]. 现代图书情报技术, 2011, 27(4): 58-63.
[8] 朱玲, 聂华. 通过日志挖掘研究图书馆资源发现服务用户的搜索行为[J]. 现代图书情报技术, 2011, 27(12): 74-78.
[9] 阴晋岭,王惠临. 词性标注的方法研究*——结合条件随机场和基于转换学习的方法进行词性标注[J]. 现代图书情报技术, 2009, 3(3): 46-51.
[10] 饶洋辉,叶良,程洁. WordNet在文本聚类中的应用研究*[J]. 现代图书情报技术, 2009, (10): 67-70.
[11] 赖茂生,屈鹏. 网络搜索中语言使用特征研究[J]. 现代图书情报技术, 2008, 24(7): 47-53.
[12] 王媛媛,钟永恒 . 基于SQL Server 2005的Web日志挖掘系统构建[J]. 现代图书情报技术, 2006, 1(5): 58-61.
[13] 柳胜国. Web日志挖掘数据预处理方法研究  [J]. 现代图书情报技术, 2004, 20(12): 55-57.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn