Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (4): 10-17     https://doi.org/10.11925/infotech.1003-3513.2015.04.02
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
查询主题分类方法研究
刘峰1, 李煜2, 吕学强2, 李卓2
1 公安部第一研究所 北京 100048;
2 北京信息科技大学网络文化与数字传播北京市重点实验室 北京 100101
Research on Query Topic Classification Method
Liu Feng1, Li Yu2, Lv Xueqiang2, Li Zhuo2
1 First Research Institute of the Ministry of Public Security of P.R.C, Beijing 100048, China;
2 Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100101, China
全文: PDF (606 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的]通过对查询串进行扩展, 实现查询串的主题分类。[方法]利用伪相关反馈技术得到查询串扩展文本抽取文本特征, 并提出一种向量空间压缩算法对特征进行融合, 分别利用向量余弦夹角和SVM模型对其进行分类。[结果]实验结果中正确率、召回率、F值和整体正确率分别达到90.34%、89.34%、89.67%和89.24%。[局限]根据搜索引擎返回结果进行查询扩展, 在线处理效率不高。[结论]该方法对查询主题分类是有效的, 并且利用机器学习方法比利用余弦夹角有更好的效果, 且对于提高搜索引擎质量有重要意义。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
李卓
刘峰
吕学强
李煜
关键词 查询串主题分类伪相关反馈查询扩展向量空间压缩算法    
Abstract

[Objective] Expand the queries to get the query topic. [Methods] Get the query expansion text by using the pseudo-feedback technology, extract the text features and combine them by the proposed partial matching rules and vector space compression algorithm. In the end, the query topic classification can be done by the Cosine Include Angle and SVM. [Results] The precision can reach 90.34%, the recall rate is 89.34%, the F value is 89.67% and the accuracy is 89.24%. [Limitations] Online processing efficiency is not high because of expanding the queries using the searching results. [Conclusions] The proposed method is effective in query topic classification. Using the machine learning method can get the better experimental results than the Cosine Include Angle and it is significative for improving the quality of search engine.

Key wordsQuery topic classification    Pseudo feedback    Query expansion    Vector space compression algorithm
收稿日期: 2014-09-19      出版日期: 2015-05-21
:  TP391  
基金资助:

本文系国家自然科学基金项目“基于本体的专利自动标引研究”(项目编号:61271304)、国家科技支撑计划项目“基于重点目标自动跟踪采集技术的智能视频监控系统研发”(项目编号:2013BAK02B02)和北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目“面向领域的互联网多模态信息精准搜索方法研究”(项目编号:KZ201311232037)的研究成果之一。

通讯作者: 刘峰,ORCID:0000-0002-5178-6766,E-mail:phoeny_liu@126.com     E-mail: phoeny_liu@126.com
作者简介: 作者贡献声明: 刘峰:提出研究思路,设计研究方案,辅助实验;李煜:采集清洗分析数据,进行实验,撰写论文;吕学强:论文最终版本修订;李卓:论文修改与审查。
引用本文:   
刘峰, 李煜, 吕学强, 李卓. 查询主题分类方法研究[J]. 现代图书情报技术, 2015, 31(4): 10-17.
Liu Feng, Li Yu, Lv Xueqiang, Li Zhuo. Research on Query Topic Classification Method. New Technology of Library and Information Service, 2015, 31(4): 10-17.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.04.02      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2015/V31/I4/10

[1] 张宇, 宋巍, 刘挺, 等. 基于URL主题的查询分类方法[J]. 计算机研究与发展, 2012, 49(6): 1298-1305. (Zhang Yu, Song Wei, Liu Ting, et al. Query Classification Based on URL Topic [J]. Journal of Computer Research and Development, 2012, 49(6): 1298-1305.)
[2] 余慧佳, 刘奕群, 张敏, 等. 基于大规模日志分析的搜索引擎用户行为分析[J]. 中文信息学报, 2007, 21(1): 109-114. (Yu Huijia, Liu Yiqun, Zhang Min, et al. Research in Search Engine User Behavior Based on Log Analysis[J]. Journal of Chinese Information Processing, 2007, 21(1): 109-114.)
[3] 付博, 赵世奇, 刘挺. Web 查询日志研究综述[J].电子学报, 2013, 40(9): 1800-1808. (Fu Bo, Zhao Shiqi, Liu Ting. Research on Analysis and Mining of Web Query Logs [J]. Acta Electronica Sinica, 2013, 40(9): 1800-1808.)
[4] Broder A. A Taxonomy of Web Search [J]. ACM SIGIR Forum, 2002, 36(2): 3-10.
[5] 陆伟, 周红霞, 张晓娟. 查询意图研究综述[J]. 中国图书馆学报, 2013, 39 (1): 100-111. (Lu Wei, Zhou Hongxia, Zhang Xiaojuan. Review of Research on Query Intent [J]. Journal of Library Science in China, 2013, 39(1): 100-111.)
[6] Shen D, Pan R, Sun J, et al. Query Enrichment for Web-query Classification [J]. ACM Transactions on Information Systems, 2006, 24(3): 320-352.
[7] Broder A Z, Fontoura M, Gabrilovich E, et al. Robust Classification of Rare Queries Using Web Knowledge[C]. In: Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'07). New York: ACM, 2007: 231-238.
[8] Shen D, Li Y, Li X, et al. Product Query Classification[C]. In: Proceedings of the 18th ACM Conference on Information and Knowledge Management (CIKM'09). New York: ACM, 2009: 741-750.
[9] Poli R, Healy M, Kameas A. Theory and Applications of Ontology: Computer Applications [M]. Dordrecht: Springer, 2010.
[10] Hu J, Wang G, Lochovsky F, et al. Understanding User's Query Intent with Wikipedia [C]. In: Proceedings of the 18th International Conference on World Wide Web (WWW'09). New York: ACM, 2009: 471-480.
[11] Beitzel S M, Jensen E C, Lewis D D, et al. Automatic Classification of Web Queries Using Very Large Unlabeled Query Logs [J]. ACM Transactions on Information Systems, 2007, 25(2): Article No.9.
[12] 夏火松, 刘建. 基于VSM 的文本分类挖掘算法综述[J].情报探索, 2010(9): 18-21. (Xia Huosong, Liu Jian. Review of Mining Text Classification Based on SVM [J]. Information Research, 2010 (9): 18-21.)
[13] 罗玉华, 左军, 李岩. SVM及其在文本分类中的应用[J]. 科技信息, 2010(3): 49-50. (Luo Yuhua, Zuo Jun, Li Yan. SVM and the Application in Text Classification [J]. Science and Technology Information, 2010(3): 49-50.)
[14] 郭红钰. 基于信息熵理论的特征权重算法研究[J]. 计算机工程与应用, 2013, 49(10): 140-146. (Guo Hongyu. Research on Term Weighting Algorithm Based on Information Entropy Theory [J]. Computer Engineering and Applications, 2013, 49(10): 140-146.)

[1] 黄名选,蒋曹清,卢守东. 基于词嵌入与扩展词交集的查询扩展*[J]. 数据分析与知识发现, 2021, 5(6): 115-125.
[2] 黄名选, 马瑞兴, 兰慧红. 面向查询扩展的特征词频繁项集挖掘算法[J]. 现代图书情报技术, 2011, 27(4): 48-51.
[3] 冯平, 黄名选. 特征词抽取和相关性融合的伪相关反馈查询扩展[J]. 现代图书情报技术, 2011, 27(1): 52-56.
[4] 杨静,王亚民. 基于查询扩展和节点聚合的P2P搜索方法[J]. 现代图书情报技术, 2009, (9): 51-56.
[5] 张玉连,刘娟,齐峰,周兴林. 基于摘要和日志中相关词共现策略的移动查询扩展*[J]. 现代图书情报技术, 2009, (10): 40-44.
[6] 张克状,刘友华,黄芳,李寅. 一种面向用户兴趣的个性化语义查询扩展方法[J]. 现代图书情报技术, 2008, 24(8): 48-52.
[7] 曾新红,林伟明,明仲. 中文叙词表本体的检索实现及其术语学服务研究*[J]. 现代图书情报技术, 2008, 24(2): 8-13.
[8] 陈燕红,黄名选. 基于Apriori改进算法的局部反馈查询扩展[J]. 现代图书情报技术, 2007, 2(9): 84-87.
[9] 聂卉 . 基于本体的查询扩展与规范[J]. 现代图书情报技术, 2007, 2(3): 35-38.
[10] 黄名选,陈燕红,张师超. 基于关联规则挖掘的查询扩展模型研究[J]. 现代图书情报技术, 2007, 2(10): 47-51.
[11] 杭月芹,姚滢,沈洁 . 基于单文档的上下文查询信息抽取*[J]. 现代图书情报技术, 2006, 1(10): 30-33.
[12] 陈定权. 信息检索系统中的用户相关反馈机制[J]. 现代图书情报技术, 2002, 18(4): 33-35.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn