Please wait a minute...
Advanced Search
现代图书情报技术  2014, Vol. 30 Issue (3): 65-72     https://doi.org/10.11925/infotech.1003-3513.2014.03.10
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
面向用户意图的智能搜索引擎框架研究
郑炜1, 梁战平1,2, 梁建3
1 北京大学信息管理系 北京 100871;
2 中国科学技术信息研究所 北京 100038;
3 科学技术部信息中心 北京 100038
Research on the Framework of a User Intent-oriented Intelligent Search Engine
Zheng Wei1, Liang Zhanping1,2, Liang Jian3
1 Department of Information Management, Peking University, Beijing 100871, China;
2 Institute of Scientific & Technical Information of China, Beijing 100038, China;
3 Information Center of Ministry of Science and Technology, Beijing 100038, China
全文: PDF (670 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的] 提出一套基于用户搜索意图的智能搜索引擎系统框架理念,并研究核心排序算法。[方法] 基于用户搜索意图从内容存储、内容检索以及内容排名三个方面出发对搜索引擎算法进行重构,并在内容排名算法中综合考虑内容的相关性、可靠性、多样性以及热度等因素。[结果] 实验表明基于意图的智能搜索算法与传统的基于关键字的搜索算法相比返回结果的相关度更高,而且高相关度表现具有较高的稳定性,处于对传统方法的支配地位。[局限] 构建智能搜索引擎是一个庞大的工程,还有诸多技术和工程问题没有深入研究和解决。搜索排序算法还需要进行大量的实验进行验证和改进。[结论] 本研究为构建新一代基于意图的智能搜索引擎奠定基础。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
梁战平
梁建
郑炜
关键词 智能搜索用户建模检索排序    
Abstract

[Objective] This paper proposes a framework of the intent-oriented intelligent search engine system, and studies the key content ranking algorithm in detail. [Methods] This paper reinvents the search engine algorithms based on the user search intent in three aspects, i.e., content storage, content retrieval and content ranking, and considers multiple factors in the content ranking algorithm, including relevance, reliability, variety and hotness of the content. [Results] Experiments indicate that the relavence of the search results from the intent-based intelligent search algorithm has stably better performance which dominates the traditional keywords-based algorithm. [Limitations] Building intelligent search engine is so complicated that there are still many technical and engineering problems to resolve. Much more experiments need to be conducted to futher verify and improve the content ranking algorithm. [Conclusions] This research lays a foundation of building the next generation intent-oriented intelligent search engine.

Key wordsIntelligent search    User modeling    Retrieval    Ranking
收稿日期: 2013-09-29      出版日期: 2014-04-15
:  TP393  
通讯作者: 郑炜 E-mail:billz109@sina.com     E-mail: billz109@sina.com
作者简介: 作者贡献声明:郑炜: 设计研究方案,研究过程实施(包括实验),论文起草和最终修订;梁战平: 提出研究思路,实验方案设计;梁建: 实验数据获取,论文修订。
引用本文:   
郑炜, 梁战平, 梁建. 面向用户意图的智能搜索引擎框架研究[J]. 现代图书情报技术, 2014, 30(3): 65-72.
Zheng Wei, Liang Zhanping, Liang Jian. Research on the Framework of a User Intent-oriented Intelligent Search Engine. New Technology of Library and Information Service, 2014, 30(3): 65-72.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2014.03.10      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2014/V30/I3/65

[1] 李子臣. 搜索技术的现状及发展前景[J]. 情报科学, 2007, 25(7): 1114-1120.(Li Zichen. The Present Situation and the Development Foreground of Seeking Technique [J]. Information Science, 2007, 25(7): 1114-1120.)

[2] Vise D A, Malseed M. The Google Story [M]. New York: Delacorte Press, 2005.

[3] Brin S, Page L. The Anatomy of a Large-scale Hypertextual Web Search Engine [J]. Computer Networks and ISDN Systems, 1998, 30 (1-7): 107-117.

[4] Page L, Brin S, Motwani R, et al. The PageRank Citation Ranking: Bringing Order to the Web [EB/OL]. [2013-08-08]. http://ilpubs.stanford.edu:8090/422.

[5] 张立彬, 杨军花, 杨琴茹. 第三代搜索引擎的研究现状及其发展趋向探析[J]. 情报理论与实践, 2008, 31(5): 785-789.(Zhang Libin, Yang Junhua, Yang Qinru. Probe into the Research Status and Developing Trend of the Third Generation Search Engines [J]. Information Studies: Theory and Application, 2008, 31(5): 785-789.)

[6] 傅欣. 第三代搜索引擎的智能化趋势研究[J]. 现代图书情报技术, 2002(6): 28-30. (Fu Xin. Studies on Intelligent Trends in Third Generation Search Engines [J]. New Technology of Library and Information Service, 2002(6): 28-30.)

[7] 陈林, 杨丹, 赵俊芹. 基于语义理解的智能搜索引擎研究[J]. 计算机科学, 2008, 35(6): 152-154. (Chen Lin, Yang Dan, Zhao Junqin. Research on Intelligent Search Engine Based on Semantic Comprehension [J]. Computer Science, 2008, 35(6): 152-154.)

[8] 杨艺, 周元. 基于用户查询意图识别的Web搜索优化模型[J]. 计算机科学, 2012, 39(1): 264-267. (Yang Yi, Zhou Yuan. Web Retrieval Optimization Model Based on User's Query Intention Identification [J]. Computer Science, 2012, 39(1): 264-267.)

[9] Jansen B J, Booth D L, Spink A. Determining the User Intent of Web Search Engine Queries [C]. In: Proceedings of the 16th International Conference on World Wide Web. New York: ACM, 2007: 1149-1150.

[10] 林国, 李伟超. 个性化搜索引擎中用户兴趣模型研究[J]. 软件导刊, 2012, 11(8): 26-28. (Lin Guo, Li Weichao. Research on User Profile in Personalized Search Engine [J]. Software Guide, 2012, 11(8): 26-28.)

[11] MacKay D. Information Theory, Inference, and Learning Algorithms [M]. UK: Cambridge University Press, 2003: 284-292.

[12] Rice J A. Mathematical Statistics and Data Analysis [M]. The 3rd Edition.Belmont: Thomson Brooks/Cole, 2006.

[13] Goldwater S, Griffiths T L, Johnson M. A Bayesian Framework for Word Segmentation: Exploring the Effects of Context [J]. Cognition, 2009, 112(1): 21-54.

[14] Zhang T, Ramakrishnan R, Livny M. BIRCH: An Efficient Data Clustering Method for Very Large Databases [J]. ACM SIGMOD Record, 1996, 25(2): 103-114.

[15] 陈宝林. 最优化理论与算法 [M].第2版.北京: 清华大学出版社, 2005. (Chen Baolin. Optimization Theory and Algo- rithms [M]. The 2nd Edition.Beijing: Tsinghua University Press, 2005.)

[16] 黄名选, 陈燕红. 关联规则挖掘技术研究 [J]. 情报杂志, 2008,27(4): 119-121,115. (Huang Mingxuan, Chen Yanhong. Studies on Association Rules Mining Techniques[J].Journal of Intelligence, 2008,27(4):119-121,115.)

[17] Wu H, Luk R W P, Wong K F, et al. Interpreting TF-IDF Term Weights as Making Relevance Decisions [J]. ACM Transactions on Information Systems (TOIS), 2008, 26(3): Article No.13.

[18] Tan P, Steinbach M, Kumar V. Introduction to Data Mining [M]. Boston: Pearson Addison-Wesley, 2005.

[19] Herlocker J L, Konstan J A, Terveen L G, et al. Evaluating Collaborative Filtering Recommender Systems[J].ACM Transactions on Information Systems (TOIS), 2004, 22(1): 5-53.

[20] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation [J]. The Journal of Machine Learning Research, 2003,3: 993-1022.

[21] Wikipedia. Jaccard Index [EB/OL]. [2013-10-08]. http://en. wikipedia.org/wiki/Jaccard_index.

[1] 黄名选,蒋曹清,卢守东. 基于词嵌入与扩展词交集的查询扩展*[J]. 数据分析与知识发现, 2021, 5(6): 115-125.
[2] 孟镇,王昊,虞为,邓三鸿,张宝隆. 基于特征融合的声乐分类研究*[J]. 数据分析与知识发现, 2021, 5(5): 59-70.
[3] 卢利农,祝忠明,张旺强,王小春. 基于Lingo3G聚类算法的机构知识库跨库知识整合与知识指纹服务实现[J]. 数据分析与知识发现, 2021, 5(5): 127-132.
[4] 李跃艳,王昊,邓三鸿,王伟. 近十年信息检索领域的研究热点与演化趋势研究——基于SIGIR会议论文的分析[J]. 数据分析与知识发现, 2021, 5(4): 13-24.
[5] 徐以聪,田学东,李新福,杨芳,史青宣. 基于犹豫模糊权重的数学表达式检索 *[J]. 数据分析与知识发现, 2020, 4(7): 118-126.
[6] 李轲禹,王昊,龚丽娟,唐慧慧. 学术数据库中研究主题术语的质量测度及分布研究*[J]. 数据分析与知识发现, 2020, 4(6): 91-108.
[7] 邓思艺,乐小虬. 基于动态语义注意力的指代消解方法[J]. 数据分析与知识发现, 2020, 4(5): 46-53.
[8] 朱路,田晓梦,曹赛男,刘媛媛. 基于高阶语义相关的子空间跨模态检索方法研究*[J]. 数据分析与知识发现, 2020, 4(5): 84-91.
[9] 熊欣,王昊,张海潮,张宝隆. 中文术语粒度对其区分能力测度的影响分析*[J]. 数据分析与知识发现, 2020, 4(2/3): 143-152.
[10] 宰新宇,田学东. 基于公式描述结构和词嵌入的科技文档检索方法*[J]. 数据分析与知识发现, 2020, 4(1): 131-138.
[11] 黄名选,卢守东,徐辉. 基于加权关联模式挖掘与规则后件扩展的跨语言信息检索 *[J]. 数据分析与知识发现, 2019, 3(9): 77-87.
[12] 易明,张婷婷. 大众性问答社区答案质量排序方法研究*[J]. 数据分析与知识发现, 2019, 3(6): 12-20.
[13] 叶光辉,杨金庆. 基于城市地名实体双向链接分析的路线推荐研究 *[J]. 数据分析与知识发现, 2019, 3(11): 79-88.
[14] 许鹏程,毕强. 基于知识超网络的领域专家识别研究[J]. 数据分析与知识发现, 2019, 3(11): 89-98.
[15] 孙海霞, 王蕾, 吴英杰, 华薇娜, 李军莲. 科技文献数据库中机构名称匹配策略研究*[J]. 数据分析与知识发现, 2018, 2(8): 88-97.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn