Please wait a minute...
Advanced Search
现代图书情报技术  2008, Vol. 24 Issue (7): 43-46     https://doi.org/10.11925/infotech.1003-3513.2008.07.09
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于用户查询关键词的网页去重方法研究
谢蕙 秦杰 胡双双
(河南工业大学信息科学与工程学院 郑州  450001)
The Study on the Duplicated Web Pages Detection Algorithm Based on the Keyword from User’s Submission
Xie Hui   Qin Jie   Hu Shuangshuang
(College of Information Science and Engineering,Henan University of Technology,Zhengzhou  450001,China)
全文: PDF (390 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

在研究传统的基于特征码去重算法的基础上,针对元搜索引擎中网页重复现象,提出一种基于用户查询关键词的网页去重方法,提高元搜索引擎检索质量,并且介绍算法的实现过程,通过实验验证算法的有效性。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
秦杰
胡双双
谢蕙
关键词 网页去重元搜索特征码中文分词    
Abstract

 Based on the study of the duplicated Web pages detection algorithm with feature code, the paper proposes a duplicated detection algorithm based on the keyword from user’s  submission for meta search engine. The main steps of algorithm are introduced. And this algorithm is tested and verified its validity in an experiment.

Key wordsDuplicate detection    Meta search    Feature code    Chinese word segmentation
收稿日期: 2008-03-27      出版日期: 2008-07-25
: 

TP285

 
通讯作者: 谢蕙     E-mail: xiehui0517@163.com
作者简介: 谢蕙,秦杰,胡双双
引用本文:   
谢蕙,秦杰,胡双双. 基于用户查询关键词的网页去重方法研究[J]. 现代图书情报技术, 2008, 24(7): 43-46.
Xie Hui,Qin Jie,Hu Shuangshuang. The Study on the Duplicated Web Pages Detection Algorithm Based on the Keyword from User’s Submission. New Technology of Library and Information Service, 2008, 24(7): 43-46.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2008.07.09      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2008/V24/I7/43

[1] Cho J,Shivakumar N, Garcia-Molina H.Finding Replicated Web Collections[C].In:Proceedings of the ACM International Conference on Management of the Data. USA:ACM Press, May 2000,29(2):355-366.
[2] 孔素然.基于模糊匹配思想的网页去重算法[D].上海:复旦大学,2006.
[3] 唐培丽,胡明,解飞.元搜索引擎研究[J].气象水文海洋仪器,2005(3):62-66.
[4] 刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177,182.
[5] Ye S, Song R, Wen J-R, et al. A Query-dependent Duplicate Detection Approach for Large Scale Search Engines[C]. In: Proceedings of the 6th Asia-Pacific Web Conference, 2004:48-58.
[6] Fetterly D, Manasse M, Najork M .On the Evolution of Clusters of Near-Duplicate Web Pages[C]. In:Proceedings of the 1st Conference on Latin American Web Congress, 2003:37-45.
[7] Ye S,Wen J R,Ma W Y.A Systematic Study on Parameter Correlations in Large-scale Duplicate Document Detection[J].Knowledge and Information Systems, 2008,14(2):217-232.

[1] 唐琳,郭崇慧,陈静锋. 中文分词技术研究综述*[J]. 数据分析与知识发现, 2020, 4(2/3): 1-17.
[2] 尤众喜,华薇娜,潘雪莲. 中文分词器对图书评论和情感词典匹配程度的影响 *[J]. 数据分析与知识发现, 2019, 3(7): 23-33.
[3] 冯国明, 张晓冬, 刘素辉. 基于自主学习的专业领域文本DBLC分词模型[J]. 数据分析与知识发现, 2018, 2(5): 40-47.
[4] 倪维健, 孙浩浩, 刘彤, 曾庆田. 面向领域文献的无监督中文分词自动优化方法*[J]. 数据分析与知识发现, 2018, 2(2): 96-104.
[5] 张越, 王东波, 朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[6] 余昕聪, 李红莲, 吕学强. 本体上下位关系在招生问答机器人中的应用研究[J]. 现代图书情报技术, 2015, 31(12): 65-71.
[7] 张杰, 张海超, 翟东升. 面向中文专利权利要求书的分词方法研究[J]. 现代图书情报技术, 2014, 30(9): 91-98.
[8] 李文江, 陈诗琴. AIMLBot智能机器人在实时虚拟参考咨询中的应用[J]. 现代图书情报技术, 2012, 28(7): 127-132.
[9] 江华, 苏晓光. 无词典中文高频词快速抽取算法[J]. 现代图书情报技术, 2012, 28(6): 50-53.
[10] 石崇德, 王惠临. 统计机器翻译中文分词优化技术研究[J]. 现代图书情报技术, 2012, 28(4): 29-34.
[11] 谷俊, 王昊. 基于领域中文文本的术语抽取方法研究[J]. 现代图书情报技术, 2011, 27(4): 29-34.
[12] 景璟, 洪颖, 蒋媛媛, 杲晓锋. 基于相关反馈的Web检索提问融合研究[J]. 现代图书情报技术, 2011, 27(1): 57-62.
[13] 徐洋 王文生 谢能付. 基于用户行为学习的元搜索结果聚类方法研究*[J]. 现代图书情报技术, 2010, 26(4): 53-58.
[14] 常智荣,马自卫,李高虎. 基于Nutch的专题网页资源采集服务系统的设计与实现[J]. 现代图书情报技术, 2010, 26(3): 19-26.
[15] 程肖, 陆蓓, 谌志群. 热点主题词提取方法研究[J]. 现代图书情报技术, 2010, 26(10): 43-48.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn