Please wait a minute...
Advanced Search
现代图书情报技术  2008, Vol. 24 Issue (3): 45-50     https://doi.org/10.11925/infotech.1003-3513.2008.03.08
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于Bloom Filter的超大规模网页去重策略研究
丁振国1 吴宝贵2 辛友强2
1(西安电子科技大学网络教育学院 西安 710071)
2(西安电子科技大学经济管理学院 西安 710071)
Research of large-scale URL Filter Base on Bloom Filter
Ding ZhenguoWu BaoguiXin Youqiang2
1(College of Networking Education, Xidian University,  Xi’an  710071,China)
2(Collegel of Economics and Management, Xidian University,  Xi’an  710071,China)
全文: PDF (435 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

针对大规模信息采集,运用Bloom Filter及其改进算法,在误差允许的条件下,通过URL散列运算可以有效地对同源网页进行去重。实践证明,通过对其参数进行合理的调整,可以达到满意的结果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
丁振国
吴宝贵
辛友强
关键词 布隆过滤器散列函数URL网页去重    
Abstract

On the condition of error allowing, the Bloom Filter and its improvable algorithm, can be used to filter the homology URL pages through URL Hashing. Experiment shows that it can achieve satisfactory results through reasonable adjustments of its parameter.

Key words Bloom filter    Hash function    URL    URL filter
收稿日期: 2007-12-06      出版日期: 2008-03-25
: 

TP391.3

 
通讯作者: 吴宝贵     E-mail: bg1011@163.com
作者简介: 丁振国,吴宝贵,辛友强
引用本文:   
丁振国,吴宝贵,辛友强. 基于Bloom Filter的超大规模网页去重策略研究[J]. 现代图书情报技术, 2008, 24(3): 45-50.
Ding Zhenguo,Wu Baogui,Xin Youqiang. Research of large-scale URL Filter Base on Bloom Filter. New Technology of Library and Information Service, 2008, 24(3): 45-50.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2008.03.08      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2008/V24/I3/45

[1] Gulli A, Signorini A.The Indexable Web is More than 11.5 Billion Pages[C]. Special Interest Tracks and Posters of the 14th International Conference on World Wide Web WWW ’05.ACM Press 2005:902-903.
[2] Bloom B. Space/time Tradeoffs in Hash Coding with Allowable Errors[J].Communication of the ACM, 1970, 13(7):422-426.
[3] Cormen T H, Leiserson C E. Introduction to Algorithms[M].  2nd ed. Cambridge: MIT Press, 2001:221-252.
[4] 吴丽辉,白硕,张刚,等.Web信息采集中的哈希函数比较[J].小型微型计算机系统,2006,27(4):673-676.
[5] 李晓明,凤旺森.两种对URL 的散列效果很好的函数[J].软件学报,2004,15 (2) :179-184.
[6] 肖明忠,代亚非.Bloom Filter及其应用综述[J].计算机科学,2004,30(4):180-183.
[7] 池静,倪健,王华,等.Bloom Filter 和Weighted Bloom Filter 的比较与研究[J].河北师范大学学报:自然科学版,2006,30(4):398-402.
[8] Fan L, Cao P, Almeida J,et al. Summary Cache: A Scalable Wide-area Web Cache Sharing Protocol[C].In:IEEE/ACM Transactions On Networking,2000,8(3):281-293.
[9] 肖明忠,代亚非,李小明.拆分型Bloom Filter[J].电子学报,2004,32(2):241-245.
[10] 谢鲲,闵应骅,张大方,等.分档布鲁姆过滤器的查询算法[J].计算机学报,2007,30(4):597-607.
[11] Mitzenmacher M.Compressed Bloom Filters[C].In: Proceedings of the 20th ACM Symposium on Principles of Distributed Computing (PODC2001).Rhode, Island, 2001:23-34.

[1] 张策,都云程,梁然. 采用URL特征的Hub网页识别方法研究*[J]. 现代图书情报技术, 2016, 32(1): 24-31.
[2] 王庆恒 马自卫 李高虎. 统一检索服务关键技术的研究与实现[J]. 现代图书情报技术, 2010, 26(4): 18-23.
[3] 方宏,吕太之. 求职网站职位列表页链接信息的自动提取[J]. 现代图书情报技术, 2009, 25(7-8): 93-96.
[4] 殷菲菲,李亚子. 开放链接解析器的实现研究*[J]. 现代图书情报技术, 2009, 25(6): 19-23.
[5] 谢蕙,秦杰,胡双双. 基于用户查询关键词的网页去重方法研究[J]. 现代图书情报技术, 2008, 24(7): 43-46.
[6] 窦天芳,姜爱蓉,林容. 利用Z39.50扩展SFX应用的实例[J]. 现代图书情报技术, 2008, 24(4): 86-89.
[7] 高旻,金玉玲,刘伟玲. OpenURL技术发展及创新应用研究[J]. 现代图书情报技术, 2008, 24(2): 87-90.
[8] 张雅珊,张韵恬. 数字图书馆安全登录问题及改进[J]. 现代图书情报技术, 2007, 2(12): 78-81.
[9] 白海燕 . 开源软件OpenResolver的功能与源码分析[J]. 现代图书情报技术, 2007, 2(1): 58-61.
[10] 吴春峰,施水才. 基于OpenURL的开放链接服务之原型研究[J]. 现代图书情报技术, 2005, 21(12): 55-58.
[11] 沈艺. OpenURL及其应用[J]. 现代图书情报技术, 2004, 20(1): 30-32.
[12] 毛军,张晓林,曾蕾,李广建,刘炜. URI和数字对象唯一标识符*[J]. 现代图书情报技术, 2003, 19(2): 9-12.
[13] 李爱国,汪社教. 学术信息资源整合工具——SFX及其启示[J]. 现代图书情报技术, 2003, 19(1): 48-50.
[14] 李富玲,卢振波. SFX——信息资源整合新工具[J]. 现代图书情报技术, 2002, 18(6): 69-71.
[15] 郑修虹. Internet专业导航库的建立[J]. 现代图书情报技术, 2000, 16(2): 67-68.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn