Please wait a minute...
Advanced Search
现代图书情报技术  2007, Vol. 2 Issue (1): 29-32     https://doi.org/10.11925/infotech.1003-3513.2007.01.07
  20届机检会论文选登 本期目录 | 过刊浏览 | 高级检索 |
基于RSS的分布式新闻博客搜索引擎设计*
刘峰 施水才 肖诗斌 王弘蔚
(北京信息科技大学中文信息处理研究中心 北京 100101)
A Design of Distributed News & Weblog Search Engine Based on RSS
Liu Feng   Shi Shuicai   Xiao Shibin   Wang Hongwei
(Chinese Information Processing Research Center, Beijing Information Science & Technology University, Beijing 100101,China)
全文: PDF (469 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

针对传统搜索引擎对频繁更新的新闻和博客网站的搜索实时性较差的现状,提出利用RSS提供的结构化数据,通过Pastry协议,实现索引的分布式存储和传输,同时使用Bloom filter数据结构压缩索引文件,构建一个基于RSS的P2P分布式的新闻博客搜索引擎,从而达到对频繁更新站点的实时性搜索,同时减少存储成本。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王弘蔚
肖诗斌
刘峰
施水才
关键词 RSSPastryBloom filter分布式搜索引擎    
Abstract

For the problem of traditional search engine can’t get completed and updated copies of the whole Web in time, especially news and Weblog site with high update frequency, this paper designes a distributed news & Weblog search engine based on RSS syndicated data. Using the pastry protocol, distributed data could be stored and transferred smoothly. This paper also compresses index file with Bloom filter. So the news and Weblog site with high update frequency could be searched in time and the cost of storage could be reduced. The system has a bright future.

Key wordsRSS    Pastry    Bloom filter    Distributed search engine
收稿日期: 2006-10-11      出版日期: 2007-01-25
: 

TP391

 
基金资助:

*本文系国家自然科学基金项目“Web数据挖掘技术研究”(项目编号:60272084);北京市教育委员会科技发展计划重点项目“面向大规模真实文本的数据挖掘技术”(项目编号:KZ200310772013);北京市教委项目“中文垃圾邮件过滤和追踪技术研究”(项目编号:KM200510772008)和“数字内容的安全身份认证与版权保护技术研究”(项目编号:KM200610772008)的研究成果之一。

通讯作者: 刘峰     E-mail: liu.feng@trs.com.cn
作者简介: 刘峰,施水才,肖诗斌,王弘蔚
引用本文:   
刘峰,施水才,肖诗斌,王弘蔚 . 基于RSS的分布式新闻博客搜索引擎设计*[J]. 现代图书情报技术, 2007, 2(1): 29-32.
Liu Feng,Shi Shuicai,Xiao Shibin,Wang Hongwei . A Design of Distributed News & Weblog Search Engine Based on RSS. New Technology of Library and Information Service, 2007, 2(1): 29-32.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2007.01.07      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2007/V2/I1/29

1Balakrishnan H, Kaashoek M, Karger D, Morris R,  Stoica I. Looking Up Data in P2P Systems.Comm. of the ACM, February 2003
2伍玉伟. RSS:网络信息“聚合”利器.图书情报论坛,2006(1) :72-73
3于忠涛,刘兴伟.Pastry 网络模型的路由机制及改进.西华大学学报自然科学版,2006,25(1) :27-30
4Ripeanu M.Peer-to-peer Architecture Case Study:Gnutella.In Proceedings of International Conference on P2P Computing, 2001
5Bloom Filter.http://www.nist.gov/dads/HTML/bloomFilter.html(Accessed Aug.18,2006)
6池静,方启泉. Bloom filter 的研究和应用.河北建筑科技学院学报,2003,20(4) :59-61

[1] 毕强, 鲍玉来. 基于领域本体和RSS的OA资源集成门户设计与实现[J]. 现代图书情报技术, 2012, 28(3): 78-82.
[2] 薛娟. 基于RSS技术的重点学科信息推送系统设计及实现*[J]. 现代图书情报技术, 2010, 26(4): 83-86.
[3] 李文江,陈诗琴. 基于LINQ的RSS 2.0生成与解析类库的设计*[J]. 现代图书情报技术, 2009, 25(7-8): 131-135.
[4] 周艳,马建国. 基于播存网格的新闻广播系统设计*[J]. 现代图书情报技术, 2007, 2(9): 76-79.
[5] 吴宝贵,丁振国. 基于Map/Reduce的分布式搜索引擎研究[J]. 现代图书情报技术, 2007, 2(8): 52-55.
[6] 姜恩波 . 基于信息聚合的服务与技术[J]. 现代图书情报技术, 2007, 2(4): 32-34.
[7] 钱爱兵 . 基于RSS的Web新闻主题聚合系统的设计与实现[J]. 现代图书情报技术, 2007, 2(4): 56-61.
[8] 张蓓,张成昱,姜爱蓉 . Ajax和RSS在图书馆个性化门户网站中的应用[J]. 现代图书情报技术, 2007, 2(3): 65-68.
[9] 宫卫涛,马自卫. 数字图书馆门户集成技术及其实现[J]. 现代图书情报技术, 2007, 2(11): 23-27.
[10] 刘莉,肖诗斌,王涛,施水才. 基于RSS的博客采集系统的设计与实现*[J]. 现代图书情报技术, 2007, 2(11): 45-48.
[11] 陈凌晖 . 基于RSS技术的信息门户个性化信息服务理念与实现[J]. 现代图书情报技术, 2007, 2(1): 33-36.
[12] 田阳 . 基于免费组件AltovaXML的XQuery处理器的实现及应用[J]. 现代图书情报技术, 2006, 1(4): 70-73.
[13] 张会娥,张智雄,林颖,李飒. 基于RSS的科技信息聚合系统的设计和实现[J]. 现代图书情报技术, 2005, 21(7): 60-63.
[14] 王建涛. RSS在图书馆信息服务中的应用研究[J]. 现代图书情报技术, 2005, 21(7): 86-88.
[15] 周强. 在WebPAC中应用RSS[J]. 现代图书情报技术, 2005, 21(6): 14-16.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn