Please wait a minute...
Advanced Search
现代图书情报技术  2007, Vol. 2 Issue (11): 45-48     https://doi.org/10.11925/infotech.1003-3513.2007.11.09
  21届机检会论文选登 本期目录 | 过刊浏览 | 高级检索 |
基于RSS的博客采集系统的设计与实现*
刘莉1,2 肖诗斌1,2   王涛1,2  施水才1,2
1(北京信息科技大学中文信息处理研究中心 北京 100101)
2(北京拓尔思信息技术有限公司 北京 100101)
Design and Realization of Weblog Gathering System Based on RSS
Liu Li1,2  Xiao Shibin1,2  Wang Tao1,2  Shi Shuicai1,2
1(Chinese Information Processing Research Center,Beijing Information Science and Technology University,Beijing 100101,China)
2(Beijing TRS Information Technology Ltd,Beijing 100101,China)
全文: PDF (674 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

提出一种基于RSS的博客采集系统实现方案。设计两个爬虫,一个负责广度优先遍历互联网,获取每个用户对应的RSS地址;另一个负责对每个RSS地址垂直搜索,跟踪检测是否有更新的博客文章,以增量方式将更新文章装入数据库。并为算法设计实现一个模型系统。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
施水才
刘莉
王涛
肖诗斌
关键词 RSS博客信息采集    
Abstract

This paper focuses on how to crawl Weblogs effectively in some sections of Web,and brings forward an arithmetic of the Weblog gathering based on RSS.The authors design two crawlers,one of which is responsible for gathering RSS by performing a breadth-first traversal of the Web,and the other tracks updated Weblogs automatically by performing a vertical search of every RSS.Also A model system is implemented.

Key wordsRSS    Weblog    Information gathering
收稿日期: 2007-09-14      出版日期: 2007-11-25
ZTFLH: 

TP391

 
基金资助:

* 本文系863计划重点基金项目“跨媒体搜索关键技术研究及服务产品开发”(项目编号:2006AA010105)的研究成果之一。

通讯作者: 刘莉     E-mail: luili.luili.liuli@163.com)
作者简介: 刘莉,肖诗斌,王涛,施水才
引用本文:   
刘莉,肖诗斌,王涛,施水才. 基于RSS的博客采集系统的设计与实现*[J]. 现代图书情报技术, 2007, 2(11): 45-48.
Liu Li,Xiao Shibin,Wang Tao,Shi Shuicai. Design and Realization of Weblog Gathering System Based on RSS. New Technology of Library and Information Service, 2007, 2(11): 45-48.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2007.11.09      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2007/V2/I11/45

[1] 张道银,蔡瑞英.RSS技术及其应用研究[J].微计算机信息,2006,22(21):281-283
[2] Najork M,Heydon A.High-Performance Web Crawling[M].Handbook of Massive Data Sets,Kluwer Academic Publishers Inc,2001:25-45
[3] Heydon A,Najork M.Mercator:A Scalable,Entensible Web Crawler[J].World Wide Web,1999(2):219-229
[4] 李盛韬,赵章界,余智华,等.基于主题的Web信息采集系统的设计与实现[J].计算机工程,2003,29(17):102-104
[5] 李晓明,凤旺森.两种对URL的散列效果很好的函数[J].软件学报,2004,15(2):179-184
[6] 崔国华,周荣华,粟栗,等.关于MD5强度分析的研究[J].计算机工程与科学,2007,29(1):45-48
[7] 郭红艳,杨波,金蓓弘,等.高效DOM实现的技术研究[J].计算机科学,2006,33(6):274-277

[1] 王欣瑞,何跃. 社交媒体用户交互行为与股票市场的关联分析研究: 基于新浪财经博客的实证[J]. 数据分析与知识发现, 2019, 3(11): 108-119.
[2] 叶光辉, 胡婧岚, 徐健, 夏立新. 社交博客标签增长态势与连接模式分析*[J]. 数据分析与知识发现, 2018, 2(6): 70-78.
[3] 王思丽, 刘巍, 祝忠明, 吴志强, 王金平. 基于CSpace的科技信息可配置化自动监测功能设计与实现*[J]. 数据分析与知识发现, 2017, 1(10): 85-93.
[4] 潘竹虹,萧德洪. 一种支持双栈及高速网络的数字资源利用分析系统数据过滤方法[J]. 现代图书情报技术, 2016, 32(3): 90-96.
[5] 翟姗姗, 许鑫, 夏立新. 学术博客中的用户交流与知识传播研究述评[J]. 现代图书情报技术, 2015, 31(7-8): 3-12.
[6] 许鑫, 翟姗姗, 姚占雷. 学术博客的学科交互实证分析——以科学网博客为例[J]. 现代图书情报技术, 2015, 31(7-8): 13-23.
[7] 谭旻, 许鑫, 赵星. 学术博客共推荐关系及核心结构特性研究——以科学网博客为例[J]. 现代图书情报技术, 2015, 31(7-8): 24-30.
[8] 谭旻, 许鑫. 学术博客推荐网络的h度实证——以科学网博客为例[J]. 现代图书情报技术, 2015, 31(7-8): 31-36.
[9] 武海东, 何晓阳, 张精理. 医学学术信息自动采集系统的设计与实现[J]. 现代图书情报技术, 2014, 30(11): 73-78.
[10] 徐孝娟,赵宇翔,朱庆华. 民族志决策树方法在学术博客用户行为中的研究*——以科学网博客为例[J]. 现代图书情报技术, 2014, 30(1): 79-86.
[11] 陈明红, 漆贤军. 学术博客的用户接受模型及实证研究[J]. 现代图书情报技术, 2013, (12): 81-87.
[12] 毕强, 鲍玉来. 基于领域本体和RSS的OA资源集成门户设计与实现[J]. 现代图书情报技术, 2012, 28(3): 78-82.
[13] 吴红, 王凤英, 付秀颖. 面向专利分析的法律状态分布式采集系统的设计与实现[J]. 现代图书情报技术, 2012, (12): 66-71.
[14] 赵文兵, 朱庆华, 吴克文, 黄奇. 微博客用户特性及动机分析——以和讯财经微博为例[J]. 现代图书情报技术, 2011, 27(2): 69-75.
[15] 许鑫 黄仲清 邓三鸿. 互联网侨情信息采集系统设计与实现*[J]. 现代图书情报技术, 2010, 26(7/8): 95-101.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn