Please wait a minute...
Advanced Search
现代图书情报技术  2011, Vol. 27 Issue (2): 29-33     https://doi.org/10.11925/infotech.1003-3513.2011.02.05
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
一种断点续传的多线程新闻组抓取方法及存储结构
杨代庆1,2,3, 王志苹1, 王星1, 刘敏健1, 常迎春1
1. 中国科学技术信息研究所 北京 100038;
2. 中国科学院国家科学图书馆 北京 100190;
3. 中国科学院研究生院 北京 100049
Usenet-snatcher Based on Multithread and Mass-data Storage Supporting Breakpoint Transmission
Yang Daiqing1,2,3, Wang Zhiping1, Wang Xing1, Liu Minjian1, Chang Yingchun1
1. ;
2. National Science Library,Chinese Academy of Sciences,Beijing 100190,China;
3. Graduate University of Chinese Academy of Sciences, Beijing 100049, China
全文: PDF (757 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

针对新闻组的海量性及相关编码特点设计新闻帖抓取流程,采用多线程方式加快新闻帖的抓取及解析速度,同时设计一种便于海量数据断点续传的数据存储结构,通过实验采集验证该方法能有效达到信息检测的数据采集要求,抓取及解析新闻帖的速度比普通单线程抓取解析方式有显著提高。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
杨代庆
王志苹
王星
刘敏健
常迎春
关键词 新闻组多线程海量数据网络新闻传输协议    
Abstract

A usenet-snatcher is designed based on multithread to improve the download-speed and MIME-parsing-speed and a storage schema supporting breakpoint transmission is also proposed. Experiment shows that the usenet-snatcher can gather articles effectively and gathering-speed under multithread is faster than single thread.

Key wordsUsenet    Multithread    Mass-data    NNTP
收稿日期: 2011-01-26      出版日期: 2011-03-25
: 

P393

 
基金资助:

本文系国家十一五科技支撑计划子课题“网络科技信息监测与评价”(项目编号:2006BAH03B05)的研究成果之一。

引用本文:   
杨代庆, 王志苹, 王星, 刘敏健, 常迎春. 一种断点续传的多线程新闻组抓取方法及存储结构[J]. 现代图书情报技术, 2011, 27(2): 29-33.
Yang Daiqing, Wang Zhiping, Wang Xing, Liu Minjian, Chang Yingchun. Usenet-snatcher Based on Multithread and Mass-data Storage Supporting Breakpoint Transmission. New Technology of Library and Information Service, 2011, 27(2): 29-33.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2011.02.05      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2011/V27/I2/29


[1] NewsAdmin/Usenet Statistics / Top 100 Binary Newsgroups by Postings . .http://www.newsadmin.com/top100bmsgs.asp.

[2] Windows专区/一般软件使用 . .http://topic.csdn.net/t/20020924/10/1048150.html.

[3] Developing an NNTP Newsgroup Reader . . http://www.geekpedia.com/tutorial212_Developing-an-NNTP-Newsgroup-Reader.html.

[4] NNTP Library that Supports Post Retrieval with Attachments and a Lot More . .http://www.codeproject.com/KB/IP/ngainntplibrary.aspx.

[5] News Rover Usenet Newsreader . .http://www.newsrover.com/Search.htm?gclid=CLCQyZaS3KYC FYVypAod6GdV8A.

[6] Binsearch-Usenet Search Engine . .http://www3.binsearch.info/.

[7] MIME Package . .http://docs.sun.com/source/816-6028-10/JavaRef/MIME/tree.html.

[1] 赵华茗. 搭建基于云计算的开源海量数据挖掘平台[J]. 现代图书情报技术, 2010, 26(10): 76-81.
[2] 李海军,樊来耀,丁毅. 基于JSP的跨库检索技术的研究开发[J]. 现代图书情报技术, 2004, 20(11): 74-76.
[3] 陈朝晖. 网络新闻搜索引擎Deja News研究[J]. 现代图书情报技术, 1998, 14(6): 32-35.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn