Please wait a minute...
Advanced Search
现代图书情报技术  2009, Vol. 25 Issue (7-8): 6-10     https://doi.org/10.11925/infotech.1003-3513.2009.07-08.02
  DLIB & OSS 2009论文选登 本期目录 | 过刊浏览 | 高级检索 |
基于开源软件搭建网络信息资源采集与保存平台
吴振新曲云鹏 李成文 向菁1,2 
1(中国科学院国家科学图书馆 北京 100190)
2(中国科学院研究生院 北京 100049)
3(中国国家图书馆 北京 100081)
Constructing a System for Harvesting and Preserving Chinese Web Information Resources Based on Open Source Software
Wu ZhenxinQu YunpengLi ChengwenXiang Jing1,2
1 (National Science Library,  Chinese Academy of Sciences, Beijing 100190, China)
2 (Graduate University of  Chinese Academy of Sciences, Beijing 100049, China)
3 (National Library of China, Beijing 100081, China)
全文: PDF (502 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

讨论利用开源的工具软件,搭建能够对中文网络信息资源进行处理的网络信息资源采集与保存平台,并对所进行的专题采集实验进行初步分析和总结。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
吴振新
曲云鹏
李成文
向菁
关键词 开源软件网络信息资源资源采集保存    
Abstract

This paper discusses how to use open source software to construct a system for harvesting and preserving Chinese Web information resources,and introduces the thematic harvest experiments based on selective strategy, preliminarily analyses and summarizes the experimental results.

Key wordsOpen source software    Web information resources    Harvest of resources    Preservation
收稿日期: 2009-03-02      出版日期: 2009-08-25
: 

TP202

 
通讯作者: 吴振新     E-mail: wuzx@mail.las.ac.cn
作者简介: 吴振新,曲云鹏,李成文,向菁
引用本文:   
吴振新,曲云鹏,李成文,向菁. 基于开源软件搭建网络信息资源采集与保存平台[J]. 现代图书情报技术, 2009, 25(7-8): 6-10.
Wu Zhenxin,Qu Yunpeng,Li Chengwen,Xiang Jing. Constructing a System for Harvesting and Preserving Chinese Web Information Resources Based on Open Source Software. New Technology of Library and Information Service, 2009, 25(7-8): 6-10.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2009.07-08.02      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2009/V25/I7-8/6

[1] IIPC.Active Solutions for Preserving Internet Content[EB/OL]. [2009-01-12].http://www.netpreserve.org/about/index.php.
[2] Reference Model for an Open Archival Information System[EB/OL].[2009-01-10].http://public.ccsds.org/publications/archive/650x0b1.pdf.
[3] Web Archives Long Term Access and Interoperability: The International Internet Preservation Consortium Activity[EB/OL].[2009-01-10].http://www.ifla.org/IV/ifla71/papers/194e-Lupovici.pdf.
[4] Heritrix[EB/OL]. [2008-12-24].http://crawler.archive.org/.
[5] NutchWAX[EB/OL]. [2008-12-24]. http://archive-access.sourceforge.net/projects/nutch/.
[6] WERA[EB/OL]. [2008-12-24]. http://archive-access.sourceforge.net/projects/wera/.
[7] Wayback[EB/OL].[2008-12-24]. http://www.archive.org/web/web.php.
[8] WCT[EB/OL].[2008-12-24]. http://webcurator.sourceforge.net/.
[9] NetarchiveSuite[EB/OL]. [2008-11-12]. http://netarchive.dk/suite.
[10] Netarchive.dk[EB/OL]. [2008-11-12].http://netarchive.dk/index-en.php.
[11] Smart Crawler[EB/OL]. [2008-11-12]. http://crawler.archive.org/.
[12] Hadoop[EB/OL]. [2008-11-12]. http://hadoop.apache.org/core/.
[13] Lucene[EB/OL] . [2008-11-12]. http://lucene.apache.org/.

[1] 代君,郭世新,王慧,廖莹驰. 开发人员协同开发行为特征对开源项目成功的影响 *[J]. 数据分析与知识发现, 2019, 3(10): 110-117.
[2] 郭崇慧, 李敏谦. 基于排名聚合的古村落网络信息资源评价研究*[J]. 数据分析与知识发现, 2018, 2(4): 10-19.
[3] 郑建程, 张晓林, 赵艳, 吴振新, 尹高磊, 肖曼, 陈秀娟. 数字文献资源长期保存可持续支撑机制研究[J]. 数据分析与知识发现, 2016, 32(12): 1-8.
[4] 张梦霞,顾立平. 数据监管的政策研究综述*[J]. 现代图书情报技术, 2016, 32(1): 3-10.
[5] 董智鹏,刘静羽. 基于Drupal的项目网站建设——以“开放资源建设”网站为例[J]. 现代图书情报技术, 2016, 32(1): 81-86.
[6] 吴振新, 张智雄, 谢靖, 胡吉颖. 基于IIPC开源软件拓展构建国际重要科研机构Web存档系统[J]. 现代图书情报技术, 2015, 31(4): 1-9.
[7] 吴振新, 王玉菊, 付鸿鹄, 李春旺, 刘建华. 构建可信赖的数字资源长期保存系统摄入工作流[J]. 现代图书情报技术, 2015, 31(3): 1-7.
[8] 王玉菊, 吴振新, 孔贝贝, 付鸿鹄. DROID开源工具在长期保存系统格式识别中的应用[J]. 现代图书情报技术, 2015, 31(1): 75-81.
[9] 郑海山, 林俊伟. 图书馆数据中心运维中开源软件的应用[J]. 现代图书情报技术, 2014, 30(6): 100-106.
[10] 张旺强, 祝忠明, 卢利农. 几种典型新型开源机构知识库软件的比较分析[J]. 现代图书情报技术, 2014, 30(2): 17-24.
[11] 吴振新. 长期保存中的数字对象不变性研究[J]. 现代图书情报技术, 2014, 30(11): 1-9.
[12] 李善杰. 二维码技术在图书馆查询机中的应用与实现[J]. 现代图书情报技术, 2014, 30(1): 97-101.
[13] 马宁宁, 李超, 曲云鹏. 面向数字资源长期保存的自动过时风险管理系统的设计与实现[J]. 现代图书情报技术, 2013, (4): 69-76.
[14] 侯月明, 乔晓东, 孙卫, 李颖. 开源分析工具在中文文献分析中的应用[J]. 现代图书情报技术, 2013, 29(3): 71-76.
[15] 耶健, 李丹, 闫晓弟, 李娟, 魏青山, 韩萌, 肖小勃. 图书馆无线网络统一认证系统的研究与实现[J]. 现代图书情报技术, 2012, 28(7): 121-126.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn