Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (4): 1-9    DOI: 10.11925/infotech.1003-3513.2015.04.01
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于IIPC开源软件拓展构建国际重要科研机构Web存档系统
吴振新, 张智雄, 谢靖, 胡吉颖
中国科学院文献情报中心 北京 100190
Developing Web Archive System of International Institutions Based on IIPC Open Source Software
Wu Zhenxin, Zhang Zhixiong, Xie Jing, Hu Jiying
National Science Library, Chinese Academy of Sciences, Beijing 100190, China
全文: PDF(2375 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的]构建国际重要科研机构Web存档系统。[方法]基于IIPC开源软件拓展采集存档框架, 在采集端采用三层扩展策略, 在采集客户端增加自动上传及报告等管理功能, 开发WARC文件内容解析模块, 利用Solr进行索引。[结果]在采集端实现三层扩展, 通过增加采集客户端功能提高存档流程自动化程度, 通过增加的WARC文件内容解析功能抽取更多信息, 实现索引及检索服务的扩展。[局限]没有使用大规模采集存档进行检验。[结论]扩展后的采集存档框架初步具备分布式、可扩展、全自动化的特点。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
吴振新
胡吉颖
张智雄
谢靖
关键词 开源软件网络信息存档系统建设    
Abstract

[Objective] Develope Web Archive System of International Institutions. [Methods] Based on IIPC open source software framework, this paper applies a three layer expansion strategy in the acquisition terminal, provides automatical uploading and reporting function in the acquisition client, develops a WARC parser which can analyze the content of WARC file, uses Solr to be an indexer. [Results] This paper implements acquisition expansion, promotes the automatical level of system workflow by adding more function modules in the acquisition client, extracts more information by developing WARC parser modules, uses Solr to enrich index and retrieval service. [Limitations] Lack of large-scale Web archive to verify this platform. [Conclusions] The expanded Web archive framework becomes distributed, extended and full automatic.

Key wordsOpen source software    Web archive    Syetem development
收稿日期: 2014-09-03     
:  G352  
通讯作者: 胡吉颖,ORCID:0000-0003-1559-2849,E-mail:hujy@mail.las.ac.cn     E-mail: hujy@mail.las.ac.cn
作者简介: 作者贡献声明: 吴振新:系统框架设计及实施管理,论文撰写;张智雄:提出扩展思路,完善系统框架设计;谢靖,胡吉颖:系统开发,论文撰写。
引用本文:   
吴振新, 张智雄, 谢靖, 胡吉颖. 基于IIPC开源软件拓展构建国际重要科研机构Web存档系统[J]. 现代图书情报技术, 2015, 31(4): 1-9.
Wu Zhenxin, Zhang Zhixiong, Xie Jing, Hu Jiying. Developing Web Archive System of International Institutions Based on IIPC Open Source Software. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2015.04.01.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.04.01

[1] Toward a National Strategy for Preserving Online Science [EB/OL]. [2014-08-05]. http://www.digitalpreservation.gov/meetings/documents/othermeetings/science-at-risk-NDIIPP-report-nov-2012.pdf.
[2] IIPC [EB/OL]. [2014-08-05]. http://netpreserve.org/.
[3] Tools and Software [EB/OL]. [2014-08-05]. http://netpreserve.org/Web-archiving/tools-and-software.
[4] 刘兰, 吴振新, 向菁, 等. 网络信息资源保存开源软件综述[J]. 现代图书情报技术, 2009(5): 11-17. (Liu Lan, Wu Zhenxin, Xiang Jing, et al. Review of Open Source Software in Web Archive [J]. New Technology of Library and Information Service, 2009(5): 11-17.)
[5] ISO 28500:2009 Information and Documentation——WARC File Format [EB/OL]. [2014-08-05]. http://www.iso.org/iso/
home/store/catalogue_tc/catalogue_detail.htm?csnumber=44717.
[6] Heritrix [EB/OL]. [2014-08-05]. https://Webarchive.jira.com/wiki/display/Heritrix/Heritrix.
[7] Internet Archive [EB/OL]. [2014-08-05]. http://www.internetarchive.org/.
[8] The Web Curator Tool Project [EB/OL]. [2014-08-05]. http://Webcurator.sourceforge.net/.
[9] Web Archive Access [EB/OL]. [2014-08-05]. http://sourceforge.net/projects/archive-access/files/wayback/.
[10] NutchWAX [EB/OL]. [2014-08-05]. http://archive-access.sourceforge.net/projects/nutch/.
[11] 吴振新, 曲云鹏, 李成文, 等. 基于开源软件搭建网络信息资源采集与保存平台[J]. 现代图书情报技术, 2009(7-8): 6-10. (Wu Zhenxin, Qu Yunpeng, Li Chengwen, et al. Constructing a System for Harvesting and Preserving Chinese Web Information Resources Based on Open Source Software [J]. New Technology of Library and Information Service, 2009(7-8): 6-10.)
[12] Trail: RMI [EB/OL]. [2014-08-05]. http://download.oracle.com/javase/tutorial/rmi/index.html.
[13] 吴振新,张智雄,王婷.网络信息资源保存的协作网络研究[J]. 数字图书馆论坛. 2009(7): 2-6. (Wu Zhenxin, Zhang Zhixiong, Wang Ting. Research on the Web Archive Cooperative Networks [J]. Digital Library Forum, 2009(7): 2-6.)

[1] 董智鹏,刘静羽. 基于Drupal的项目网站建设——以“开放资源建设”网站为例[J]. 现代图书情报技术, 2016, 32(1): 81-86.
[2] 郑海山, 林俊伟. 图书馆数据中心运维中开源软件的应用[J]. 现代图书情报技术, 2014, 30(6): 100-106.
[3] 张旺强, 祝忠明, 卢利农. 几种典型新型开源机构知识库软件的比较分析[J]. 现代图书情报技术, 2014, 30(2): 17-24.
[4] 李善杰. 二维码技术在图书馆查询机中的应用与实现[J]. 现代图书情报技术, 2014, 30(1): 97-101.
[5] 侯月明, 乔晓东, 孙卫, 李颖. 开源分析工具在中文文献分析中的应用[J]. 现代图书情报技术, 2013, 29(3): 71-76.
[6] 耶健, 李丹, 闫晓弟, 李娟, 魏青山, 韩萌, 肖小勃. 图书馆无线网络统一认证系统的研究与实现[J]. 现代图书情报技术, 2012, 28(7): 121-126.
[7] 胡弢, 魏涛, 徐海军. 利用开源软件实现电子阅览室安全网关系统[J]. 现代图书情报技术, 2012, 28(2): 92-97.
[8] 李欣, 于亚秀. 基于开源KBPublisher构建图书馆个性化FAQ系统[J]. 现代图书情报技术, 2011, 27(9): 78-82.
[9] 王科, 周强, 李春旺. Web系统多级分布式缓存机制设计与实现[J]. 现代图书情报技术, 2011, 27(7/8): 21-25.
[10] 秦学东, 陈大庆, 崔晓松. 基于开源虚拟化的高可用服务器架构[J]. 现代图书情报技术, 2011, 27(6): 46-50.
[11] 鲜国建, 赵瑞雪. 基于Solr的中文农业期刊文摘检索系统的构建研究[J]. 现代图书情报技术, 2011, 27(6): 51-58.
[12] 李宇, 王威. PDF过量下载监测的设计与原型实现[J]. 现代图书情报技术, 2011, 27(4): 71-76.
[13] 张平杉, 章伟煊. 新一代开源OPAC系统比较研究[J]. 现代图书情报技术, 2011, 27(2): 21-28.
[14] 祝忠明,马建霞,卢利农,李富强,刘巍,吴登禄. 机构知识库开源软件DSpace的扩展开发与应用[J]. 现代图书情报技术, 2009, 25(7-8): 11-17.
[15] 吴振新,曲云鹏,李成文,向菁. 基于开源软件搭建网络信息资源采集与保存平台[J]. 现代图书情报技术, 2009, 25(7-8): 6-10.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn