%A 吴振新, 张智雄, 谢靖, 胡吉颖 %T 基于IIPC开源软件拓展构建国际重要科研机构Web存档系统 %0 Journal Article %D 2015 %J 数据分析与知识发现 %R 10.11925/infotech.1003-3513.2015.04.01 %P 1-9 %V 31 %N 4 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_4034.shtml} %8 2015-04-25 %X

[目的]构建国际重要科研机构Web存档系统。[方法]基于IIPC开源软件拓展采集存档框架, 在采集端采用三层扩展策略, 在采集客户端增加自动上传及报告等管理功能, 开发WARC文件内容解析模块, 利用Solr进行索引。[结果]在采集端实现三层扩展, 通过增加采集客户端功能提高存档流程自动化程度, 通过增加的WARC文件内容解析功能抽取更多信息, 实现索引及检索服务的扩展。[局限]没有使用大规模采集存档进行检验。[结论]扩展后的采集存档框架初步具备分布式、可扩展、全自动化的特点。