Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (7-8): 148-154     https://doi.org/10.11925/infotech.1003-3513.2015.07.20
  应用论文 本期目录 | 过刊浏览 | 高级检索 |
Drupal数据采集在构建特色数字资源中的实践
李丹, 闫晓弟, 魏青山
西安交通大学图书馆 西安 710049
Practice of Data Collection in Building Characteristic Digital Resources Based on Drupal
Li Dan, Yan Xiaodi, Wei Qingshan
Xi'an Jiaotong University Library, Xi'an 710049, China
全文: PDF (1220 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

目的】解决特色数据库建设过程中数据抓取困难、多类型数字资源难以整合等问题。【应用背景】特色资源信息生命短暂, 陕西省已建特色库平台差异较大, 支持RSS接口有限, 数据格式复杂。【方法】利用Drupal Feeds, XPath Parser, Crawls, Image Grabber等Web数据采集技术, 结合数据清洗、剔除手段, 实现Web数据采集的系统化和专业化。【结果】对Feeds RSS 采集, HTML/XML网页分析自动采集, 特别是数据采集中需要针对不同特色资源修改规则及采集网页中流媒体等问题进行探讨。【结论】丰富陕西省特色数字资源平台的数据来源, 部分解决数据采集困难、数据格式不规范、数据来源途径有限的问题。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
Abstract

[Objective] To address the problems of Web data collection, difficult to integrate multiple types of digital resources etc. in characteristic database construction. [Context] The life of characteristic digital resources information is short, each heterogeneous database platform in Shaanxi has great difference, supports limited RSS interface, contains complex data formats. [Methods] Using Web data collection technology such as Drupal Feeds, XPath Parser, Crawls, Image Grabber, combined with data cleaning and removing, to achieve specialization and systematization for Web data collection. [Results] Explore feeds RSS collection, HTML/XML automatic acquisition, rules for different characteristics of resource modification specially, and Web streaming media collection. [Conclusions] This study can rich platform data sources, partially provide solutions to difficult data collection, data formats unstandardized, data source route limited and so on.

收稿日期: 2014-12-16      出版日期: 2015-08-25
:  G250.7  
基金资助:

本文系陕西省科学技术研究发展计划基金项目"陕西省地方特色数字资源共建共享模式研究"(项目编号:2012krm105)的研究成果之一。

通讯作者: 李丹, ORCID: 0000-0002-5694-5914, E-mail: lidan2011@mail.xjtu.edu.cn。     E-mail: lidan2011@mail.xjtu.edu.cn
作者简介: 作者贡献声明: 李丹: 提出、设计特色数字资源采集策略, 进行实验, 论文起草及最终版本修订; 闫晓弟: 调研特色资源建库现状, 分析数据源; 魏青山: 平台数据清洗、剔除, 论文修订。
引用本文:   
李丹, 闫晓弟, 魏青山. Drupal数据采集在构建特色数字资源中的实践[J]. 现代图书情报技术, 2015, 31(7-8): 148-154.
Li Dan, Yan Xiaodi, Wei Qingshan . Practice of Data Collection in Building Characteristic Digital Resources Based on Drupal. New Technology of Library and Information Service, 2015, 31(7-8): 148-154.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.07.20      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2015/V31/I7-8/148

[1] 李丹, 闫晓弟, 李娟, 等. 陕西省地方特色数字资源现状分析与思考[J]. 情报探索, 2013(10): 59-61. (Li Dan, Yan Xiaodi, Li Juan, et al. Analysis and Deliberation on Local Characteristic Digital Resources in Shaanxi [J]. Information Research, 2013(10): 59-61.)
[2] 刘兰, 吴振新, 张智雄, 等. Web Archive的采集策略研究[J]. 现代图书情报技术, 2009(1): 10-15. (Liu Lan, Wu Zhenxin, Zhang Zhixiong, et al. Study on the Harvest Strategies in Web Archive [J]. New Technology of Library and Information Service, 2009(1): 10-15.)
[3] Marshall C C. Making Metadata: A Study of Metadata Creation for a Mixed Physical-Digital Collection [C]. In: Proceedings of the 3rd ACM Conference on Digital Libraries (DL'98). New York: ACM, 1998: 162-171.
[4] 范炜. Drupal分类组织机制研究: 一种复合信息组织模式[J]. 图书馆杂志, 2010, 29(1): 23-26. (Fan Wei. A Study on Drupal's Taxonomy Module: A Hybrid Pattern of Information Organization [J]. Library Journal, 2010, 29(1): 23-26.)
[5] 王欣, 李玉兰, 商允峥. 基于Drupal构建图书馆2.0网站的研究和实践[J]. 现代图书情报技术, 2009(11): 82-87. (Wang Xin, Li Yulan, Shang Yunzheng. The Research and Practice of Building a Library Website with Library 2.0 Features Based on Drupal [J]. New Technology of Library and Information Service, 2009(11): 82-87.)
[6] 李丹, 闫晓弟, 魏青山. Drupal的混搭技术在图书馆的应用[J]. 现代图书情报技术, 2013(10): 79-84. (Li Dan, Yan Xiaodi, Wei Qingshan. Application of Mashup in Library Based on Drupal [J]. New Technology of Library and Information Service, 2013(10): 79-84.)
[7] Rauber A, Aschenbrenner A, Witvoet O. Austrian Online Archive Processing: Analyzing Archives of the World Wide Web [A]. //Agosti M, Thanos C. Research and Advanced Technology for Digital Libraries [M]. Springer Berlin Heidelberg, 2002: 16-31.
[8] Xpath [EB/OL]. [2014-12-12]. http://www.w3school.com.cn/xpath/index.asp.

[1] 王思丽, 祝忠明, 杨恒, 刘巍. 基于模式和投影学习的领域概念上下位关系自动识别研究 [J]. 数据分析与知识发现, 0, (): 1-.
[2] 郭少卿, 乐小虬. 科技论文中数值指标实际取值识别[J]. 数据分析与知识发现, 2018, 2(1): 21-28.
[3] 陈果, 肖璐. 网络社区中的知识元链接体系构建研究*[J]. 数据分析与知识发现, 2017, 1(11): 75-83.
[4] 尹相权, 李书宁. 基于VSM的美国一流大学图书馆网站导航文本调查与分析[J]. 数据分析与知识发现, 2017, 1(3): 90-95.
[5] 孙轶楠, 顾立平, 宋秀芳, 刘晶晶, 江娴. 学科数据知识库的政策调研与分析——以生命科学领域为例[J]. 现代图书情报技术, 2015, 31(12): 13-20.
[6] 毕强, 刘健. 数字文献资源内容服务推荐方法研究[J]. 现代图书情报技术, 2015, 31(12): 21-27.
[7] 朱光. 基于零水印的图博档彩色图像资源版权保护策略研究[J]. 现代图书情报技术, 2015, 31(12): 89-94.
[8] 刘悦如, 郭利敏. 微信公众号互动功能新开发[J]. 现代图书情报技术, 2015, 31(11): 104-109.
[9] 刘丹. 利用Apache Mahout部署个性化图书推荐服务[J]. 现代图书情报技术, 2015, 31(10): 102-108.
[10] 郭振英, 赵文兵, 魏育辉. 轻量级书目本体关联数据建设实践[J]. 现代图书情报技术, 2015, 31(7-8): 139-143.
[11] 郭利敏, 刘悦如, 相明琼. 微信二维码用于图书馆读者身份认证的实践[J]. 现代图书情报技术, 2015, 31(7-8): 144-147.
[12] 周瑶, 刘畅, 李建东. 图书馆微信座位预约应用开发——以西北民族大学为例[J]. 现代图书情报技术, 2015, 31(7-8): 155-159.
[13] 师洪波, 钱力, 张晓林, 梁娜. 开放获取论文推送转发服务系统iSwitch:论文接收与解析[J]. 现代图书情报技术, 2015, 31(6): 1-6.
[14] 王颖, 吴振新, 谢靖. 面向科技文献的语义检索系统研究综述[J]. 现代图书情报技术, 2015, 31(5): 1-7.
[15] 白海燕, 刘耀, 郭晓峰. 新型责任者标识系统ORCID的构建机制介绍[J]. 现代图书情报技术, 2015, 31(5): 8-14.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn