Please wait a minute...
Advanced Search
现代图书情报技术  2011, Vol. 27 Issue (7/8): 26-31     https://doi.org/10.11925/infotech.1003-3513.2011.07-08.05
  DLIB & OSS 2011论文选登 本期目录 | 过刊浏览 | 高级检索 |
面向网络科技监测的分布式定向资源精确采集研究和应用
谢靖, 曲云鹏, 刘建华
中国科学院国家科学图书馆 北京 100190
Targeted Websites Distributed and Precise Harvest System for Network Monitoring Technology
Xie Jing, Qu Yunpeng, Liu Jianhua
National Science Library, Chinese Academy of Sciences, Beijing 100190,China
全文: PDF (1923 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 在分析研究现有开源信息采集系统的基础上,综合应用开源框架,以开源爬虫Crawler4j为基础,设计开发基于开源框架的分布式定向资源采集系统,实现对网络信息实时精确的采集,以满足网络监测系统的及时性和准确性的要求。主要介绍系统的结构设计和功能实现,并详细阐述精确采集的方法和技术路线。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
谢靖
曲云鹏
刘建华
关键词 监测分布式精确采集    
Abstract:By analyzing the existing open-source framework collection system, an accurate acquistition system is designed and developed based on Crawler4j. So the system can meet the real-time monitoring of collection of resources and accuracy requirements. And the paper introduces the design and implementation of the system.
Key wordsMonitoring    Distributed    Precise harvest
收稿日期: 2011-05-05      出版日期: 2011-10-09
: 

G250

 
基金资助:

本文系中国科学院基金项目“科技机构自动监测服务系统”的研究成果之一。

引用本文:   
谢靖, 曲云鹏, 刘建华. 面向网络科技监测的分布式定向资源精确采集研究和应用[J]. 现代图书情报技术, 2011, 27(7/8): 26-31.
Xie Jing, Qu Yunpeng, Liu Jianhua. Targeted Websites Distributed and Precise Harvest System for Network Monitoring Technology. New Technology of Library and Information Service, 2011, 27(7/8): 26-31.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2011.07-08.05      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2011/V27/I7/8/26
[1] Nutch.http://wiki.apache.org/nutch.

[2] Heritrix.http://crawler.archive.org/.

[3] Open Source Web Crawler for Java.http://code.google.com/p/crawler4j/.

[4] Trail:RMI.http://download.oracle.com/javase/tutorial/rmi/index.html.

[5] Cobra: Java HTML Renderer & Parser.http://lobobrowser.org/cobra.jsp.

[6] Regular Expression.http://en.wikipedia.org/wiki/Regular_expression.
[1] 常志军,钱力,谢靖,吴振新,张鹄,于倩倩,王颖,王永吉. 基于分布式技术的科技文献大数据平台的建设研究*[J]. 数据分析与知识发现, 2021, 5(3): 69-77.
[2] 王建冬,于施洋. 构建国家经济大脑的实践探索与初步设想 *[J]. 数据分析与知识发现, 2020, 4(7): 2-17.
[3] 师洪波,郭红梅,岳婷,钱力,黄定余,常志军. 基于分布式大数据技术的科学计量模块化分析平台构建研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 231-238.
[4] 王建冬. 大数据在经济监测预测研究中的应用进展*[J]. 数据分析与知识发现, 2020, 4(1): 12-26.
[5] 陆泉,朱安琪,张霁月,陈静. 中文网络健康社区中的用户信息需求挖掘研究*——以求医网肿瘤板块数据为例[J]. 数据分析与知识发现, 2019, 3(4): 22-32.
[6] 王思丽, 刘巍, 祝忠明, 吴志强, 王金平. 基于CSpace的科技信息可配置化自动监测功能设计与实现*[J]. 数据分析与知识发现, 2017, 1(10): 85-93.
[7] 侯剑华, 郭爽. 基于专利的技术熵分析法及其在新兴技术监测中的应用研究*——以碳捕集技术为例[J]. 数据分析与知识发现, 2017, 1(1): 55-63.
[8] 曲云鹏,王文玲. 一种分布式语义增强的词汇链文本表示模型构建方法[J]. 现代图书情报技术, 2016, 32(9): 34-41.
[9] 杨旸,林辉,胡广伟. 面向光伏项目投资风险的大数据监测指标甄选研究*——以Solarbao平台为例[J]. 现代图书情报技术, 2016, 32(11): 11-19.
[10] 卓可秋, 虞为, 苏新宁. 突发事件检测的MapReduce并行化实现[J]. 现代图书情报技术, 2015, 31(2): 46-54.
[11] 赵华茗. 分布式环境下的文本聚类研究与实现[J]. 现代图书情报技术, 2015, 31(1): 82-88.
[12] 张智雄, 刘建华, 谢靖, 钱力, 张敏, 于改红. 科技战略情报监测服务云平台的设计与实现[J]. 现代图书情报技术, 2014, 30(6): 51-61.
[13] 余伟萍, 杨于峰. 微博上的品牌丑闻溢出监测指标体系研究[J]. 现代图书情报技术, 2013, 29(2): 63-69.
[14] 朱玉强. 图书馆电子资源可否浏览及下载监测程序设计[J]. 现代图书情报技术, 2013, 29(11): 86-90.
[15] 肖强, 朱庆华, 郑华, 吴克文. Hadoop环境下的分布式协同过滤算法设计与实现[J]. 现代图书情报技术, 2013, 29(1): 83-89.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn