Please wait a minute...
Advanced Search
现代图书情报技术  2010, Vol. 26 Issue (3): 19-26     https://doi.org/10.11925/infotech.1003-3513.2010.03.04
  数字图书馆 本期目录 | 过刊浏览 | 高级检索 |
基于Nutch的专题网页资源采集服务系统的设计与实现
常智荣马自卫李高虎3
1(北京邮电大学计算机学院    北京 100876)
2(北京邮电大学图书馆    北京 100876)   
3(北京邮电大学资产经营有限公司    北京 100876)
Research and Implementation of Nutch-based Website Harvest and Service System in Special Field
Chang Zhirong1   Ma Ziwei2   Li Gaohu3
1(College of Computer,Beijing University of Posts and Telecommunications, Beijing 100876, China)
2(Beijing University of Post and Telecommunication Library,Beijing 100876, China) 
3(Bupt Assets Management Co., Ltd, Beijing 100876,China)
全文: PDF (1298 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

在数字图书馆系统集成应用的框架下,提出基于Nutch的专题网页资源采集服务系统设计方案。该方案引入信息过滤模块、基于计算机通信领域专业词典的中文分词模块、GUI信息定制模块、词典和关键词管理模块等,保证采集和获取过程中资源的专题性和系统的可管理性以及易用性。重点对文本解析过滤、Plugin插件开发以及搜索结果的层次化自动聚类等相关技术进行深入研究。通过基于Webservice的服务接口,实现其在数字图书馆资源层的集成应用。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
常智荣
马自卫
李高虎
关键词 Nutch网页资源采集中文分词插件Webservice集成服务    
Abstract

This paper proposes the design of Nutch-based Website Harvest and Service system in Special field under the framework of digital library systems integration. It introduces information filtering module, dictionary-based Chinese analyzer module, GUI information module,topic-knowledge based information processing module as well as the Webservice-based search service modules to improve function and performance of the system. It focuses on text parsing filters, plugin development and applications of the level-automatic clustering of the search results. Finally, integration with other subsystem in digital library is realized through the Webservice-interface, which can provide comprehensive and professional services.

Key wordsNutch    Website harvest    Chinese analyzer plugin    Webservice    Integration services
收稿日期: 2010-03-05      出版日期: 2010-03-25
: 

G250

 
通讯作者: 常智荣     E-mail: changzhirong6@gmail.com
作者简介: 常智荣,马自卫,李高虎
引用本文:   
常智荣,马自卫,李高虎. 基于Nutch的专题网页资源采集服务系统的设计与实现[J]. 现代图书情报技术, 2010, 26(3): 19-26.
Chang Zhirong,Ma Ziwei,Li Gaohu. Research and Implementation of Nutch-based Website Harvest and Service System in Special Field. New Technology of Library and Information Service, 2010, 26(3): 19-26.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2010.03.04      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2010/V26/I3/19

[1] Nutch[EB/OL].[2009-07-20].http://lucene.apache.org/nutch/.
[2] Heritrix[EB/OL].[2009-10-24].http:// crawler.archive.org/.
[3] WCT[EB/OL].[2009-12-24].http://webcurator.sourceforge. net/.
[4] NetarchiveSuite[EB/OL].[2008-11-12].http://netarchive.dk/suite.
[5] Smart Crawler[EB/OL].[2009-11-12].http:// crawler. archive.org/.
[6] Wget[EB/OL].[2010-02-07].http://www.gnu.org/software/wget/.
[7] Hadoop[EB/OL].[2010-02-12].http://hadoop.Apache.org/.
[8] Cutting D.Nutch,Open-Source Web Search[EB/OL].[2009-01-29].http://wiki.apache.org/nutch-data/attachments/Presentations/attachments/www2004.pdf.
[9] 王学松. Lucene+Nutch 搜索引擎开发[M].北京:人民邮电出版社,2008.
[10] 徐健, 张智雄. 基于Nutch的Web网站定向采集系统[J]. 现代图书情报技术, 2009(4):1-6.
[11] HTML Parser[EB/OL].[2009-01-29].http://htmlparser.sourceforge.net/.
[12] Xu J, Xing L, Qin Z. PageRank Algorithm with Semantic Relevance of Anchor Texts[J]. Journal of Harbin Institute of Technology,2009,41 (1):223-225.
[13]  Osiński  S, Weiss D.Carrot2[EB/OL].[2009-12-05].http://project.carrot2.org.
[14] 苍宏宇,谭宗颖.聚类搜索引擎发展现状研究[J].图书情报工作,2009,33(2):125-128.
[15] Lin Q,Chen C,Zheng L.Design and Implementation of Search Engine System for Digital Library[J].Application Research of Computers,2009, 26 (8):2952-2955.

[1] 钱红丽 马自卫 李高虎. 基于开源环境下的本地数字资源系统的设计与技术实现[J]. 现代图书情报技术, 2010, 26(7/8): 102-109.
[2] 崔宇红. 机构知识库自动存储系统研究[J]. 现代图书情报技术, 2010, 26(12): 76-80.
[3] 崔宇红, 张奎. 基于Nutch的开放存取搜索引擎构建研究[J]. 现代图书情报技术, 2010, 26(10): 82-86.
[4] 李广建. 面向信息机构的嵌入式NSTL资源集成服务系统的设计与实现*[J]. 现代图书情报技术, 2009, 25(6): 2-7.
[5] 徐健,张智雄. 基于Nutch的Web网站定向采集系统*[J]. 现代图书情报技术, 2009, 25(4): 1-6.
[6] 谢靖,马自卫. 基于WebService的数字资源集成与服务平台的研究与实现[J]. 现代图书情报技术, 2008, 24(11): 7-12.
[7] 焦玉英,成全. 基于本体的知识网格集成服务研究*[J]. 现代图书情报技术, 2007, 2(8): 6-11.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn