Please wait a minute...
Advanced Search
现代图书情报技术  2007, Vol. 2 Issue (11): 58-62     https://doi.org/10.11925/infotech.1003-3513.2007.11.12
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于WebSPHINX的主题搜索引擎原理研究与结构设计
白光祖 吕俊生
1(中国科学院国家科学图书馆兰州分馆 兰州 730000)
2(中国科学院研究生院 北京 100049)  
Principle Research and Architecture Design of Focused Crawler Based on WebSPHINX
Bai Guangzu  Lv Junsheng
1(The Lanzhou Branch of the National Science Library,CAS,Lanzhou 730000, China )
2(Graduate University of CAS, Beijing 100049,China)
全文: PDF (562 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

在讨论主题搜索引擎发展缘起、基本原理及体系结构之后,对开源搜索引擎WebSPHINX的功能特点进行分析,并在此基础上自行设计一个基于WebSPHINX的主题搜索引擎。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
吕俊生
白光祖
关键词 主题搜索引擎WebSPHINX体系结构    
Abstract

After discussing the origin, basic principles and architecture of the focused crawler development, the authors analyse features of the WebSPHINX, then design a focused crawler based on WebSPHINX.

Key wordsFocused crawler    WebSPHINX    Architecture
收稿日期: 2007-09-27      出版日期: 2007-11-25
: 

TP391.3

 
通讯作者: 白光祖     E-mail: bmw6809@163.com
作者简介: 白光祖,吕俊生
引用本文:   
白光祖,吕俊生. 基于WebSPHINX的主题搜索引擎原理研究与结构设计[J]. 现代图书情报技术, 2007, 2(11): 58-62.
Bai Guangzu,Lv Junsheng. Principle Research and Architecture Design of Focused Crawler Based on WebSPHINX. New Technology of Library and Information Service, 2007, 2(11): 58-62.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2007.11.12      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2007/V2/I11/58

[1] Bergman M K.Six Major Trends Affecting Knowledge Management and Information Technology[R].White Paper Published by BrightPlanet Corporation, July,2003.
[2] Aggarwal C, Ai-Garawi F, Yu P.Intelligent Crawling on the World Wide Web with Arbitrary Predicates[C].In: Proceedings of the 10th International World Wide Web Conference, 2001.
[3] Brin S,Page L. The Anatomy of a Large-scale Hypertextual Web Search Engine[C]. In: Proceedings of the Seventh International World Wide Web Conference,1998.
[4] 李春旺. 基于OSS的主题搜索引擎设计与实现[J].现代图书情报技术, 2007,(1):49-52.
[5] WebSPHINX: A Personal,Customizable Web crawler[EB/OL].[2007-08-02].http://www.cs.cmu.edu/~rcm/websphinx/.
[6] Greenstein D.Draft Report of a Meeting Convened by the Digital Library Federation on October 5-6,2001 in Washington DC to Consider Open Source Software for Libraries.[2007-08-02]. http://www.Diglib.org/architectures/ossrep.htm.
[7] Websphinx.zip[CP/OL]. [2007-08-02].http://www.cs.cmu.edu/~rcm/websphinx/.
[8] 李春旺. Web信息主题采集技术研究[J].图书情报工作,2005,49 (4):77-80.
[9] 李盛韬. 基于主题的Web信息采集技术研究[D].中国科学院研究生院,2002.
[10] Apache Lucene.[2007-08-02].http://lucene.apache.org/java/docs/.
[11] Menczer F, Pant G, Srinivasan P.Topic—Driven crawlers:machine learning issues[EB/OL]. (2004-07-02).[2007-08-02]. http://www.informatics.indiana.edu/fil/papers.asp.

[1] 何琳, 杜慧平. 层累制分类表的SKOS化转换研究评介[J]. 现代图书情报技术, 2011, 27(6): 79-84.
[2] 高国伟,王延章,王宁. 基于元数据管理模型的电子政务公文系统应用研究*[J]. 现代图书情报技术, 2008, 24(6): 28-33.
[3] 王曰芬,张旭,邬尚君. 在线专利分析软件的总体架构*[J]. 现代图书情报技术, 2008, 24(10): 48-53.
[4] 孙辉. DRM体系结构研究*[J]. 现代图书情报技术, 2007, 2(12): 45-49.
[5] 董慧,张继东 . 基于J2EE的电子政务档案管理系统的构建与研究*[J]. 现代图书情报技术, 2006, 1(9): 73-76.
[6] 吴旭,许运红,马自卫. 数字资源管理系统的研究、设计与实现[J]. 现代图书情报技术, 2005, 21(11): 19-23.
[7] 章成志,苏新宁. 信息资源整合的建模与实现方法研究[J]. 现代图书情报技术, 2005, 21(10): 60-63.
[8] 陈氢. 集成式图像搜索引擎体系结构分析[J]. 现代图书情报技术, 2004, 20(4): 27-31.
[9] 牛振东,赵四友. 数字图书馆体系结构的发展*[J]. 现代图书情报技术, 2003, 19(3): 20-23.
[10] 吴隆基. 开发第三代分布式图书馆自动化系统的软件工程方法[J]. 现代图书情报技术, 2002, 18(1): 20-24.
[11] 吴隆基. 新世纪构建第三代分布式图书馆自动化系统[J]. 现代图书情报技术, 2001, 17(1): 20-24.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn