Please wait a minute...
Advanced Search
现代图书情报技术  2010, Vol. 26 Issue (10): 82-86     https://doi.org/10.11925/infotech.1003-3513.2010.10.14
  应用实践 本期目录 | 过刊浏览 | 高级检索 |
基于Nutch的开放存取搜索引擎构建研究
崔宇红, 张奎
北京理工大学图书馆 北京 100081
Research on Building an Open Access Search Engine with Nutch
Cui Yuhong, Zhang Kui
Beijing Institute of Technology Library, Beijing 100081,China
全文: PDF (928 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

研究当前主要的开放存取搜索系统的实现机制,选择基于网络爬虫的搜索引擎技术,利用开源软件Nutch构建分布式DSearch实验系统,为开放存取资源出版和信息服务机构提供一种高效、灵活、可定制的检索工具。重点介绍DSearch系统核心技术——分布式集群配置、中文分词模块修改和索引设置,并通过设定的种子列表实验对DSearch系统实现的功能和效果进行评价。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
崔宇红
张奎
关键词 开放存取搜索引擎Nutch中文学术资源    
Abstract

Integrated retrieval mechanism is studied for open access system and the Web crawling is used to build a distributed DSearch system based on Nutch, which can provide a kind of efficient, flexible, customizable search tools. Three key technologies are also introduced,including distributed cluster configuration,Chinese word splitter modification and index settings. Finally,the functions of DSearch are evaluated with the selected feed lists.

Key wordsOpen    access    Search    engine    Nutch    Chinese    academic    resources
收稿日期: 2010-07-12      出版日期: 2011-01-04
: 

TP39

 
基金资助:

本文系北京理工大学校基础研究基金项目“机构知识库构建研究”(项目编号:20061442003)的研究成果之一。

引用本文:   
崔宇红, 张奎. 基于Nutch的开放存取搜索引擎构建研究[J]. 现代图书情报技术, 2010, 26(10): 82-86.
Cui Yuhong, Zhang Kui. Research on Building an Open Access Search Engine with Nutch. New Technology of Library and Information Service, 2010, 26(10): 82-86.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2010.10.14      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2010/V26/I10/82


[1] DOAJ . . http://www.doaj.org.

[2] OpenDOAR . .http://www.opendoar.org.

[3] 李春旺. 网络环境下学术信息的开放存取
[J]. 中国图书馆学报 ,2005,31(1):33-37.

[4] The OAIster Database . .http://www.oclc.org/oaister/.

[5] Norris M, Oppenheim C, Rowland F. Finding Open Access Articles Using Google, Google Scholar, OAIster and OpenDOAR
[J]. Online Information Review, 2008, 32(6):709-715.

[6] Welcome to Apache Hadoop . .http://hadoop.apache.org/index.pdf.

[7] Welcome to Pig! . .http://hadoop.apache.org/pig/index.pdf.

[8] Dean J, Ghemawat S. MapReduce: Simplified Data Processing on Large Cluster . .http://labs.google.com/papers/mapreduce-osdi04.pdf.

[9] Paoding . .http://code.google.com/p/paoding/.

[1] 刘彤,倪维健,柳梅. 面向搜索引擎查询日志的领域术语自动识别方法*[J]. 现代图书情报技术, 2016, 32(2): 25-33.
[2] 童国平, 孙建军. 基于搜索日志的用户行为分析[J]. 现代图书情报技术, 2015, 31(7-8): 80-88.
[3] 王晰巍, 赵丹, 杨梦晴, 魏俊巍. 行业网站搜索引擎优化指标及实证研究——基于信息生态视角的分析[J]. 现代图书情报技术, 2015, 31(3): 75-83.
[4] 陈勇, 李红莲, 吕学强. 网络用户搜索行为特征分析[J]. 现代图书情报技术, 2014, 30(12): 10-17.
[5] 滕广青, 毕强, 鲍玉来. 基于粒度概念分析法的文献关键词分析——以Ontology领域关键词为例[J]. 现代图书情报技术, 2011, 27(9): 1-6.
[6] 张李义, 陈明英. 搜索引擎的灵敏度和特异度研究[J]. 现代图书情报技术, 2011, 27(7/8): 41-46.
[7] 王继民, 李雷明子, 张鹏. 搜索引擎日志挖掘领域的论文合著网络分析[J]. 现代图书情报技术, 2011, 27(4): 58-63.
[8] 张红斌, 曹义亲. 混合多层分类和朴素贝叶斯模型的垂直搜索引擎分类器设计[J]. 现代图书情报技术, 2011, 27(3): 73-79.
[9] 周之诚. 基于查询意图聚类的实时搜索建议[J]. 现代图书情报技术, 2011, 27(2): 87-93.
[10] 柯青, 成颖, 郑彦宁, 潘云涛. 搜索引擎可用性评价指标体系构建[J]. 现代图书情报技术, 2011, (11): 24-30.
[11] 景璟, 洪颖, 蒋媛媛, 杲晓锋. 基于相关反馈的Web检索提问融合研究[J]. 现代图书情报技术, 2011, 27(1): 57-62.
[12] 常智荣,马自卫,李高虎. 基于Nutch的专题网页资源采集服务系统的设计与实现[J]. 现代图书情报技术, 2010, 26(3): 19-26.
[13] 郭少友. 基于通用搜索引擎的深层网络表面化方法研究[J]. 现代图书情报技术, 2010, 26(2): 24-30.
[14] 崔宇红. 机构知识库自动存储系统研究[J]. 现代图书情报技术, 2010, 26(12): 76-80.
[15] 聂靖, 李强, 庞力, 应慧杰. 移动元搜索引擎中网页内容提取算法研究[J]. 现代图书情报技术, 2010, 26(10): 54-58.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn