Please wait a minute...
Advanced Search
现代图书情报技术  2008, Vol. 24 Issue (6): 83-87     https://doi.org/10.11925/infotech.1003-3513.2008.06.16
  应用实践 本期目录 | 过刊浏览 | 高级检索 |
基于动态隧道算法的网络爬行器设计与实现*
任小燕1  康小军2  张红卫1
1(三峡大学电气信息学院 宜昌 443002)
2(三峡大学信息中心 宜昌 443002)
Web Crawler’s Design and Implementation Based on Dynamic Tunneling
Ren XiaoyanKang XiaojunZhang Hongwei1
1(The College of Electrical Engineering & Information Technology, China Three Gorges University,Yichang 443002,China)
2(Information Technology Center,China Three Gorges University,Yichang 443002,China)
全文: PDF (638 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

在分析传统网络爬行器爬行算法的基础上,通过将隧道算法和网页页面分块技术相结合,指导专题爬行器进行爬行。通过4所高校门户网站的教育资源搜索实验表明,新的算法可以有效提高搜索效率。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
张红卫
任小燕
康小军
关键词 爬行器隧道穿越网页分块    
Abstract

 Based on analysis of the traditional Web Crawlers’ searching mechanics,this paper combines the tunneling and Web page division with Web Crawler’s searching strategy. Then a dynamic tunneling Web Crawler’s searching algorithm is proposed. Experiments in four university Websites are carried out in allusion to “education resources”, and results show that the new algorithm outperforms two standard crawlers for focused crawling.

Key wordsWeb crawlers    Tunneling    Web page division
收稿日期: 2007-12-05      出版日期: 2008-06-25
: 

TP393

 
基金资助:

*本文系湖北省教育厅教学研究项目“多层次计算机网络实验教学改革与实践”(项目编号:20070229)的研究成果之一。

通讯作者: 任小燕     E-mail: rxy327@ctgu.edu.cn
作者简介: 任小燕,康小军,张红卫
引用本文:   
任小燕,康小军,张红卫. 基于动态隧道算法的网络爬行器设计与实现*[J]. 现代图书情报技术, 2008, 24(6): 83-87.
Ren Xiaoyan,Kang Xiaojun,Zhang Hongwei. Web Crawler’s Design and Implementation Based on Dynamic Tunneling. New Technology of Library and Information Service, 2008, 24(6): 83-87.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2008.06.16      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2008/V24/I6/83

[1] Bermark D , Lagoze C, Sbiltyakov A. Focused Crawls, Tunneling, and Digital Libraries[C].In: Proceedings of the 6th European Conferrence on Research Advanced Technology for Digital Libraries, Lecture Notes In Computer Science,2002,2458:91-106.
[2] Luo N,Zuo W L,Yuan F Y. Gray Tunneling Based on Block Relevance for Focused Crawling[EB/OL].[2007-12-30].http://www.atlantis-press.com/php/download_paper?id=1288.
[3] 封化民,刘飚,刘艳敏,等.含有位置坐标树的Web页面分析和内容提取框架[J].清华大学学报,2005,45(S):1767-1771.
[4] Lin S H, Ho J M. Discovering Informative Content Blocks from Web Documents[C]. In: Proceedings of the ACM SIGKDD Int.2002. New York: ACM Press, 2002:588-593.
[5] Kovacevic M, Diligenti M,  Gori M, et al.Recognition of Common Area in a Web Page Using Visual Information: A Possible Application in a Page Classification[C]. In: Proceeding of the 10th international Conference on Artifical Intelligence:Methodology, Systems, Application. Varna:Springer,2002:203-212.
[6] 荆涛,左万利. 基于可视布局信息的网页噪音去除算法[J]. 华南理工大学学报(自然科学版),2004, 32(增刊):84-87.
[7] 王知津,贾福新,郑红军.现代信息检索[M]. 北京:机械工业出版社,2006.
[8] Srinivasan P, Menczer F,  Pant G. A General Evaluation Framework for Topical Crawlers[J]. Information Retrieval, 2005,8(3):417-447.
[9] 教育信息化技术标准委员会.CELTS-31:教育资源建设技术规范[EB/OL].[2005-12-20].http:// www.edu.cn/html/keyanfz/doc20020210/13.doc.

[1] 乔建忠. 一种基于改进BFS算法的主题搜索技术研究[J]. 现代图书情报技术, 2013, 29(7/8): 28-35.
[2] 乔建忠. 一种基于统计特征面向“类型”主题抓取的网页相关性判断策略研究[J]. 现代图书情报技术, 2012, 28(6): 9-16.
[3] 乔建忠. 基于锚与链接文本扩展的KBES算法隧道策略[J]. 现代图书情报技术, 2011, 27(3): 45-50.
[4] 李春旺 . 基于OSS的主题搜索引擎设计与实现[J]. 现代图书情报技术, 2007, 2(1): 49-52.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn