Please wait a minute...
Advanced Search
现代图书情报技术  2008, Vol. 24 Issue (6): 41-45     https://doi.org/10.11925/infotech.1003-3513.2008.06.08
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于ID3分类算法的深度网络爬虫设计
王舜燕 李蕾 吴兵华
(武汉理工大学计算机科学与技术学院 武汉 430070)
Design of Web Crawler for Deep Web Based on ID3 Algorithm
Wang Shunyan   Li Lei   Wu Binghua
(Department of Computer Science & Technology, Wuhan University of Technology, Wuhan 430070, China)
全文: PDF (491 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法。对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
李蕾
吴兵华
王舜燕
关键词 网络爬虫深度网络ID3算法    
Abstract

Considering the problem of poor information coverage in Web data mining, this paper proposes a configurable Web crawling method for deep Web which can improve the results performance of a general search engine significantly. It classifies Web pages and manipulates key information of page content in order to make sensible queries. The experiment results also show it.

Key words Web crawler    Deep Web    ID3 algorithm
收稿日期: 2008-03-14      出版日期: 2008-06-25
: 

TP393

 
通讯作者: 李蕾     E-mail: lilei_lisa@163.com
作者简介: 王舜燕,李蕾,吴兵华
引用本文:   
王舜燕,李蕾,吴兵华. 基于ID3分类算法的深度网络爬虫设计[J]. 现代图书情报技术, 2008, 24(6): 41-45.
Wang Shunyan,Li Lei,Wu Binghua. Design of Web Crawler for Deep Web Based on ID3 Algorithm. New Technology of Library and Information Service, 2008, 24(6): 41-45.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2008.06.08      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2008/V24/I6/41

[1] Cohen L.The Deep Web[EB/OL].[2008-01-18]. http://www.internettutorials.net/deepweb.html.
[2] 李国辉,汤大权,武德峰.信息组织与检索[M].北京:科学出版社,2003.
[3] 中国互联网络信息中心(CNNIC)[R/OL].[2008-01-18]. 中国互联网络发展状况统计报告.http://www.cnnic.cn/uploadfiles/pdf/2008/1/17/104156.pdf.
[4] 娄卓男.近几年国外隐蔽网络研究综述[J].图书情报工作,2004(1):102-104.
[5] UC Berkeley - Teaching Library Internet Workshops. Invisible Web: What it is, Why it exists, How to find it, and Its inherent ambiguity[EB/OL]. [2008-01-18]. http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html.
[6] 曲开社,成文丽,王俊红.ID3算法的一种改进算法[J].计算机工程与应用,2003,39(25):104-107.
[7] 马瑜,王有刚.ID3算法应用研究[J].信息技术,2006,30(12):84-86.

[1] 王培霞,余海,陈力,王永吉. 科技查新中检索词智能抽取系统的设计与实现*[J]. 现代图书情报技术, 2016, 32(11): 82-93.
[2] 夏天. Ajax站点数据采集研究综述*[J]. 现代图书情报技术, 2010, 26(3): 52-57.
[3] 白如星,张成昱,王茜. 基于缩略语转换的手机图书馆发布信息预处理机制初探*[J]. 现代图书情报技术, 2010, 26(3): 64-70.
[4] 刘洁清,吴京慧 . 面向主题的个人实时搜索引擎的设计与实现[J]. 现代图书情报技术, 2006, 1(5): 40-43.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn