Please wait a minute...
Advanced Search
现代图书情报技术  2010, Vol. 26 Issue (3): 52-57    DOI: 10.11925/infotech.1003-3513.2010.03.09
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
Ajax站点数据采集研究综述*
夏天
(中国人民大学信息资源管理学院   北京 100872)
Overview of Research on Data Collection from Ajax Sites
Xia Tian
(School of Information Resource Management, Renmin University of China, Beijing 100872, China)
全文: PDF(522 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

从Ajax链接元素的识别、页面状态标识、页面状态可控性转换、页面状态内容动态获取和状态重复检测5个方面介绍Ajax数据采集所取得的最新研究进展,总结系统的整体处理流程和支撑技术,探讨新的发展趋势,推动Ajax数据采集问题展开更为深入的研究。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
夏天
关键词 数据采集Ajax网络爬虫HTML渲染器Web2.0    
Abstract

This paper introduces the recent advances achieved from five aspects, which include Ajax link elements judgment, page state identification, page state controllable transformation, content extraction and duplicated states detection. The overall processing flow and the relevant supporting technologies are summarized, and the new research trends are discussed. This study will be helpful to promote the further research on Ajax data collection issues.

Key wordsData collection    Ajax crawler    HTML renderer    Web2.0
收稿日期: 2010-03-06     
: 

G350

 
基金资助:

*本文系国家社会科学基金项目“Web2.0环境下的网络舆情采集与分析”(项目编号:09CTQ027)和中国人民大学科学研究基金项目“Web2.0网站的数据采集研究”(项目编号:22382078)的研究成果之一。

通讯作者: 夏天     E-mail: xiat@ruc.edu.cn
作者简介: 夏天
引用本文:   
夏天. Ajax站点数据采集研究综述*[J]. 现代图书情报技术, 2010, 26(3): 52-57.
Xia Tian. Overview of Research on Data Collection from Ajax Sites. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2010.03.09.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2010.03.09

[1] Garrett J. Ajax: A New Approach to Web Applications[EB/OL]. (2005-02-18).[2010-01-15]. http://www.adaptivepath.com/ideas/essays/archives/000385.php.
[2] Mesbah A, Van Deursen A. An Architectural Style for Ajax[C]. In: Proceedings of the 6th Working IEEE/IFIP Conference on Software Architecture,Mumbai, India. Washington, DC, USA :IEEE Computer Society,2007: 44-53.
[3] Bozdag E, Mesbah A, Van Deursen A. A Comparison of Push and Pull Techniques for Ajax[C]. In: Proceedings of the 9th IEEE International Symposium on Web Site Evolution,Paris, France.2007: 15-22.
[4] Mesbah A, Van Deursen A. Exposing the Hidden-Web Induced by Ajax[R/OL]. [2009-08-01]. http://swerl.tudelft.nl/twiki/pub/Main/TechnicalReports/TUD-SERG-2008-001.pdf.
[5] Frey G. Indexing Ajax Web Applications[D]. Zurich: Swiss Federal Institute of Technology Zurich, 2007.
[6] Matter R. Ajax Crawl: Making Ajax Applications Searchable[D]. Zurich: Swiss Federal Institute of Technology Zurich, 2008.
[7] Mesbah A, Bozdag E, Van Deursen A.Crawling Ajax by Inferring User Interface State Changes[C]. In: Proceedings of the 8th International Conference on Web Engineering,Yorktown Heights, NJ. Washington, DC, USA: IEEE Computer Society,2008: 122-134.
[8] 郭浩, 陆余良, 刘金红. 一种基于状态转换图的Ajax 爬行算法[J]. 计算机应用研究, 2009, 26(11): 4266-4269.
[9] Duda C, Frey G, Kossmann D, et al. AjaxSearch: Crawling, Indexing and Searching Web 2.0 Applications[J]. Proceedings of the VLDB Endowment Archive, 2008, 1(2): 1440-1443.
[10] 夏冰, 高军, 王腾蛟,等. 一种高效的动态脚本网站有效页面获取方法[J]. 软件学报, 2009, 20(z): 176-183.
[11] Xia T. Extracting Structured Data from Ajax Site[C]. In: Proceedings of 2009 International IEEE Workshop on Database Technology and Applications,Wuhan, China.2009: 259-262.
[12] Shah S. Crawling Ajax-driven Web 2.0 Applications[R/OL]. (2007-02-14). [2010-01-15].http://www.infosecwriters.com/text_resources/pdf/Crawling_AJAX_SShah.pdf.
[13] 罗兵. 支持Ajax的互联网搜索引擎爬虫设计与实现[D]. 杭州: 浙江大学, 2007.
[14] 肖卓磊. 基于Ajax技术的搜索引擎研究[D]. 武汉: 武汉理工大学, 2009.
[15] 曾伟辉, 李淼. 基于JavaScript切片的Ajax框架网络爬虫技术研究[J]. 计算机系统应用, 2009, 18(7): 169-171.
[16] Mozilla. Rhino: JavaScript for Java [EB/OL]. [2009-03-22]. http://www.mozilla.org/rhino/.
[17] Cobra: Java HTML Renderer & Parser [EB/OL]. [2009-01-19].http://lobobrowser.org/cobra.jsp.
[18] 袁小节. 基于协议驱动与事件驱动的综合聚焦爬虫研究与实现[D]. 长沙: 国防科学技术大学, 2009.
[19] Reis D C, Golgher  P B, Silva A S, et al. Automatic Web News Extraction Using Tree Edit Distance[C]. In: Proceedings of the 13th International Conference on World Wide Web, New York. New York, NY, USA: ACM Press, 2004: 502-511.
[20] Xia T. Extracting Multi-Records from Web Pages[C]. In: Proceedings of the 4th International Conference on Semantics, Knowledge and Grid, Beijing, China.2008: 396-399.
[21] Marzal A, Vidal E. Computation of Normalized Edit Distance and Applications[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1993, 15(9): 926-932.
[22] Buttler D. A Short Survey of Document Structure Similarity Algorithm[C]. In: Proceedings of the 5th International Conference on Internet Computing,Las Vegas, US.2004: 3-9.
[23] Webrenderer [EB/OL]. [2010-02-16]. http://www.webrenderer.com/.
[24] Webclient [EB/OL]. (2007-09-23). [2010-02-16].http://www.mozilla.org/projects/blackwood/webclient/.
[25] JRex-The Java Browser Component[EB/OL]. [2009-06-21]. http://jrex.mozdev.org/.
[26] JExplorer [EB/OL].[2010-01-29]. http://www.teamdev.com/jexplorer/.
[27] Watij[EB/OL]. [2009-11-16]. http://watij.com/.
[28] Watir [EB/OL]. [2009-11-16]. http://watir.com/.
[29] HtmlUnit[EB/OL]. [2010-02-09]. http://htmlunit.sourceforge.net/.
[30] XHTML Renderer Project[EB/OL]. [2009-07-01]. https://xhtmlrenderer.dev.java.net/.
[31] CSS Parser[EB/OL]. [2009-11-16]. http://cssparser.sourceforge.net/.
[32] Crowbar[EB/OL]. [2010-01-16]. http://simile.mit.edu/wiki/Crowbar.
[33] FireWatir[EB/OL]. [2010-01-14]. http://code.google.com/p/firewatir/.

 

[1] 李丹, 闫晓弟, 魏青山. Drupal数据采集在构建特色数字资源中的实践[J]. 现代图书情报技术, 2015, 31(7-8): 148-154.
[2] 陈涛, 张永娟, 陈恒. Web数据到RDF数据的框架实现[J]. 现代图书情报技术, 2015, 31(2): 1-6.
[3] 李蕾, 章成志. 社会化标签质量评估研究综述[J]. 现代图书情报技术, 2013, 29(11): 22-29.
[4] 赵妍, 苏玉召, 管涛. 一种提高过滤用户偏好精度的数据采集方法[J]. 现代图书情报技术, 2011, (11): 31-37.
[5] 郭文丽 赵晓晔 周婕. 基于Ajax的图书馆讲座预约系统构建[J]. 现代图书情报技术, 2010, 26(5): 84-88.
[6] 薛娟. 基于社会化标签的高校图书馆学科导航 系统的设计与实现[J]. 现代图书情报技术, 2010, 26(11): 90-93.
[7] 孟健,张李义. 一种基于REST服务和Mashup的分布式商品信息集成模型*[J]. 现代图书情报技术, 2010, 26(1): 15-21.
[8] 谈春梅,段卫华,曹松强. 网络专题知识库关键技术的研究与实现*[J]. 现代图书情报技术, 2009, 25(4): 70-74.
[9] 邹荣,范爱红,姜爱蓉. 基于DSpace构建科研论文管理系统[J]. 现代图书情报技术, 2009, (10): 90-94.
[10] 李峰,李春旺. Mashup关键技术研究[J]. 现代图书情报技术, 2009, 3(1): 44-49.
[11] 乐小虬,李宇,张晓林,张智雄,李春旺. 嵌入式桌面信息服务及其系统实现[J]. 现代图书情报技术, 2008, 24(3): 7-11.
[12] 孟晓川,马自卫. 基于Liferay的多维化门户系统在数字图书馆中的研究与实现[J]. 现代图书情报技术, 2008, 24(12): 8-14.
[13] 李鹏,乔晓东,韩烽,王继田,梁健,张寅生. 基于用户浏览行为的数据采集及应用*[J]. 现代图书情报技术, 2008, 24(11): 56-59.
[14] 王伟军,熊瑞,成江东. 利用DotNetNuke构建基于Web2.0的知识管理平台*[J]. 现代图书情报技术, 2007, 2(7): 41-45.
[15] 沈奎林. 用Web2.0技术改造高校可视化网络教学系统[J]. 现代图书情报技术, 2007, 2(7): 46-49.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn