Please wait a minute...
Advanced Search
现代图书情报技术  2007, Vol. 2 Issue (2): 49-52     https://doi.org/10.11925/infotech.1003-3513.2007.02.10
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
搜索引擎返回结果自动抽取
藕军 任明仑
(合肥工业大学计算机网络研究所 合肥 230009)
Automated Extraction of Search Engine Results
Ou Jun   Ren Minglun
(Institute of Computer Network of Hefei University of Technology,Hefei 230009,China)
全文: PDF (501 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

提出一种从搜索引擎返回结果页面上自动抽取结果记录及后续页面链接信息并生成Wrapper的方法:对于一个有效的结果页面,通过比较其HTML标签树上节点的相似度从而识别出潜在记录块,利用启发式规则从潜在记录块中将结果记录块和后续页面链接分别识别出来,然后利用其在标签树上的位置信息分别构造Wrapper。实验结论及与已有方法的比较表明,该方法简单可行且高效。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
任明仑
藕军
关键词 搜索引擎Web信息抽取包装器生成HTML标签树节点相似度    
Abstract

Present a new method for automatically extracting Search Result Records(SRRs) and Subsequent Result Page Links(SRPLs) from a search engine’s response page. Compare the similarity of nodes on the HTML tags tree of a valid response page to recognize Candidated Records Blocks(CRBs).And recognize SRRs and SRPLs form CRBs based on several heuristic rules.Then building wrapper for them using their location on tags tree. Experiments and comparison with other methods show that the methed is useful and efficient.

Key wordsSearch engine    Web information extraction    Wrapper generation    HTML tags tree    Nodes similarity
收稿日期: 2006-11-24      出版日期: 2007-02-25
: 

TP391.3

 
通讯作者: 藕军     E-mail: 1717go@gmail.com
作者简介: 藕军,任明仑
引用本文:   
藕军,任明仑 . 搜索引擎返回结果自动抽取[J]. 现代图书情报技术, 2007, 2(2): 49-52.
Ou Jun,Ren Minglun . Automated Extraction of Search Engine Results. New Technology of Library and Information Service, 2007, 2(2): 49-52.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2007.02.10      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2007/V2/I2/49

1Wu Z, Meng W,  Raghavan V,  Yu C, He H, Qian H,  Vuyyuru R. Towards Automatic Incorporation of Search Engines into a Large-Scale Metasearch Engine. IEEE/WICWI-2003 Conference.2003
2Doorenbos R B, Etzioni O,  Weld D S. A Scalable Comparison-Shopping Agent for the World-Wide-Web.Proceedings of the first International Conference on Autonomous Agents, California,1997
3Line Eikvil.网上信息抽取技术纵览.2003.http://www.byiit.com/in2in/www/hongbiao/IESurvey/toc.htm(Accessed Sept.21,2006)
4Liu B,  Grossman R and  Zhai Y. Mining Data Records in Web Pages. SIGKDD’03, 2003
5Hongkun Zhao, Weiyi Meng, Zonghuan Wu, Vijay Raghavan, Clement Yu. Fully Automatic Wrapper Generation for Search Engines . Proc. of 14th International World Wide Web Conference (WWW14), Japan,200566-75
6Dheerendranath Mundluru, Zonghuan Wu, Vijay Raghavan, Weiyi Meng, Hongkun Zhao. Automatically Extracting Subsequent Response Pages from Web Search Sources.IEEE Workshop on Knowledge Acquisition from Distributed, Autonomous, Semantically Heterogeneous Data and Knowledge Sources .2005
7W3C. DOM. 2004. http://www.w3.org/TR/2004/REC-DOM-Level-3-Core-20040407(Accessed Sept.21,2006)
8李效东,顾毓清.基于DOM的Web信息抽取.计算机学报,2005,25(5):526-533

[1] 刘彤,倪维健,柳梅. 面向搜索引擎查询日志的领域术语自动识别方法*[J]. 现代图书情报技术, 2016, 32(2): 25-33.
[2] 童国平, 孙建军. 基于搜索日志的用户行为分析[J]. 现代图书情报技术, 2015, 31(7-8): 80-88.
[3] 王晰巍, 赵丹, 杨梦晴, 魏俊巍. 行业网站搜索引擎优化指标及实证研究——基于信息生态视角的分析[J]. 现代图书情报技术, 2015, 31(3): 75-83.
[4] 陈勇, 李红莲, 吕学强. 网络用户搜索行为特征分析[J]. 现代图书情报技术, 2014, 30(12): 10-17.
[5] 张李义, 陈明英. 搜索引擎的灵敏度和特异度研究[J]. 现代图书情报技术, 2011, 27(7/8): 41-46.
[6] 王继民, 李雷明子, 张鹏. 搜索引擎日志挖掘领域的论文合著网络分析[J]. 现代图书情报技术, 2011, 27(4): 58-63.
[7] 张红斌, 曹义亲. 混合多层分类和朴素贝叶斯模型的垂直搜索引擎分类器设计[J]. 现代图书情报技术, 2011, 27(3): 73-79.
[8] 周之诚. 基于查询意图聚类的实时搜索建议[J]. 现代图书情报技术, 2011, 27(2): 87-93.
[9] 柯青, 成颖, 郑彦宁, 潘云涛. 搜索引擎可用性评价指标体系构建[J]. 现代图书情报技术, 2011, (11): 24-30.
[10] 景璟, 洪颖, 蒋媛媛, 杲晓锋. 基于相关反馈的Web检索提问融合研究[J]. 现代图书情报技术, 2011, 27(1): 57-62.
[11] 聂卉 黄贵鹏. 树编辑距离在Web信息抽取中的应用与实现*[J]. 现代图书情报技术, 2010, 26(5): 29-34.
[12] 詹佳佳. 基于Web-Harvest的Web信息抽取系统的设计与应用[J]. 现代图书情报技术, 2010, 26(3): 76-81.
[13] 郭少友. 基于通用搜索引擎的深层网络表面化方法研究[J]. 现代图书情报技术, 2010, 26(2): 24-30.
[14] 崔宇红, 张奎. 基于Nutch的开放存取搜索引擎构建研究[J]. 现代图书情报技术, 2010, 26(10): 82-86.
[15] 聂靖, 李强, 庞力, 应慧杰. 移动元搜索引擎中网页内容提取算法研究[J]. 现代图书情报技术, 2010, 26(10): 54-58.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn