Please wait a minute...
Advanced Search
现代图书情报技术  2010, Vol. 26 Issue (2): 24-30     https://doi.org/10.11925/infotech.1003-3513.2010.02.05
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于通用搜索引擎的深层网络表面化方法研究
郭少友
(郑州大学信息管理系  郑州 450001)
Research on Deep Web Surfacing Based on Common Search Engines
Guo Shaoyou
(Department of Information Management, Zhengzhou University, Zhengzhou 450001, China)
全文: PDF (827 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

在现有相关研究的基础上,对基于通用搜索引擎的深层网络表面化方法的基本原理进行分析,对表单域取值范围的确定、查询处理、查询结果的超链接设置等与深层网络表面化相关的若干关键问题进行探讨。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
郭少友
关键词 搜索引擎深层网络表面化数据库    
Abstract

On the basis of related works, this paper analyzes the basic principle of deep Web surfacing based on common search engines. Several key issues related to the deep Web surfacing are discussed, which include determination of value ranges of form fields, query processing, and hyperlink setting in result pages.

Key wordsSearch engine    Deep Web    Surfacing    Database
收稿日期: 2010-02-03      出版日期: 2010-02-25
: 

TP393

 
通讯作者: 郭少友     E-mail: gsy6@ha.edu.cn
作者简介: 郭少友
引用本文:   
郭少友. 基于通用搜索引擎的深层网络表面化方法研究[J]. 现代图书情报技术, 2010, 26(2): 24-30.
Guo Shaoyou. Research on Deep Web Surfacing Based on Common Search Engines. New Technology of Library and Information Service, 2010, 26(2): 24-30.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2010.02.05      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2010/V26/I2/24

[1] Bergman M K. White Paper: The Deep Web: Surfacing Hidden Value[EB/OL]. [2009-10-20]. http://www.press.umich.edu/jep/07-01/bergman.html.
[2] 刘伟,孟小峰,孟卫一. Deep Web数据集成研究综述[J].计算机学报,2007,30(9):1475-1489.
[3] Doan A H, Domingos P, Halevy A. Reconciling Schemas of Disparate Data Sources: A Machine Learning Approach[EB/OL]. [2009-10-12]. http://www.cs.washington.edu/homes/pedrod/papers/sigmod01.pdf.
[4] Raghavan S, Garcia-Molina H. Crawling the Hidden Web[EB/OL]. [2010-02-11]. http://www.dia.uniroma3.it/~vldbproc/017_129.pdf.
[5] Deep Query Manager[EB/OL]. [2009-10-20]. http://brightplanet.com/products/dqm.asp.
[6] Callan J, Connell M. Query-based Sampling of Text Databases[J]. ACM Transactions on Information Systems, 2001,19(2):97-130.
[7] Ipeirotis P, Gravano L. Distributed Search over the Hidden Web: Hierarchical Database Sampling and Selection[EB/OL]. [2009-10-22]. http://softbase.uwaterloo.ca/~tozsu/courses/cs856/W05/Presentations/HiddenWeb_Amr.pdf.
[8] Ntoulas A, Zerfos P, Cho J. Downloading Textual Hidden Web Content Through Keyword Queries [EB/OL]. [2009-10-12]. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.105.137&rep=rep1&type=pdf.
[9] Wu P, Wen J R, Liu H, et al. Query Selection Techniques for Efficient Crawling of Structured Web Sources[EB/OL]. [2009-10-12]. http://research.microsoft.com/en-us/um/people/jrwen/jrwen_files/publications/deepwebcrawling.pdf.
[10] Byers S, Freire J, Silva C. Efficient Acquisition of Web Data Through Restricted Query Interfaces[EB/OL]. [2009-10-15]. http://www10.org/cdrom/posters/1051.pdf.
[11] Madhavan J, Ko D, Kot L, et al. Google’s Deep-Web Crawl[EB/OL]. [2009-10-15].http://www.cs.cornell.edu/~lucja/Publications/i03.pdf.
[12] 阿拉丁计划[EB/OL]. [2009-09-24]. http://baike.baidu.com/view/2086291.htm.

[1] 李晓, 曲建升. 元分析在社会科学领域的应用与进展述评*[J]. 数据分析与知识发现, 2021, 5(11): 1-12.
[2] 沈喆, 王毅, 姚毅凡, 成颖. 面向学术文献的作者名消歧方法研究综述*[J]. 数据分析与知识发现, 2020, 4(8): 15-27.
[3] 沈志宏,赵子豪,王海波. 以图为中心的新型大数据技术栈研究 *[J]. 数据分析与知识发现, 2020, 4(7): 50-65.
[4] 孙海霞, 王蕾, 吴英杰, 华薇娜, 李军莲. 科技文献数据库中机构名称匹配策略研究*[J]. 数据分析与知识发现, 2018, 2(8): 88-97.
[5] 刘彤,倪维健,柳梅. 面向搜索引擎查询日志的领域术语自动识别方法*[J]. 现代图书情报技术, 2016, 32(2): 25-33.
[6] 翟东升, 刘鹤, 张杰, 蔡力伟. 基于图形数据库的专利语义知识库构建技术研究[J]. 数据分析与知识发现, 2016, 32(12): 66-75.
[7] 高广尚, 张智雄. 关系数据库中实体解析研究综述[J]. 现代图书情报技术, 2015, 31(7-8): 37-47.
[8] 童国平, 孙建军. 基于搜索日志的用户行为分析[J]. 现代图书情报技术, 2015, 31(7-8): 80-88.
[9] 范云满, 洪娜, 钱庆, 方安. 利用Hadoop/HBase的药物基因组数据云存储实践研究[J]. 现代图书情报技术, 2015, 31(5): 73-79.
[10] 王晰巍, 赵丹, 杨梦晴, 魏俊巍. 行业网站搜索引擎优化指标及实证研究——基于信息生态视角的分析[J]. 现代图书情报技术, 2015, 31(3): 75-83.
[11] 陈勇, 李红莲, 吕学强. 网络用户搜索行为特征分析[J]. 现代图书情报技术, 2014, 30(12): 10-17.
[12] 翟东升, 张欣琦, 张杰, 康宁. 分布式专利信息抽取系统设计与构建[J]. 现代图书情报技术, 2013, 29(7/8): 114-121.
[13] 王孝亮, 王威. 通过防火墙日志挖掘构建电子期刊数据库统计分析系统[J]. 现代图书情报技术, 2013, 29(7/8): 122-126.
[14] 曲建峰, 孙翌, 徐汝兴, 施晓华. Oracle RAC集群技术在图书馆集成管理系统中的应用[J]. 现代图书情报技术, 2012, 28(7): 133-138.
[15] 赵衍, 陈恒. 一种提高中英文混编文本标引准确性的方法[J]. 现代图书情报技术, 2012, 28(6): 36-42.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn