应用正则式抽取Google网页内容

doi:10.11925/infotech.1003-3513.2005.09.12

现代图书情报技术

2005, Vol. 21

Issue (9): 50-53 https://doi.org/10.11925/infotech.1003-3513.2005.09.12

信息检索技术

本期目录 | 过刊浏览 | 高级检索

应用正则式抽取Google网页内容

张健¹ 欧红²

¹(长沙理工大学图书馆长沙 410076)
²(湖南图书馆长沙 410011)

Extracting the Content of Google Web Page with Regular Expressions

Zhang Jian¹ Ou Hong²

¹(Library of Changsha University of Science and Technology, Changsha 410076,China)
²(Hunan Library,Changsha 410011,China)

摘要
参考文献
相关文章
Metrics

全文:
输出: BibTeX | EndNote (RIS)

摘要

正确、完整地抽取搜索网页的内容，是对检索到的信息进行处理的基本前提。本文分析了Google网页的结构特征，给出了一组匹配Google网页内容的正则式，并用Visual C# 实现了一个内容抽取器。对多个Google网页的实际应用表明，本文提出的正则式匹配方法可以抽取Google网页的全部主要内容。

	服务

	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章

关键词 ：正则式, 抽取, 网页, Google

Abstract：

That properly and completely extracting the content of search Web pages is the basic precondition for handling the information retrieved.This paper analyses the structure characteristic of Google Web pages,presents a group of regular expressions for matching the content of these pages,and realizes a content extractor with Visual C#.The results from practical application to many Google Web pages shows that the matching method with regular expressions can extract the whole main content of Google Web pages.

Key words： Regular expressions Extraction Web page Google

收稿日期: 2005-05-30 出版日期: 2005-09-25

:	G354.4

	TP391.3

通讯作者: 张健 E-mail: ehulh@163.com

作者简介: 张健,欧红

引用本文:

张健,欧红. 应用正则式抽取Google网页内容[J]. 现代图书情报技术, 2005, 21(9): 50-53.
Zhang Jian,Ou Hong. Extracting the Content of Google Web Page with Regular Expressions. New Technology of Library and Information Service, 2005, 21(9): 50-53.

链接本文:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2005.09.12 或 https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2005/V21/I9/50

1孟小峰.Web信息集成技术研究.计算机应用与软件,2003,20(11):32-36
2黄红华，俞勇.CWIWSK——从半结构化中抽取信息的归纳规则方法.上海交通大学学报,2003,37(3):424-427
3Theodore W.Hong,Keith L.Clark.Towards a Universal Web Wrapper.In:Proceddings of the 17th International Florida Intelligence Research Symposium Conference.Florida,USA:AAAI Press,2004. Available at:
4吴伟，刘友华.基于DOM的Web信息自动抽取.现代图书情报技术,2004(2):68-71
5Google Web APIs Reference.http://www.google.com/api/reference，(Accessed May. 8,2005)
6Linger,F.,McQueen,C.,Wilton,P.著.刘乐亭译.C#字符串和正则表达式参考手册.北京:清华大学出版社，2003
7Archer,T.,Whitechapel,A.著.马朝晖等译.C#技术揭秘.北京:机械工业出版社,2003
8张志刚，陈静，李晓明.一种HTML网页净化方法.情报学报,2004,23(4):387-393

[1]	王一钒,李博,史话,苗威,姜斌. 古汉语实体关系联合抽取的标注方法*[J]. 数据分析与知识发现, 2021, 5(9): 63-74.
[2]	马江微, 吕学强, 游新冬, 肖刚, 韩君妹. 融合BERT与关系位置特征的军事领域关系抽取方法^*[J]. 数据分析与知识发现, 2021, 5(8): 1-12.
[3]	柴庆凤, 史霖炎, 梅珊, 熊海涛, 贺惠新. 基于人工特征和机器特征融合的科技文献知识元抽取^*[J]. 数据分析与知识发现, 2021, 5(8): 132-144.
[4]	谭荧, 唐亦非. 基于指代消解的引文内容抽取研究^*[J]. 数据分析与知识发现, 2021, 5(8): 25-33.
[5]	张建东, 陈仕吉, 徐小婷, 左文革. 基于词向量的PDF表格抽取研究^*[J]. 数据分析与知识发现, 2021, 5(8): 34-44.
[6]	喻雪寒, 何琳, 徐健. 基于RoBERTa-CRF的古文历史事件抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 26-35.
[7]	赵丹宁,牟冬梅,白森. 基于深度学习的科技文献摘要结构要素自动抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 70-80.
[8]	陈星月, 倪丽萍, 倪志伟. 基于ELECTRA模型与词性特征的金融事件抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 36-47.
[9]	王义真,欧石燕,陈金菊. 民事裁判文书两阶段式自动摘要研究^*[J]. 数据分析与知识发现, 2021, 5(5): 104-114.
[10]	闫强,张笑妍,周思敏. 基于义原相似度的关键词抽取方法 ^*[J]. 数据分析与知识发现, 2021, 5(4): 80-89.
[11]	石湘,刘萍. *基于知识元语义描述模型的领域知识抽取与表示研究 ^——以信息检索领域为例**[J]. 数据分析与知识发现, 2021, 5(4): 123-133.
[12]	成彬,施水才,都云程,肖诗斌. 基于融合词性的BiLSTM-CRF的期刊关键词抽取方法[J]. 数据分析与知识发现, 2021, 5(3): 101-108.
[13]	胡少虎,张颖怡,章成志. 关键词提取研究综述^*[J]. 数据分析与知识发现, 2021, 5(3): 45-59.
[14]	戴志宏, 郝晓玲. 上下位关系抽取方法及其在金融市场的应用^*[J]. 数据分析与知识发现, 2021, 5(10): 60-70.
[15]	王媛, 时恺泽, 牛振东. 一种用于实体关系三元组抽取的位置辅助分步标记方法^*[J]. 数据分析与知识发现, 2021, 5(10): 71-80.

Viewed

Full text

Abstract

Cited

Shared

Discussed