Please wait a minute...
Advanced Search
现代图书情报技术  2009, Vol. 3 Issue (2): 83-88     https://doi.org/10.11925/infotech.1003-3513.2009.02.14
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
正则表达式在油价事件网页提取中的应用*
邵增荣   李英   范体军
(华东理工大学商学院   上海 200237)
The Application of Regular Expressions in Online Oil Price Event
Shao Zengrong  Li Ying  Fan Tijun
(School of Business, East China University of Science and Technology, Shanghai 200237, China)
全文: PDF (775 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

利用正则表达式在字符串操作上的优势,实现从不规则含噪页面中对油价事件信息的抓取,指出实现中的难点要点,并验证正则表达式在字符串处理中强大的结构描述能力。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
邵增荣
李英
范体军
关键词 正则表达式网页数据抓取数据清洗字符串处理    
Abstract

With the advantages of regular expression in string manipulation,this paper realizes extraction of oil price information from noisy and irregular Webpages. Points of importance and difficulty in realization are pointed out, and the structural description ability of regular expression in string manipulation is testified.

Key wordsRegular Expression    Webpage Data Extraction    Data Cleaning    String Processiong
收稿日期: 2008-10-09      出版日期: 2009-02-25
: 

 

 
  TP391

 
基金资助:

* 本文系“十一五”国家科技支撑计划项目“国外矿产资源开发利用风险评价技术研究”(项目编号:2006BAB08B01)的研究成果之一。

通讯作者: 邵增荣     E-mail: shaozengrong@hotmail.com
作者简介: 邵增荣,李英,范体军
引用本文:   
邵增荣,李英,范体军. 正则表达式在油价事件网页提取中的应用*[J]. 现代图书情报技术, 2009, 3(2): 83-88.
Shao Zengrong,Li Ying,Fan Tijun. The Application of Regular Expressions in Online Oil Price Event. New Technology of Library and Information Service, 2009, 3(2): 83-88.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2009.02.14      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2009/V3/I2/83

[1] Qin B, Wang S, Du X Y, et al. Graph-based Query Rewriting for Knowledge Sharing Between Peer Ontologies[J]. Information Sciences, 2008,178(18):3525-3542.
[2] Marcelo A, Leonid L. XML Data Exchange: Consistency and Query Answering[J]. Journal of the ACM, 2008,55(2):29-60.
[3] 胡立辉, 周斌, 黄园媛.基于正则式的维普网全自动包装器的实现[J]. 计算机工程与应用, 2006(31):87-89.
[4] 胡思康, 曹元大.Web网页知识获取技术[J].北京理工大学学报,2006,26(12): 1065-1068.
[5] 蒋宗礼, 姜守旭.形式语言与自动机理论[M]. 北京: 清华大学出版社, 2007: 24-62.
[6] (美)佛瑞德(Friedl J E F). 精通正则表达式(第3版)[M]. 北京: 电子工业出版社, 2007: 230-357.
[7] 王功明, 吴华瑞, 赵春江, 等. 正则表达式在电子政务客户端校验中的应用[J]. 计算机工程, 2007,35(9): 269-271.
[8] (美)宾德(Binder R V). 面向对象系统测试:模型、视图与工具[M]. 北京: 科学出版社, 2003: 478-520.
[9] 邱清盈, 郑国民, 冯培恩, 等. 基于正则表达式的专利信息提取方法研究[J]. 中国机械工程, 2007, 18(19): 2326-2329.
[10] 吴薇. 大规模短文本的分类过滤方法研究[D].  北京: 北京邮电大学, 2007.
[11] 张娜. 基于正则表达式的深度包检测研究[D]. 上海: 华东师范大学, 2007.

[1] 刘伙玉, 王东波. 面向论文相似性检测的数据预处理研究[J]. 现代图书情报技术, 2015, 31(5): 50-56.
[2] 张红斌, 李广丽. 商品在线评价的情感倾向性分析研究[J]. 现代图书情报技术, 2012, (10): 61-66.
[3] 叶焕倬, 吴迪. 相似重复记录清理方法研究综述[J]. 现代图书情报技术, 2010, 26(9): 56-66.
[4] 雷孝平, 张旭, 赵蕴华, 郑佳. 基于IRPU算法的专利数据相似重复属性及记录检测方法[J]. 现代图书情报技术, 2010, 26(12): 46-51.
[5] 李晶,倚海伦,师俏梅. 电子期刊数据采集系统的设计与实现[J]. 现代图书情报技术, 2009, 25(6): 81-84.
[6] 黄永文,李广建. 数字图书馆中的ETL应用研究综述[J]. 现代图书情报技术, 2007, 2(12): 1-5.
[7] 王曰芬,章成志,张蓓蓓,吴婷婷. 数据清洗研究综述[J]. 现代图书情报技术, 2007, 2(12): 50-56.
[8] 刘小波,谢芊,李留英. 应用正则表达式在ASP.NET中实现优化的输入验证方法[J]. 现代图书情报技术, 2005, 21(10): 80-83.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn