Please wait a minute...
Advanced Search
现代图书情报技术  2007, Vol. 2 Issue (12): 50-56     https://doi.org/10.11925/infotech.1003-3513.2007.12.11
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
数据清洗研究综述
王曰芬1,2  章成志1,2,3  张蓓蓓1,2  吴婷婷1,2
1(南京理工大学经济管理学院 南京 210094)
2(万方数据研究院-南京理工大学“企业创新服务联合实验室” 南京 210094)
3(中国科学技术信息研究所 北京 100038)
A Survey of Data Cleaning
Wang Yuefen1,2  Zhang Chengzhi1,2,3  Zhang Beibei1,2  Wu Tingting1,2
1(Department of Information Management, Nanjing University of Science & Technology, Nanjing 210094,China)
2(Laboratory for Enterprise Innovation Service, Nanjing University of Science & Technology, Nanjing 210094,China)
3(Institute of Scientific & Technical Information of China, Beijing 100038,China)
全文: PDF (548 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

对数据清洗问题进行综述。介绍数据清洗问题产生的背景和国内外研究现状。给出数据清洗的定义和对象,说明数据清洗的基本原理、模型,分析相关算法与工具,给出数据清洗评估方法;并对今后数据清洗的研究和应用进行展望。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
吴婷婷
张蓓蓓
王曰芬
章成志
关键词 数据清洗数据质量重复记录检测异常数据检测    
Abstract

Data cleaning problem is surveyed in this paper. Firstly, the background of data cleaning problem and research status is explained. Then, the definition and objects of data cleaning are given. The basic principle and some models of data cleaning are presented. Related algorithms and tools are analyzed and evaluation methods of data cleaning are proposed. Finally, the future research topics and application related to data cleaning problems are discussed.

Key wordsData cleaning    Data quality    Duplicate record detect    Outlier data detect
收稿日期: 2007-09-17      出版日期: 2007-12-25
: 

G350

 
通讯作者: 王曰芬     E-mail: yuefen163@vip.163.com
作者简介: 王曰芬,章成志,张蓓蓓,吴婷婷
引用本文:   
王曰芬,章成志,张蓓蓓,吴婷婷. 数据清洗研究综述[J]. 现代图书情报技术, 2007, 2(12): 50-56.
Wang Yuefen,Zhang Chengzhi,Zhang Beibei,Wu Tingting. A Survey of Data Cleaning. New Technology of Library and Information Service, 2007, 2(12): 50-56.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2007.12.11      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2007/V2/I12/50

[1] Rahm E, Do H.H. Data Cleaning: Problems and Current Approaches[J]. IEEE Data Engineering Bulletin, 2000, 23(4): 3-13.
[2] Galhardas H, Florescu D. An Extensible Framework for Data Cleaning[C]. In: Proceedings of the 16th IEEE International Conference on Data Engineering. San Diego, California, 2000: 312-312.
[3] 查峰. 数据仓库化中数据清洗问题的研究[D].南京:东南大学, 2002.
[4] 刘奕群, 张敏, 马少平.面向信息检索需要的网络数据清理研究[J].中文信息学报, 2007, 20(3):70-77.
[5] BI Case Study[EB/OL]. [2007-01-09].http://www.parsintl.com/pdf/14705-BIJ-Informatica.pdf.
[6] 郭志懋, 周傲英. 数据质量和数据清洗研究综述[J]. 软件学报, 2002, 13(11): 2076-2082.
[7] Harte-Hanks Trillium Software[EB/OL]. [2007-01-09].http://www.trilliumsoftware.com.
[8] Bohn K. Converting Data for Warehouses[J]. DBMS, 1997, 10(7): 61-66.
[9] Helena G.  Generative and Transformational Techniques in Software Engineering. In: Helena G eds.Data Cleaning and Transformation Using the AJAX Framework[M].  Springer Berlin/Heidelberg,2006.
[10] 周奕辛. 数据清洗算法的研究与应用[D]. 青岛: 青岛大学, 2005.
[11] 唐懿芳, 钟达夫, 严小卫.基于聚类模式的数据清洗技术[J].计算机应用, 2004, 24(5): 116-119.
[12] Monge A, Elkan C. The Field Matching Problem: Algorithms and Applications[C]. In: Proceedings of the 2nd International Conference of Knowledge Discovery and Data Mining. Portland, Oregon, 1996.
[13] Masek W, Paterson M A. Faster Algorithm Computing String Edit Distance[J]. Journal of Computer System Science, 1980(20):18-31.
[14] 周芝芬. 基于数据仓库的数据清洗方法研究[D]. 上海:东华大学,2004.
[15] Salon G, Mcgill M J. Introduction to Modern Information Retrieval[M]. NewYork:McGraw-Hill Book Co.,  1983.
[16] Monge A, Elkan C. An Efficient Domain Independent Algorithm for Detecting Approximately Duplicate Database Records[C]. In: Proceedings of the SIGMOD Workshop on Data Mining and Knowledge Discovery. Tucson, Arizona, 1997.
[17] Hernandez M, Stolfo S. Real World Data is Dirty: Data Cleansing and the Merge/ Purge Problem[J]. Data Mining and Knowledge Discovery, 1998, 2(1): 9-37.
[18] 梁文斌.数据仓库中数据清洗的研究与设计[D]. 苏州:苏州大学,2005.
[19] 王咏梅, 陈家琪, 耿玉良.一种可交互的数据清洗系统[J].计算机工程与设计,2005,26(4): 955-957.
[20] Yair Wand, Rihard Y Wang. Anchoring Data Quality Dimensions in Ontological Foundations[J]. Communications of the ACM, 1996, 39(11):86-95.
[21] Richard Y Wang, Veda C Storey, Christopher P Firth. A Framework for Analysis of Data Quality Research[J]. IEEE Transactions on Knowledge and Data Engineering, 1995, 7(4): 623-640.
[22] Dominik Lueebber, Udo Grimmer. Systematic Development of Data Mining Based Data Quality Tools[C]. In: Proceedings of the 29th VLDB (VLDB 2003). Berlin, Germany, 2003: 548-559.

[1] 陈先来, 罗霄, 刘莉, 李忠民, 安莹. 基于识别率的多叉树森林k-匿名算法*[J]. 数据分析与知识发现, 2020, 4(12): 14-25.
[2] 刘伙玉, 王东波. 面向论文相似性检测的数据预处理研究[J]. 现代图书情报技术, 2015, 31(5): 50-56.
[3] 叶焕倬, 吴迪. 相似重复记录清理方法研究综述[J]. 现代图书情报技术, 2010, 26(9): 56-66.
[4] 雷孝平, 张旭, 赵蕴华, 郑佳. 基于IRPU算法的专利数据相似重复属性及记录检测方法[J]. 现代图书情报技术, 2010, 26(12): 46-51.
[5] 邵增荣,李英,范体军. 正则表达式在油价事件网页提取中的应用*[J]. 现代图书情报技术, 2009, 3(2): 83-88.
[6] 黄永文,李广建. 数字图书馆中的ETL应用研究综述[J]. 现代图书情报技术, 2007, 2(12): 1-5.
[7] 史晓刚,黄铁军. 电子图书内容与结构的自动检查*[J]. 现代图书情报技术, 2005, 21(8): 23-26.
[8] 秦峰,唐详,段永威. 引文索引中标引词规范的研究与实践[J]. 现代图书情报技术, 2004, 20(4): 87-89.
[9] 程小澜,泮杏梅. 光盘数据库的情报价值与评价选择[J]. 现代图书情报技术, 1998, 14(4): 34-37.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn