Please wait a minute...
Advanced Search
现代图书情报技术  2011, Vol. 27 Issue (7/8): 82-90     https://doi.org/10.11925/infotech.1003-3513.2011.07-08.14
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于改进编辑距离的相似重复记录清理算法
叶焕倬, 吴迪
中南财经政法大学信息与安全工程学院 武汉 430073
Approximately Duplicate Data Cleaning Algorithm Based on Improved Edit Distance
Ye Huanzhuo, Wu Di
School of Information and Safety Engineering, Zhongnan University of Economics and Law, Wuhan 430073, China
全文: PDF (518 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 相似度计算是相似重复记录清理过程中的一个关键问题,编辑距离算法在其中具有广泛应用。在传统编辑距离算法的基础上,通过分析影响相似度计算结果的序列长度、同义词等因素,得到一种同时引入同义词词库和归一化处理思想的改进的基于语义编辑距离的相似重复记录清理算法,适用于相似记录的识别过程。实验分析表明,改进算法计算结果更符合句子的语义信息,绝大部分结果符合人们的认知经验,从而可以有效地提高相似重复记录识别的准确率和精确度。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
叶焕倬
吴迪
关键词 相似重复记录编辑距离语义同义词词库    
Abstract:Similarity calculation is a key issue in the process of approximately duplicate data cleaning,and edit distance algorithm is widely used in this application. Based on the traditional edit distance algorithm, by analyzing the sequence length, synonyms and other factors which affect the similarity of the results, an improved approximately duplicate data cleaning algorithm based on semantic edit distance is proposed. This algorithm used synonyms thesaurus and normalized distance metric, and it can be applied to similar records identification process. Experimental results show that the calculating results by this improved algorithm become more in line with the sentence semantic information and people's cognitive experience. Thereby, the method effectively improves the accuracy and precision of detect approximately duplicate data.
Key wordsApproximately duplicate data    Edit distance    Semantic    Synonyms thesaurus
收稿日期: 2011-04-28      出版日期: 2011-10-09
: 

G202 TP391.1

 
基金资助:

本文系国家自然科学基金资助项目“持续审计中智能数据处理及其应用框架研究”(项目编号:70972138)和湖北省教育厅人文社会科学基金项目“基于SOA和MAS的金融监管信息系统总体框架研究”(项目编号:2009b080)的研究成果之一。

引用本文:   
叶焕倬, 吴迪. 基于改进编辑距离的相似重复记录清理算法[J]. 现代图书情报技术, 2011, 27(7/8): 82-90.
Ye Huanzhuo, Wu Di. Approximately Duplicate Data Cleaning Algorithm Based on Improved Edit Distance. New Technology of Library and Information Service, 2011, 27(7/8): 82-90.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2011.07-08.14      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2011/V27/I7/8/82
[1] A Practical Guide to Achieving Enterprise Data Quality.http://enos.itcollege.ee/~gseier/Achieving%20data%20quality.pdf.

[2] Rahm E, Do H H. Data Cleaning: Problems and Current Approaches[J]. IEEE Data Engineering Bulletin, 2000, 23(4): 3-13.

[3] Mikhail B, Raymond J M. Adaptive Duplicate Detection Using Learnable String Similarity Measures . In: Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM Press, 2003: 39-48.

[4] Elmagarmid A K, Ipeirotis P G, Verykios V S. Duplicate Record Detection: A Survey[J]. IEEE Transactions on Knowledge and Data Engineering, 2007, 19(1):1-16.

[5] Verykios V S, Elmagarmid A K, Houstis E N. Automating the Approximate Record Matching Process[J]. Journal of Information Sciences, 2000, 126(1-4): 83-98.

[6] 王曰芬,章成志,张蓓蓓,等. 数据清洗研究综述[J]. 现代图书情报技术, 2007(12): 50-56.

[7] Monge A E, Elkan C P. The Field Matching Problem: Algorithms and Applications . In: Proceedings of the 2nd Conference on Knowledge Discovery and Data Mining,Portland, Oregon,USA.1996: 267-270.

[8] Minton S N, Nanjo C, Knoblock C A, et al. A Heterogeneous Field Matching Method for Record Linkage . In: Proceeding of the 5th IEEE International Conference on Data Mining,Houston, Texas, USA.2005: 314-321.

[9] 叶焕倬,吴迪. 相似重复记录清理方法研究综述[J]. 现代图书情报技术, 2010(9):56-66.

[10] Smith T F, Waterman M S. Identification of Common Molecular Subsequences[J]. Journal of Molecular Biology, 1981, 147(1): 195-197.

[11] Levenshtein V I. Binary Codes Capable of Correcting Spurious Insertions and Deletions of Ones[J]. Problems of Information Transmission, 1965,1(1): 8-17.

[12] Lowrance R, Wagner R A. An Extension of the String-to-String Correction Problem[J]. Journal of the ACM, 1975, 22(2): 177-183.

[13] Monge A E, Elkan C P. An Efficient Domain-Independent Algorithm for Detecting Approximately Duplicate Database Records . In: Proceedings of the SIFMOD Workshop on Data Mining and Knowledge Discovery,Tuscan, Arizona, United States.1997: 23-29.

[14] Cohen W W, Ravikumar P, Fienberg S E. A Comparison of String Metrics for Matching Names and Records . In: Proceedings of the Workshop on Data Cleaning and Object Consolidation at the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Washington DC, USA. 2003: 13-18.

[15] Liu X H, Li G L, Feng J H, et al. Effective Indices for Efficient Approximate String Search and Similarity Join . In: Proceedings of the 9th International Conference on Web-Age Information Management,Zhangjiajie, China. 2008: 127-134.

[16] Zhu M D, Shen D R, Nie T Z, et al. An Adjusted-Edit Distance Algorithm Applying to Web Environment . In: Proceedings of the 6th International Conference on Web Information Systems and Applications, Xuzhou, China. 2009: 71-75.

[17] 赵作鹏,尹志民,王潜平,等. 一种改进的编辑距离算法及其在数据处理中的应用[J]. 计算机应用, 2009,29(2):424-426.

[18] 葛斌,李芳芳,郭丝路,等. 基于知网的词汇语义相似度计算方法研究[J]. 计算机应用研究, 2010,27(9):3329-3333.

[19] 蒋溢,丁优,熊安萍,等. 一种基于知网的词汇语义相似度改进计算方法[J]. 重庆邮电大学学报:自然科学版, 2009,21(4):533-537.

[20] 刘宝艳,林鸿飞,赵晶. 基于改进编辑距离和依存文法的汉语句子相似度计算[J]. 计算机应用与软件, 2008,25(7):33-34,47.

[21] 程涛,施水才,王霞,等. 基于同义词词林的中文文本主题词提取[J]. 广西师范大学学报:自然科学版, 2007,25(2): 145-148.

[22] 车万翔,刘挺,秦兵,等. 基于改进编辑距离的中文相似句子检索[J]. 高技术通讯, 2004(7):15-19.

[23] Li Y, Liu B. A Normalized Levenshtein Distance Metric[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(6): 1091-1095.

[24] 梅家驹,竺一鸣,高蕴琦,等. 同义词词林[M]. 上海:上海辞书出版社,1983.

[25] 《同义词词林》扩展版.http://www.ir-lab.org/.

[26] Miller G A, Beckwith R, Fellbaum C, et al. Introduction to WordNet: An On-Line Lexical Database[J]. International Journal of Lexicography,1993,3(4):235-244.

[27] Fellbaum C. WordNet: An Electronic Lexical Database[M]. MIT Press, 1998.

[28] WordNetDotNet.http://wordnetdotnet.googlecode.com/svn/trunk/.

[29] 李玉鑑. 符号序列之间的归一化距离度量[J]. 北京工业大学学报, 2005,31(4):439-442.
[1] 李文娜, 张智雄. 基于联合语义表示的不同知识库中的实体对齐方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 1-9.
[2] 徐峥,乐小虬. 类目式文档语义特征AND-OR逻辑表达式生成方法[J]. 数据分析与知识发现, 2021, 5(5): 95-103.
[3] 张国标,李洁. 融合多模态内容语义一致性的社交媒体虚假新闻检测*[J]. 数据分析与知识发现, 2021, 5(5): 21-29.
[4] 石湘,刘萍. 基于知识元语义描述模型的领域知识抽取与表示研究 *——以信息检索领域为例[J]. 数据分析与知识发现, 2021, 5(4): 123-133.
[5] 张金柱, 于文倩. 基于短语表示学习的主题识别及其表征词抽取方法研究[J]. 数据分析与知识发现, 2021, 5(2): 50-60.
[6] 邵琦,牟冬梅,王萍,靳春妍. 基于语义的突发公共卫生事件网络舆情主题发现研究*[J]. 数据分析与知识发现, 2020, 4(9): 68-80.
[7] 魏庭新,柏文雷,曲维光. 词向量和语义知识相结合的汉语未登录词语义预测研究*[J]. 数据分析与知识发现, 2020, 4(6): 109-117.
[8] 邓思艺,乐小虬. 基于动态语义注意力的指代消解方法[J]. 数据分析与知识发现, 2020, 4(5): 46-53.
[9] 朱路,田晓梦,曹赛男,刘媛媛. 基于高阶语义相关的子空间跨模态检索方法研究*[J]. 数据分析与知识发现, 2020, 4(5): 84-91.
[10] 张冬瑜,崔紫娟,李映夏,张伟,林鸿飞. 基于Transformer和BERT的名词隐喻识别*[J]. 数据分析与知识发现, 2020, 4(4): 100-108.
[11] 张润彤,陈东华,赵红梅,朱晓敏. 基于中文语义分析的计算机辅助ICD-11编码方法研究*[J]. 数据分析与知识发现, 2020, 4(4): 44-55.
[12] 魏伟,郭崇慧,邢小宇. 基于语义关联规则的试题知识点标注及试题推荐*[J]. 数据分析与知识发现, 2020, 4(2/3): 182-191.
[13] 田钟林,吴旭,颉夏青,许晋,陆月明. 一种基于领域语义关系图的短文本实时分析模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 239-248.
[14] 杨林, 黄晓硕, 王嘉阳, 李姣. 基于语义对齐的临床量表信息提取方法及其临床试验队列识别的应用研究*[J]. 数据分析与知识发现, 2020, 4(12): 33-44.
[15] 张金柱,主立鹏,刘菁婕. 基于表示学习的无监督跨语言专利推荐研究*[J]. 数据分析与知识发现, 2020, 4(10): 93-103.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn