Please wait a minute...
Advanced Search
现代图书情报技术  2007, Vol. 2 Issue (7): 22-26     https://doi.org/10.11925/infotech.1003-3513.2007.07.06
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
信息集成中的字符串匹配技术研究*
孙海霞 成颖
(南京大学信息管理系 南京 210093)
Study on String-based Matching of Information Integration
Sun Haixia  Cheng Ying
(Department of Information Management, Nanjing University, Nanjing 210093,China)
全文: PDF (380 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

匹配是信息集成的核心技术之一。论述基于编辑距离、基于标记以及N元文法等为代表的字符串匹配技术的研究现状,指出其存在的不足并提出改进思路。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
孙海霞
成颖
关键词 匹配信息集成字符串匹配    
Abstract

Matching is one of the most important techniques of information integration. In this paper, string-based matching algorithms,mainly distance-based,token-based and the N-gram are elucidated. The deficiencies and research directions are also outlined.

Key wordsMatching    Information integration    String-based matching
收稿日期: 2007-06-01      出版日期: 2007-07-25
: 

TP393

 
基金资助:

* 本文系南京大学人文社会科学项目“网络环境下异构信息检索标准体系研究”的研究成果之一。

通讯作者: 孙海霞     E-mail: sunyiqin1984@yahoo.com.cn
作者简介: 孙海霞,成颖
引用本文:   
孙海霞,成颖. 信息集成中的字符串匹配技术研究*[J]. 现代图书情报技术, 2007, 2(7): 22-26.
Sun Haixia,Cheng Ying. Study on String-based Matching of Information Integration. New Technology of Library and Information Service, 2007, 2(7): 22-26.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2007.07.06      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2007/V2/I7/22

[1] 陈跃国,王京春.数据集成综述[J].计算机科学, 2004,31(5):48-51
[2] Maurizio L. Data Integration: A Theoretical Perspective[C].In:Proc.of the ACM SIGACT—SIGMOD —SIGART Symposium on Principles of Database Systems,2002:233-246.
[3] 吴昊,邢桂芬.基于本体的信息集成技术研究[J].计算机应用, 2005,25(2):456-458
[4] Shvaiko P,Euzenat J. A survey of Schema-based Matching Approaches[J]. Journal  on  Data  Semantics,LNCS 3730,2005:146-171.
[5] Rahm E,Bernstein P. A Survey of Approaches to Automatic Schema Matching[J]. The International Journal on Very Large Data Bases (VLDB),2001,10(4):334-350
[6] Madhavan J,Bernstein P,Rahm E.Generic Schema Matching With Cupid[C]. In: Proceedings of the Very Large Data Bases Conference (VLDB),2001:49-58
[7] Do H H,Rahm E. COMA-A System for Flexible Combination of Schema Matching Approaches[C]. In: Proceedings of the Very Large Data Bases Conference (VLDB), 2001: 610-621
[8] Giunchiglia F,Shvaiko P,Yatskevich M. S-Match:An Algorithm and an Implementation of Semantic Matching[C].In: Proceedings of the European Semantic Web Symposium (ESWS),2004: 61-75
[9] Melnik S,Garcia-Molina H,Rahm E. Similarity Flooding:A Versatile Graph Matching Algorithm[C].In: Proceedings of the International Conference on Data Engineering (ICDE), 2002:117-128
[10] Ilenko B,Cohenw M R,et al. Adaptive Name Matching in Information Integration [J]. IEEE Intelligent Systems, 2003,18 (5):16-23
[11] Geng J F, Yang J. AutoBib:Automatic Extraction and Integration of Bibliographic Information on the Web[C]. In:Proceedings of the 29th VLDB Conference. Berlin, Germany, 2003:193-204.
[12] Giunchiglia F,Yatskevich M. Element Level Semantic Matching[C].In: Proceedings of Meaning Coordination and Negotiation Workshop at the International Semantic Web Conference (ISWC),2004:61-75
[13] Giunchiglia F,Shvaiko P,Yatskevich M.Semantic Schema Matching[R]. Technical Report DIT-05-014, University of Trento, 2005:347-365.
[14] 孙建军,成颖.信息检索技术[M]. 北京:科学出版社.2004: 53-71,232-242
[15] Smith F, Waterman M S. Identification of Common Molecular Subsequences[J]. Journal of Molecular Biology,1981(147): 195 -197
[16] Jaro M A. Advances in Record Linkage Methodology as Applied to Matching the 1985 Census of Tampa, Florida[J]. Journal of American Statistical Association, 1989,86(406):414-420
[17] 程国达,邹亚会,朱静.一种自适应信息集成方法[J].计算机应用, 2005,25(3):666-669
[18] Hylton J A. Identifying and Merging Related Bibliographic Records[D]. MIT Institute of Technology,1996.
[19] Miller A G. WordNet: A Lexical Database for English[J]. Communications of the ACM,1995,38(11):39-41
[20] Madhavan J,Bernstein P,Doan A,et al. Corpus-based Schema Matching[C]. In:Proceedings of the International Conference on Data Engineering (ICDE),2005:57-68
[21] Similarity Metrics[EB/OL].[2007-01-10]. http://www.dcs.shef.ac.uk/~sam/stringmetrics.html

[1] 董美,常志军,张润杰. 一种面向科技文献元数据增量数据规范的多模式匹配算法*[J]. 数据分析与知识发现, 2021, 5(6): 135-144.
[2] 段建勇,魏晓鹏,王昊. 基于多角度共同匹配的多项选择机器阅读理解模型 *[J]. 数据分析与知识发现, 2021, 5(4): 134-141.
[3] 于丰畅,陆伟. 一种学术文献图表位置标注数据集构建方法[J]. 数据分析与知识发现, 2020, 4(6): 35-42.
[4] 姚俊良,乐小虬. 科技查新查新点语义匹配方法研究[J]. 数据分析与知识发现, 2019, 3(6): 50-56.
[5] 宋士杰,赵宇翔,韩文婷,朱庆华. 互联网环境下公民健康素养对健康风险的抑制效应分析*——基于CHNS数据的慢性病实证研究[J]. 数据分析与知识发现, 2019, 3(4): 13-21.
[6] 张亭亭, 赵宇翔, 朱庆华. 众包社区中基于敏感性分析的用户偏好挖掘模型及实验*[J]. 数据分析与知识发现, 2018, 2(5): 23-31.
[7] 刘东苏, 霍辰辉. 基于图像特征匹配的推荐模型研究*[J]. 数据分析与知识发现, 2018, 2(3): 49-59.
[8] 侯银秀, 李伟卿, 王伟军, 张婷婷. 基于用户偏好与商品属性情感匹配的图书个性化推荐研究*[J]. 数据分析与知识发现, 2017, 1(8): 9-17.
[9] 史礼婷,张骞,钟永恒,胡思思,李贞贞. 双向模式匹配在年鉴数据预处理平台中的应用[J]. 现代图书情报技术, 2016, 32(9): 88-94.
[10] 郝嘉树. 利用开放语义资源丰富个人名称规范数据——基于FOAF的方案设计[J]. 现代图书情报技术, 2016, 32(2): 75-82.
[11] 高劲松, 程娅, 梁艳琪. 面向关联数据集的本体匹配方法研究[J]. 现代图书情报技术, 2015, 31(6): 33-40.
[12] 姜春涛. 自动标注中文专利的引文信息[J]. 现代图书情报技术, 2015, 31(10): 81-87.
[13] 崔金栋, 徐宝祥. IOPE视角下网格服务本体匹配算法研究*[J]. 现代图书情报技术, 2014, 30(5): 10-17.
[14] 虞为, 陈俊鹏. 基于MapReduce的书目数据关联匹配研究[J]. 现代图书情报技术, 2013, 29(9): 15-22.
[15] 谷俊, 许鑫. 中文专利中本体关系获取研究[J]. 现代图书情报技术, 2013, 29(10): 73-78.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn