面向关联数据集的本体匹配方法研究<sup>*</sup>

引用本文

高劲松, 程娅, 梁艳琪. 面向关联数据集的本体匹配方法研究^* . 2015, 31(6): 33-40
Gao Jinsong, Cheng Ya, Liang Yanqi. Ontology Matching for Linked Data Set. New Technology of Library and Information Service, 2015, 31(6): 33-40 复制到剪切板

Permissions

《现代图书情报技术》编辑部

面向关联数据集的本体匹配方法研究^*

高劲松, 程娅, 梁艳琪

华中师范大学信息管理学院武汉 430079

通讯作者:高劲松, ORCID: 0000-0003-0022-5923, E-mail: jsgao@mail.ccnu.edu.cn。

作者简介：李胜: 确定研究方向及研究方法, 提出论文的修订意见;王叶茂: 进行算法设计及实验分析, 撰写与修订论文。

基金:**本文系国家社会科学基金一般项目“基于关联数据的知识创造中知识外化和融合机制研究”(项目编号:12BTQ039)和教育部人文社会科学基金一般项目“关联数据在知识地图中的链接模式研究”(项目编号:11YJA870010)的研究成果之一。

摘要

目的通过分析关联数据集的特点, 对传统本体匹配方法进行改进。方法从数据转换方式、名称相似度和描述信息相似度三方面将本体匹配方法合并为匹配规则, 引入遗传算法提取最佳匹配规则, 结合Jena进行实验验证。结果构建面向关联数据集的本体匹配框架, 实现关联数据集本体间的互联。【局限】本体匹配过程中主要考虑解决本体异构问题, 未能全面涉及多领域及跨语言的本体匹配。结论该匹配方法能实现数据集之间的关联, 进一步提高关联数据集的链接水平。

关键词: 关联数据; 本体匹配; 遗传算法

中图分类号:G354

Ontology Matching for Linked Data Set

Gao Jinsong, Cheng Ya, Liang Yanqi

Information Management School, Huazhong Normal University, Wuhan 430079, China

Abstract

[Objective] The paper analyzes the characters of linked data set to improve the traditional Ontology matching method. [Methods] Combine the Ontology matching methods as matching rules from three aspects, which are method of data transformation, similarity of name and similarity of the description information, then use the genetic algorithm to extract the best matching rules, finally use Jena to test. [Results] Construct an Ontology matching framework for linked data set, and realize the interconnection between Ontologies of linked data set. [Limitations] The Ontology matching process mainly solves the problem of heterogeneous Ontologies, failed to match the Ontologies in different fields and languages. [Conclusions] The method can realize the correlation of the linked data set and improve the links of linked data set.

Keyword: Linked; data; Ontology; matching; Genetic; algorithm

Show Figures

1 引言

根据关联数据发布的“ 四大基本原则” ^[1], 关联数据的核心思想是建立Web化的、关联化的RDF表示, 因此该阶段会产生由多个分布的LOD数据集构成的数据集群, 但它们之间是独立自治的, 弱关联的, 缺乏操作接口。随着这些关联数据集之间, 以及与其他数据集(如非关联数据化的网络数据库)不断构建联系, 当最终能形成一片几近没有“ 缝隙” 的数据集云时, 就可以认为语义网的基础已经奠定。

自Berners-Lee提出关联数据以来, Web上的关联数据集越来越多。关联数据发布者大都使用不同的本体描述同一领域的信息, 本体借助结构化的术语增加RDF的领域资源表达能力, 规范了领域术语的类和属性关系; 同时本体作为重要的网络资源可利用关联数据进行发布和互联, 使用RDF技术表达的本体词汇表之间可以很容易地进行映射和互操作。其中, FOAF^[2]、SKOS^[3]等通用本体已在一些数据集中推广普及, 但由于种种原因, 大部分数据集使用自行设计的领域本体或应用本体, 本体之间的异构不可避免, 这无形中增加了数据冗余。

考虑到当前匹配工具单一化的匹配模式难以适应复杂各异的关联数据集, 笔者在遗传算法的启发下, 结合关联数据集的构建特点, 尝试将本体匹配方法分解为数据转换方式、名称相似度和描述信息相似度三部分。在关联数据集的匹配过程中, 将三部分匹配方法对应的子方法动态组合, 生成适合待匹配数据集的匹配规则, 以适应多元化的关联数据发布模式。

2 相关研究

近些年, 关联数据在技术标准、发布原则、发布流程等方面的研究已经比较成熟, 但是由于关联数据在定义时的主观性较强, 导致关联数据集本体之间异构性问题突出。在实际运用中, 关联数据集的链接往往局限于单个本体, 本体之间的链接则常常被忽略。本体匹配是解决本体异构性的主要方法, 是语义网的研究热点之一, 主要包括以下几种技术: 基于名称的技术、基于结构的技术和基于实例的技术^[4]。其中, 在研究关联数据的名称相似度时, 主要匹配的实体对象为类、属性和实例; 而基于结构的匹配技术需要参考元素间的层级关系, 针对关联数据的概念语义关系则主要表现在实体的描述信息上, 其中常用的是Equivalent Classes (等价类)、Equivalent Properties (等价属性)、Super Classes (子类)、Super Properties (子属性)以及Members(成员)等^[5]; 基于实例的匹配思想是指当两个元素具有共同的实例时, 这两个实体可能是相似的。

与传统本体匹配不同, 面向关联数据集的本体匹配面对的数据类型更加复杂, 关联数据使用的本体框架也多种多样, 加之关联数据实体对象的定义主观性较强, 使关联数据集的本体匹配需要考虑更多的因素。在国外, Hogan等通过关联数据集, 用可扩展、分布式的方法实现实体匹配、合并和消歧^[6]。Raimond等研究了一种在语义网上自动互联音乐相关数据集的互联算法^[7]。Sheth等提出符合RDF数据模型规范的语义关联表示模型, 即基于数据间的属性使用统计方法进行数据间语义相似性的推导^[8]。国内学者对关联数据集的互联研究主要集中于本体层面, 潘有能等提出了一种利用本体映射技术在数据集之间建立关联的方法, 从而使得实例层面的数据可以实现自动建立链接^[9]。王颖等提出一种基于RDF图的本体匹配方法, 用RDF图表示本体, 使本体间的匹配问题转化为RDF图的匹配问题, 通过匹配树计算出两个本体中各实体之间的相似度^[10]。马费成等提出一个基于关联数据的网络信息资源集成框架, 并依据此框架, 设计和实现了以武汉大学为基本单位的免费网络学术资源集成实验系统^[11]。贾丽梅等提出基于动态权值的关联数据语义相似度计算方法, 在计算属性的权值后依据属性取值类型选用匹配相似度算法, 结合动态权值对概念进行实例的相似度计算^[12]。以上研究大都是针对特定领域的特定关联数据集进行互联, 算法的通用性不强, 并不适于用复杂多样的关联数据集。

综上所述, 当前关联数据的发展状况与理想的关联数据目标还存在一定差距, 要缩小这一差距, 需要增强关联数据的语义关联。本体作为关联数据中人、机器和程序间知识交流的语义基础, 是增强数字资源语义互联的关键所在。但大多数研究者尚未认识到本体匹配在关联数据集中的作用, 他们通过语义化描述方法(RDFS/OWL)构造本体, 却忽视了本体间的语义互联, 因此, 很难挖掘出很多隐藏的语义关系。随着关联数据集的增多, 本体异质使得知识异质问题上升到一个更高的层次, 建立一个分布的、开放的系统实现知识间的语义关系, 解决本体异质问题迫在眉睫。

3 面向关联数据集的本体匹配方法

根据2014年发布的LOD数据云图^[13], 现有的关联数据集已涉及地理、生命科学、医药、出版、媒体、社会网络等领域, 关联数据集的海量化、多元化与复杂化使得数据集之间的关联发现日益重要。目前本体匹配研究者主要致力于自动或半自动地建立本体间的关联。Studer等定义“ 本体是对一个特定领域中重要概念的共享的形式化的描述” ^[14]。结合本体语言的语法规范, 可以将本体理解为概念、属性、关系、实例和公理集合。其中, 属性即概念的属性, 关系即概念之间的关系。因此本体匹配主要任务是发现实体之间的对应关系。基于现有的匹配方法, 研究者大多是在分析本体领域特点以及本体描述方式的基础上确定本体匹配方法, 一般可以得到较好的映射结果, 但并不能确保该匹配方法适应所有领域的本体对象。鉴于现有的各种匹配算法之间并不排斥, 本文在遗传算法的启发下, 希望通过最优迭代原则选取出最适合待匹配关联数据集的匹配规则。具体而言, 面向关联数据集的本体匹配框架包括本体获取、本体解析以及本体匹配三大部分, 需要注意的是, 经过遗传迭代生成的匹配规则, 若适应当前匹配对象, 匹配结果将存入匹配结果集, 系统同时存储对应的数据映射关系, 否则重新组合新的匹配规则, 其框架如图1所示:

	Figure Option View Download New Window
	图1 面向关联数据集的本体匹配框架

3.1 本体获取

LOD数据云图中收录了很多知名的数据集, 这些数据集涉及地理、生命科学、医药、出版、媒体、社会网络等领域。在本体匹配整个流程中, 要从这些已发布的关联数据集中获取本体文档。关联数据环境下的知识采用RDF描述领域知识模型和实例数据, RDF是一个资源对象和其间关系的语义数据模型, 该数据模型一般都采用RDF/XML语法编码。这些数据集均在Data Hub(数据集成交换)上进行注册, 从中可以下载到XML格式的本体文档。至此, 对关联数据集的匹配转为对本体的匹配。

3.2 本体解析

对下载的本体文档进行预处理主要是选择一种解析技术提取文档中的概念及其描述信息, 为接下来的本体匹配提供一种数据规范。在解析XML文档时通常利用XML解析器对文档进行分析, 而应用程序就是通过解析器提供的API而得到XML数据。目前几乎所有的解析器都对两套标准的API提供支持, 即DOM和SAX。SAX虽然使用方便, 但不是W3C标准, 并且只能读取XML文档而不能写入它们。与SAX不同, DOM不仅可以读还可以写, DOM中的核心概念是节点, 它把XML文档的各个部分(元素、属性、文本、注释和处理指令等)都抽象为节点, 解析时通过访问节点来存取XML文档的内容。因此, 本文选择DOM技术进行本体文档解析。通过DOM解析后的本体文档将本体的各个部分(元素、属性、文本、注释和处理指令等)都抽象为节点, 这为本体匹配提供了可操作的数据模式。

3.3 本体匹配

本体匹配技术作为解决本体异构的重要手段, 在OAEI(Ontology Alignment Evaluation Initiative)竞赛的推动下, 产生了许多优秀的本体匹配系统。这些匹配系统的算法各异, 在设计时对名称、结构和实例三方面研究也各有侧重, 加之面向关联数据集的本体匹配面对的数据类型更加复杂, 关联数据使用的本体框架也多种多样, 一种固定的匹配策略已难以满足匹配要求。在归纳现有本体匹配方法时, 发现其算法多种多样, 各有利弊。如SF(Similarity Flooding)在结构匹配上表现突出, 而GLUE主要是侧重于基于实例的相似度匹配。除此之外, 匹配工具可接纳的数据处理量也各有差别, 近些年出现的YAM++、ServOMap在数据处理量上优于传统匹配工具。由此可知, 在面对不同类型、不同大小的数据源时, 各种匹配算法只有动态组合, 才能最大发挥算法效用。借助遗传算法思想, 笔者尝试在面对不同的关联数据本体异构问题时, 通过遗传算法的优化迭代思想, 在多种算法中选取最适宜匹配算法, 打破原有的单一匹配策略, 真正做到具体问题具体分析, 实现数据间的语义互联。

在本体匹配的过程中, 针对不同发布形式的关联数据特点, 从数据转换方式、名称相似度和描述信息相似度综合考虑匹配方法, 将每一个组合作为遗传操作个体, 而每个遗传操作个体就是一个匹配规则, 通过遗传迭代将查全率与查准率最高的遗传个体作为当前关联数据集的匹配规则, 从而完成对现有匹配方法的改进。需要指出的是, 将遗传算法引入本体匹配中, 遗传个体表示及编码、适应度计算与遗传操作有所不同。匹配流程如图2所示:

	Figure Option View Download New Window
	图2 基于遗传思想的本体匹配流程

(1) 遗传个体表示

遗传个体作为一个匹配规则必须具有整体的数据处理功能, 不仅能处理不同模式的数据集, 也能根据数据特点合理选择匹配算法。本文主要从数据转换方式、名称相似度和描述信息相似度综合衡量匹配规则的适应度。

①数据转换方式

上文已指出不同的关联数据集可能会使用不同的本体描述同一领域的信息。例如FOAF在编写人名时采用foaf:firstName和foaf:lastName格式, 而DBpedia本体在表示人名时只使用dbpedia:name。为了计算不同模式数据集的相似度, 需要转换数据模式。上面的例子中, 可以使用concatenate方法将foaf:firstName和foaf:lastName合并为单一名称, 也可以使用tokenize方法分解dbpedia:name。根据关联数据集的特点, 总结出4种数据转换方式, 具体描述如表1所示。

表1 数据转换方法及其遗传编码

②名称相似度匹配

目前基于名称的相似度研究已趋于成熟, 表2列举了5种主流方法。这些方法在数据处理效率上各有优缺点, 如Jaro-Winkler Distance^[15]适合于较短字符之间的相似度计算; Levenshtein Distance^[16]通过对源数据进行插入和删除操作转换为目标数据, 算法简单, 但准确率较低。Jaccard Distance^[17]难以识别像aunt和ant这样虚假相似的概念对。ISUB^[18]不仅记录数据之间的相同字符, 同时也计算其差异度。它可以捕捉到如number of pages与numpages这样缩写的相似概念。q-gram^[19]适合处理大规模的数据集, 它先对字符串进行q切分, 通过建立切分单元与数据的索引计算相似度, 这种算法比较复杂, 计算量大, 需要较大的存储空间。鉴于上述分析, 在匹配方法选择时, 应在综合考虑数据的表达形式、数据集规模等因素的情况下合理选择算法。

表2 名称相似度匹配方法及其遗传编码

③描述信息相似度匹配

根据关联数据发布的“ 四大基本原则” , 关联数据的核心思想是建立数据结构化的、关联化的RDF表示, 因而对关联数据语义关系的分析必不可少。关联数据的语义关系主要表现在描述信息上, 关联数据的描述信息包括Equivalent Classes(等价类)、Equivalent Properties(等价属性)、Super Classes(子类)、Super Properties(子属性)以及Members(成员)等, 在计算关联数据集的语义关系时, 可以引入结构相似度匹配方法, 大致可分为两大类: 基于树的结构匹配方法和基于图的结构匹配方法, 如表3所示。ASCO^[20]算法来源于ASCO匹配工具, 它综合计算概念的临近节点、概念路径与概念属性的相似度, 易移植于RDF数据模式上, 但不适于处理结构复杂、层次高的本体对。TreeMatch^[21]和MassMatch^[22]都是基于树的匹配方法, 这两种方法适合处理结构复杂的本体对, 在数据处理量上MassMatch略低于TreeMatch方法。SF^[23]是一对一的相似度匹配算法, 从数据输入、图构建、数据映射到数据过滤形成一个完整的匹配系统, 算法独立性强, 但计算时间较长。

表3 描述信息相似度匹配方法及其遗传编码

定义1: 匹配规则S_v={DT_l, NS_m, DS_n} (0< l≤ a, 0< m≤ b, 0< n≤ c), 其中v表示种群的大小, DT表示数据转换的方法, NS表示基于名称相似度的方法, DS表示描述信息相似度的方法, l、m、n表示当前匹配操作选择的匹配方法数量, a, b, c分别表示相对应的匹配方法的种类数量, 其值会随着研究的深入而发生变化, 在当前研究现状下, 依据表1-表3数据, a的取值为4, b的取值为5, c的取值为4。

需要指出的是, 不同于传统遗传算法, 在对融合规则的三个基因位进行遗传操作时, 由于各基因位代表不同类别的算法, 变异操作不能跨基因位进行, 否则会造成同种类别匹配算法的重复选择, 降低系统的匹配效率。如第二个基因位的算法内容只能在基于名称相似度的5种算法中选取。在迭代最初, 系统会自动根据给定的初始群体大小生成初始群体, 从数据转换方式、名称相似度和描述信息相似度三方面随机组合匹配规则进行遗传评估操作。

(2) 遗传个体编码

遗传个体有很多种编码方式, 目前应用最多的是二进制编码。鉴于匹配规则的特殊性, 本文选择符号编码法。在遗传个体长度给定的情况下, 遗传个体中每个基因的取值为该基因位所对应的算法类别的编号。

每个准则由三种不同的分类方法(DT_l, NS_m, DS_n)组合而成, 对应每种分类方法的子方法数量为 , 。则规则总数量按排列组合计算为subAspNum:

subAspNum =

表1-表3已罗列出数据转换方式、名称相似度和描述信息相似度匹配方法, 笔者相信随着研究的深入, 基于这三方面的算法会更加丰富充实。依据表1-表3的数据, 确定染色体的长度为3, 基因位的取值为1-5, 如产生遗传个体: {3, 2, 2}, 则这个遗传个体将使用stripUriPrefix方法转换数据形式, 选用Levenshtein方法计算名称相似度, 用TreeMatch计算描述信息相似度。

(3) 适应度函数

适应度函数直接关系到遗传个体的质量, 也就是匹配规则遗传到下一代的概率。一个有效的融合规则应该是可以尽可能地发现知识之间的关联, 消除知识的歧义与异构。在测验匹配规则效率时, 匹配规则会作用到已被专家建立关联的本体对上, 若匹配规则可以生成与专家相同或相似的关联, 则认为该匹配规则适用于当前匹配集。鉴于遗传个体的特殊性, 本文选择综合评价指标(F-measure)评估匹配规则的适应度, 在检测遗传个体的适应度时, 从数据源中抽取部分数据作为训练数据, 并在专家的支持下建立这两个本体的关联, 将进化生成的匹配规则作用于训练数据, 查全率(R)与查准率(P)最高的遗传个体成为当前数据源的匹配规则。其计算公式如下:

其中, β 是参数, 一般取值为1。

(4) 遗传操作

遗传算法通过一系列算子决定后代的适应度, 算子对当前群体中选定的成员进行重组和变异, 是遗传算法的主要操作部分。在进行遗传操作时, 需要设置种群规模、迭代次数、阈值、交叉概率以及变异概率等基本参数, 其中种群规模指初始群体的数量, 由于关联数据集之间的不一致性, 要根据归一化之后的结果确定, 维数小的集合可用NULL补齐; 迭代次数表示遗传运算最大迭代次数; 阈值的设定是为排除不能进行匹配操作的遗传个体; 交叉概率和变异概率应根据实际情况合理设置。不同于传统遗传算法, 本文将匹配规则作为遗传个体。根据对匹配规则的定义可知, 基于本体匹配的遗传个体包含三个基因位, 它们分别对应数据转换方式、基于名称的相似度匹配和基于描述信息的相似度数据转换方式、名称相似度和描述信息相似度匹配。遗传匹配算法描述如下:

输入: 匹配规则S_v, 种群规模n, 交叉概率P_c, 变异概率P_m, 迭代次数T, 阈值θ , 适应度函数F_β。

输出: 匹配规则集S。

①初始化种群P={S₁, S₂, …, S_n}, 并对遗传个体编码;

②将遗传个体作用于已建立关联的本体对, 计算其适应值F_β;

③选择, 若F_β(S_i)≥ θ , 则 = ∪ {S_i}, P=P-{S_i};

④交叉, 从当前群体中随机抽取两个遗传个体S_j和S_k, 按给定的交叉概率P_c进行交叉操作, 得到两个新个体和

⑤变异, 按照变异概率P_m进行变异操作, 变异后产生的遗传个体进入下一代种群 ;

⑥判断迭代次数是否达到预定值T, 若达到则进入步骤⑦; 如果种群中的个体数目Num小于n, 则随机生成(n-Num)个遗传个体进入种群 , 返回步骤②;

⑦输出结果;

⑧匹配规则提取。

由算法描述可知, 初始化群体生成后, 系统采用联赛选择算法(Tournament Selection)选择操作个体, 它在交配池中竞争每一位基因遗传, 适应性最好的将获得该基因的遗传权, 保证当前群体中适应度最高的个体结构完整地复制到下一代群体中, 使得遗传算法终止时得到的最后结果是历次迭代中出现的最高适应度个体。交叉算子是生成新匹配规则的重要步骤, 单点交叉是目前普遍使用的方法, 它将随机确定的交叉点的前后部分进行交换, 生成两个新的遗传个体和 , 进入当前种群。变异算子根据变异概率随机决定某一位或某几位基因座上的值的变异运动, 本文中变异操作不需要跨基因位进行, 这样可以降低种群的大小, 减少遗传迭代的次数。

4 实验与分析

实验以OAEI提供的测试集为数据源, OAEI 数据集中的每个测试案例是由两个待匹配本体和一个参考映射结果组成。实验通过利用关联数据技术和本体匹配技术, 展示了基于遗传算法的本体匹配过程。

4.1 实验环境

采用Eclipse为开发环境, 该平台为编程人员提供了一流的Java集成开发环境, 同时选择基于Java语言的开发包Jena作为解析OWL文档的工具。实验数据采用两个描述参考文献信息的本体O₁和本体O₂, 但它们的专业术语并不完全一样, 而且它们的侧重点也不一样。实验数据源包含36个类, 73个属性, 57个实例, 其部分实验数据如图3所示。

	Figure Option View Download New Window
	图3 部分实验数据

4.2 实验过程与分析

将实验数据源通过Jena解析为OWL文档后, 使用Eclipse开发环境, 对匹配算法动态组合, 编写选定的本体匹配算法。通过相似度输出判断当前匹配组合的查全率与查准率, 若当前匹配组合和测试集的映射关系高度相似, 则选取, 否则继续迭代, 选择最优的匹配算法组合。图4、图5分别为部分相似度算法及部分相似度输出。

	Figure Option View Download New Window
	图4 部分本体匹配算法

	Figure Option View Download New Window
	图5 部分相似度输出

通过遗传思想的迭代规则, 动态组合得到最优的匹配组合, 数据转换方式选择LowerCase, 名称相似度匹配选择Levenshtein方法, 并采用ASCO的结构算法计算节点之间的相似度, 得到匹配结果。为了进一步评价算法性能, 本文所提算法和单独使用Levenshtein算法进行了对比, 两种算法实验中得到的匹配结果如表4所示。

表4 匹配结果

可以看出, 实验中基于遗传算法的本体匹配方法获得的F_β的值高于Levenshtein算法的匹配结果。考虑到概念定义的主观性, 本文提出在本体匹配过程中, 通过转换数据方式实现对数据的预处理, 在计算概念相似度时采用基于名称的匹配方法; 综合考虑关联数据的构建特点, 通过分析关联数据集的描述信息获取概念的结构关联。实验结果表明, 该本体匹配方法可以利用遗传迭代思想实现数据源之间的关联, 进一步提高关联数据集的链接水平。

5 结语

目前关联数据的研究中不乏解决本体异构的案例。如美国国会图书馆利用SKOS(简单知识组织系统)将传统的主题标目的知识关联转换成Web可用的关联数据形式, 这些SKOS数据可以从多层面与外界互操作, 如LCSH概念链接、GeoNames等^[24]。又如, 瑞士国家图书馆开放的关联数据使用的词汇表创建了到LSCH和DBpedia的外部链接^[25]。然而, 这些基于关联数据的知识互联案例普遍处于起步阶段, 其互联框架各异, 导致各自的知识链接数据难以共享互联。在遗传思想的启发下, 将现有的本体匹配方法分类组合, 迭代生成适合待匹配数据集的匹配方法, 以解决关联数据集的本体之间异构问题, 但是改进的方法无法兼顾多领域与跨语言的本体匹配。因此, 如何构建通用的本体匹配框架, 有待进一步研究。

参考文献

View Option

[1]	Berners-Lee T. Linked Data [EB/OL]. [2012-10-15]. http://www.w3.org/DesignIssues/LinkedData.html. [本文引用:1]
[2]	Brickley D, Miller L. FOAF [EB/OL]. [2014-03-05]. http://www.foaf-project.org/. [本文引用:1]
[3]	Miles A, Bechhofer S. SKOS Simple Knowledge Organization System Namespace Document - HTML Variant. [EB/OL]. (2009-08-18). [2009-08-18]. http://www.w3.org/2009/08/skos-reference/skos.html. [本文引用:1]
[4]	赵晋巍, 真溱. 本体匹配技术研究概述[J]. 现代图书情报技术, 2009(11): 6-9. (Zhao Jinwei, Zhen Zhen. Research Summary on Ontology Matching Technologies[J]. New Technology of Library and Information Service, 2009(11): 6-9. ) [本文引用:1]
[5]	Protégé [EB/OL]. [2013-10-15]. http://protege.stanford.edu/. [本文引用:1]
[6]	Hogan A, Zimmermann A, Umbrich J, et al. Scalable and Distributed Methods for Entity Matching, Consolidation and Disambiguation over Linked Data Corpora[J]. Web Semantics: Science, Services and Agents on the World Wide Web, 2012, 10: 76-110. [本文引用:1]
[7]	Raimond Y, Sutton C, Sand ler M. Automatic Interlinking of Music Datasets on the Semantic Web [C]. In: Proceedings of the 17th International World Wide Web Confernce on Linked Data on the Web. 2008. [本文引用:1]
[8]	Sheth A, Aleman-Meza B, Arpinar I B, et al. Semantic Association Identification and Knowledge Discovery for National Security Applications[J]. Journal of Database Management, 2005, 16(1): 33-53. [本文引用:1] [JCR: 0.875]
[9]	潘有能, 刘朝霞. 本体映射技术在关联数据中的应用研究[J]. 情报科学, 2015, 33(1): 54-56. (Pan Youneng, Liu Zhaoxia. Application of Ontology Matching in Linked Data[J]. Information Science, 2015, 33(1): 54-56. ) [本文引用:1] [CJCR: 1.112]
[10]	王颖, 刘群, 王慧强, 等. 一种基于RDF图的本体匹配方法[J]. 计算机应用, 2008, 28(2): 460-462. (Wang Ying, Liu Qun, Wang Huiqiang, et al. Ontology Matching Approach Based on RDF Graph[J]. Journal of Computer Applications, 2008, 28(2): 460-462. ) [本文引用:1] [CJCR: 0.646]
[11]	马费成, 赵红斌, 万燕玲, 等. 基于关联数据的网络信息资源集成[J]. 情报杂志, 2011, 30(2): 167-170. (Ma Feicheng, Zhao Hongbin, Wan Yanling, et al. Integration of Network Information Resource Based on Linked Data[J]. Journal of Intelligence, 2011, 30(2): 167-170. ) [本文引用:1]
[12]	贾丽梅, 郑志蕴, 李钝, 等. 基于动态权值的关联数据语义相似度算法研究[J]. 计算机科学, 2014, 41(8): 263-266, 273. (Jia Limei, Zheng Zhiyun, Li Dun, et al. Research on Semantic Similarity Algorithm of Linked Data Based on Dynamic Weigh [J]. Computer Science, 2014, 41(8): 263-266, 273. ) [本文引用:1]
[13]	W3C. The Linking Open Data Cloud Diagram [EB/OL]. [2014-08-31]. http://lod-cloud.net/. [本文引用:1]
[14]	Studer R, Benjamins V R, Fensel D. Knowledge Engineering, Principles and Methods[J]. Data and Knowledge Engineering, 1998, 25(1-2): 161-197. [本文引用:1] [JCR: 1.519]
[15]	Jaro-Winkler Distance [EB/OL]. [2014-12-19]. http://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance. [本文引用:1]
[16]	Levenshetin V I. Binary Codes Capable of Correcting Deletions, Insertions, and Reversals[J]. Soviet Physics Doklady, 1966, 10(8): 707-710. [本文引用:1]
[17]	Jaccard P. Etude Comparative de la Distribution-Orale dans une Portion des Alpes et des[J]. Bulletin del la Socit Vaudoise des Sciences Naturelles, 1901, 7: 547-579. [本文引用:1]
[18]	Stoilos G, Stamou G, Kollias S. A String Metric for Ontology Alignment [C]. In: Proceedings of the 2005 International Semantic Web Conference, Galway, Ireland . 2005: 624-637. [本文引用:1]
[19]	Sutinen E, Tarhio J. On Using q-gram Locations in Approximate String Matching [C]. In: Proceedings of the 3rd Annual European Symposium, Corfu, Greece. 1995: 327-340. [本文引用:1]
[20]	Le B T, Dieng-Kuntz R, Gand on F. On Ontology Matching Problems for Building a Corporate Semantic Web in a Multi- communities Organization [C]. In: Proceedings of the 6th International Conference on Enterprise Information Systems, Porto, Portugal. 2004: 236-243. [本文引用:1]
[21]	Madhavan J, Bernstein P A, Rahm E. Generic Schema Matching with Cupid [C]. In: Proceedings of the 27th International Conference on Very Large Data Bases, Rome, Italy. 2001: 49-58. [本文引用:1]
[22]	Schadd F C, Roos N. MassMatch Results for OAEI 2012[C]. In: Proceedings of the 7th International Workshop on Ontology Matching, Boston, USA. 2012: 160-167. [本文引用:1]
[23]	Melnik S, Garcia-Molina H, Rahm E. Similarity Flooding: A Versatile Graph Matching Algorithm [C]. In: Proceedings of the 18th International Conference on Data Engineering, San Jose, California, USA. 2002: 117-128. [本文引用:1]
[24]	Baker T, Bechhofer S, Isaac A, et al. Key Choices in the Design of Simple Knowledge Organization System (SKOS)[J]. Journal of Web Semantics: Science, Services and Agents on the World Wide Web, 2013. DOI: DOI:10.1016/j.websem.2013.05.001. [本文引用:1]
[25]	司徒俊峰, 曹树金, 谢莉. 论基于关联数据的知识链接构建与应用[J]. 图书情报工作, 2013, 57(16): 123-129. (Situ Junfeng, Cao Shujin, Xie Li. Study on the Pattern and the Application of Knowledge Linking Based on Linked Data[J]. [本文引用:1]

2012

0.0

... ^[1], 关联数据的核心思想是建立Web化的、关联化的RDF表示, 因此该阶段会产生由多个分布的LOD数据集构成的数据集群, 但它们之间是独立自治的, 弱关联的, 缺乏操作接口 ...

2014

0.0

... 其中, FOAF^[2]、SKOS^[3]等通用本体已在一些数据集中推广普及, 但由于种种原因, 大部分数据集使用自行设计的领域本体或应用本体, 本体之间的异构不可避免, 这无形中增加了数据冗余 ...

2009

0.0

. , 2009(11):6-9

Zhao Jinwei , Zhen Zhen.

赵晋巍, 真溱

This paper introduces Ontology matching technologies systematically in the aspects of element-level matching and structure-level matching, and gives a brief outlook of these technologies, such as automatic selection of matching algorithm, automatic parameters tuning, background knowledge discovering and exploiting.

从元素层和结构层两个方面，较为系统地梳理并介绍主要的本体匹配技术，并对其主要发展方向，即匹配算法的自动选择和匹配参数的自动调节、大型本体分割、背景知识发现和利用进行简要的展望。

... 本体匹配是解决本体异构性的主要方法, 是语义网的研究热点之一, 主要包括以下几种技术: 基于名称的技术、基于结构的技术和基于实例的技术^[4] ...

2013

0.0

... 而基于结构的匹配技术需要参考元素间的层级关系, 针对关联数据的概念语义关系则主要表现在实体的描述信息上, 其中常用的是Equivalent Classes (等价类)、Equivalent Properties (等价属性)、Super Classes (子类)、Super Properties (子属性)以及Members(成员)等^[5] ...

2012

0.0

... 在国外, Hogan等通过关联数据集, 用可扩展、分布式的方法实现实体匹配、合并和消歧^[6] ...

2008

0.0

... Raimond等研究了一种在语义网上自动互联音乐相关数据集的互联算法^[7] ...

2005

0.875

0.0

... Sheth等提出符合RDF数据模型规范的语义关联表示模型, 即基于数据间的属性使用统计方法进行数据间语义相似性的推导^[8] ...

2015

0.0

1.112

. 2015, 33(1):54-56

Application of Ontology Matching in Linked Data

本体映射技术在关联数据中的应用研究

Pan Youneng , Liu Zhaoxia.

潘有能, 刘朝霞

本体异构严重影响了关联数据集本体间的信息交互,导致关联数据集间的本体层关联缺乏。本文讨论了本体异构的类型,介绍了本体映射的过程和主要方法,提出了一种利用本体映射技术在数据集之间建立关联的方法,从而使得实例层面的数据可以实现自动建立链接,以便在此基础上开发更多的智能应用。

... 国内学者对关联数据集的互联研究主要集中于本体层面, 潘有能等提出了一种利用本体映射技术在数据集之间建立关联的方法, 从而使得实例层面的数据可以实现自动建立链接^[9] ...

2008

0.0

0.646

. 2008, 28(2):460-462

Ontology Matching Approach Based on RDF Graph

一种基于RDF图的本体匹配方法

Wang Ying , Liu Qun , Wang Huiqiang

王颖, 刘群, 王慧强

Ontology matching is the operation that builds the mapping of two ontologies, and an efficient and rigorous similarity measure is a pre-requisite of an ontology matching process. An ontology matching approach was put forward. It used Resource Description Framework(RDF) graph to express ontology and converted the ontology matching to the problem of building RDF graph matching tree. Moreover, the proposed approach presented a similarity measure based on the entities of nodes from the matching tree to obtain the mapping of the two ontologies. Implementation and experimental results were given to demonstrate the effectiveness of the matching approach.

本体匹配是建立两个本体之间映射关系的过程，一个高效、严格的相似度计算方法是本体匹配的前提条件，为此提出了一种基于RDF图匹配的方法。该方法用RDF图表示本体，使本体间的匹配问题转化为RDF图的匹配问题，并利用匹配树表示匹配的状态，通过匹配树计算出两个本体中各实体之间的相似度，进而得到两个本体之间的映射关系。实验结果表明，该方法在查全率和查准率方面都有很好的表现。

... 王颖等提出一种基于RDF图的本体匹配方法, 用RDF图表示本体, 使本体间的匹配问题转化为RDF图的匹配问题, 通过匹配树计算出两个本体中各实体之间的相似度^[10] ...

2011

0.0

. 2011, 30(2):167-170 DOI:doi:10.3969/j.issn.1002-1965.2011.02.034

Integration of Network Information Resource Based on Linked Data

基于关联数据的网络信息资源集成

Ma Feicheng , Zhao Hongbin , Wan Yanling

马费成, 赵红斌, 万燕玲

针对网络信息资源集成所面临的困难,结合关联数据的基本思想,提出一个基于关联数据的网络信息资源集成框架.并依据此框架,设计和实现了以"武汉大学"为基本单位的免费网络学术资源集成实验系统.该系统遵循了关联数据的基本原则,可以提供基本的关联数据浏览和SPARQL检索两种服务,充分体现关联数据应用于资源集成中的巨大优势.

... 马费成等提出一个基于关联数据的网络信息资源集成框架, 并依据此框架, 设计和实现了以武汉大学为基本单位的免费网络学术资源集成实验系统^[11] ...

2014

0.0

. 2014, 41(8):263-266, 273 DOI:doi:10.11896/j.issn.1002-137X.2014.08.055

基于动态权值的关联数据语义相似度算法研究

贾丽梅, 郑志蕴, 李钝

语义相似度计算对关联数据的信息检索有重要作用,直接影响数据的语义挖掘效果.实例的属性信息是关联数据语义相似度计算的一个重要因素.针对传统的关联数据语义相似度算法未考虑属性的重要性和取值类型导致计算精度较低的问题,提出基于动态权值的关联数据语义相似度计算方法,即根据待匹配的数据集中属性不同取值的数量、属性值的分布以及属性的有效性3个因素动态计算属性的权值,然后依据属性取值类型选用匹配相似度算法,最后结合属性的动态权值对概念进行实例的相似度计算.实验表明,基于动态权值的相似度计算方法与传统方法相比,实例相似度的计算精度得到了一定的提高.

... 贾丽梅等提出基于动态权值的关联数据语义相似度计算方法, 在计算属性的权值后依据属性取值类型选用匹配相似度算法, 结合动态权值对概念进行实例的相似度计算^[12] ...

2014

0.0

... 3 面向关联数据集的本体匹配方法根据2014年发布的LOD数据云图^[13], 现有的关联数据集已涉及地理、生命科学、医药、出版、媒体、社会网络等领域, 关联数据集的海量化、多元化与复杂化使得数据集之间的关联发现日益重要 ...

1998

1.519

0.0

... ^[14] ...

2014

0.0

... 这些方法在数据处理效率上各有优缺点, 如Jaro-Winkler Distance^[15]适合于较短字符之间的相似度计算 ...

1966

0.0

... Levenshtein Distance^[16]通过对源数据进行插入和删除操作转换为目标数据, 算法简单, 但准确率较低 ...

1901

0.0

... Jaccard Distance^[17]难以识别像aunt和ant这样虚假相似的概念对 ...

2005

0.0

... ISUB^[18]不仅记录数据之间的相同字符, 同时也计算其差异度 ...

1995

0.0

... q-gram^[19]适合处理大规模的数据集, 它先对字符串进行q切分, 通过建立切分单元与数据的索引计算相似度, 这种算法比较复杂, 计算量大, 需要较大的存储空间 ...

2004

0.0

... ASCO^[20]算法来源于ASCO匹配工具, 它综合计算概念的临近节点、概念路径与概念属性的相似度, 易移植于RDF数据模式上, 但不适于处理结构复杂、层次高的本体对 ...

2001

0.0

... TreeMatch^[21]和MassMatch^[22]都是基于树的匹配方法, 这两种方法适合处理结构复杂的本体对, 在数据处理量上MassMatch略低于TreeMatch方法 ...

2012

0.0

... TreeMatch^[21]和MassMatch^[22]都是基于树的匹配方法, 这两种方法适合处理结构复杂的本体对, 在数据处理量上MassMatch略低于TreeMatch方法 ...

2002

0.0

... SF^[23]是一对一的相似度匹配算法, 从数据输入、图构建、数据映射到数据过滤形成一个完整的匹配系统, 算法独立性强, 但计算时间较长 ...

2013

0.0

... 如美国国会图书馆利用SKOS(简单知识组织系统)将传统的主题标目的知识关联转换成Web可用的关联数据形式, 这些SKOS数据可以从多层面与外界互操作, 如LCSH概念链接、GeoNames等^[24] ...

2013

0.0

. 2013, 57(16):123-129 DOI:doi:10.7536/j.issn.0252-3116.2013.16.023

论基于关联数据的知识链接构建与应用

Situ Junfeng , Cao Shujin , Xie Li.

司徒俊峰, 曹树金, 谢莉

从关联数据的链接机制入手,探讨采用关联数据技术构建知识链接的优势、构建模式和具体构建方法；根据知识链接的不同功能,将基于关联数据的知识链接划分为三种类型:等同链接、相关性链接、词汇性链接；最后从应用角度建立基于关联数据的知识链接的4层应用框架,包括描述层、链接层、整合层、应用层,同时展望基于关联数据的知识链接的应用.

... 又如, 瑞士国家图书馆开放的关联数据使用的词汇表创建了到LSCH和DBpedia的外部链接^[25] ...