数据分析与知识发现, 2020, 4(1): 76-88 doi: 10.11925/infotech.2096-3467.2019.0791

研究论文

一种面向演化的模式元数据描述机制*

李旭晖,,1,2, 于滔1, 李婷1, 李逸文3, 顾进广4

1武汉大学信息管理学院 武汉 430072

2武汉大学信息资源研究中心 武汉 430072

3湖南大学信息科学与工程学院 长沙 410082

4武汉科技大学计算机科学与技术学院 武汉 430065

An Evolutionary Schema for Metadata Description

Li Xuhui,,1,2, Yu Tao1, Li Ting1, Li Yiwen3, Gu Jinguang4

1School of Information Management, Wuhan University, Wuhan 430072, China

2Center for Studies of Information Resources, Wuhan University, Wuhan 430072, China

3College of Computer Science and Electronic Engineering, Hunan University, Changsha 410082, China

4College of Computer Science and Technology, Wuhan University of Science and Technology,Wuhan 430065, China

通讯作者: * 李旭晖,ORCID:0000-0002-1155-3597,E-mail:lixuhui@whu.edu.cn

收稿日期: 2019-07-3   修回日期: 2019-10-31   网络出版日期: 2020-01-25

基金资助: *本文系国家自然科学基金重大研究计划“大数据驱动的管理与决策研究”重点支持项目“基于知识关联的金融大数据价值分析、发现及协同创造机制”.  91646206
教育部人文社会科学重点研究基地重大项目“大数据资源的语义表示与组织研究—面向文化遗产领域”的研究成果之一.  16JJD870002

Received: 2019-07-3   Revised: 2019-10-31   Online: 2020-01-25

摘要

【目的】 设计一种面向演化的模式元数据描述机制,以适应各类信息系统应用中数据模式频繁演化的需要。【方法】 在总结已有相关研究的基础上,对概念模式的结构化描述进行形式化定义,结合模式结构对概念模式演化的常见形式进行归纳,确定基于正规模式的易演化模式结构。【结果】 提出一种面向演化的模式元数据描述机制及一种基于图结构的易演化模式元数据(Evolutionary Normal Metadata, ENM)描述模型。【局限】 研究仅是初步尝试,在后续工作中将针对正规概念模式的结构表达式的理论性质做更深入的探讨。【结论】 本文所提正规概念模式描述方法具备较强的概念语义特征描述能力。

关键词: 元数据描述 ; 模式演化 ; 模式描述

Abstract

[Objective] This paper proposes an evolutionary schema for metadata description, aiming to address the frequent changing of schema for information system applications.[Methods] First, we summarized related research and formalized the structural description of the conceptual schema. Then, we summarized the common forms of conceptual schema evolution by combining schema structures. Finally, we determined the evolution schema structure based on the normal model.[Results] This paper established an evolutionary mechanism for metadata description and the ENM (Evolutionary Normal Metadata) model.[Limitations] This paper is only a preliminary study. More in-depth discussion is needed on the theoretical nature of structural expressions of normal conceptual schema.[Conclusions] The proposed method has strong abilityin the concept description of semantic features.

Keywords: Metadata Description ; Schema Evolution ; Schema Description

PDF (901KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李旭晖, 于滔, 李婷, 李逸文, 顾进广. 一种面向演化的模式元数据描述机制*. 数据分析与知识发现[J], 2020, 4(1): 76-88 doi:10.11925/infotech.2096-3467.2019.0791

Li Xuhui. An Evolutionary Schema for Metadata Description. Data Analysis and Knowledge Discovery[J], 2020, 4(1): 76-88 doi:10.11925/infotech.2096-3467.2019.0791

1 引 言

元数据是“关于数据的数据”,确切来说是指描述一般数据(常称为目标数据)的结构和管理特征的数据。信息系统的构建和应用需要存储、传输和交换各种信息,元数据被广泛用于对这些信息的结构规则和语义约束进行描述,以保障系统能够稳定高效运行。这些信息结构规则和语义约束通常称为概念模式,本文将这种描述概念模式的元数据称为模式元数据。对模式进行合理准确的描述并对模式元数据进行有效管理是构建信息系统与知识系统的核心问题之一。

模式元数据本质上是一种轻量级知识本体,是对相应的对象数据中所蕴含的抽象概念信息的描述,其内容主要包括目标数据反映的概念属性、概念(属性)间关联以及概念属性的简单语义约束。相对于注重逻辑推理的一般知识本体,模式元数据更关注概念模式中的数据类型以及与目标数据间的映射机制,其目的主要在于实现目标数据语义特征的表示并基于语义特征优化数据管理。

传统信息系统一般通过底层数据库管理系统对以关系型概念模式为代表的模式元数据进行管理。这种模式元数据采用结构平坦的关系元组描述对象概念及其属性。由于系统功能和对象数据类型相对稳定,元数据一旦形成不会轻易更改。近年来,随着NoSQL数据库技术广泛应用于信息系统建设中,信息系统管理的目标数据范围逐步扩大,以XML、JSON数据为代表的各种复杂结构化和半结构化目标数据被纳入数据管理范畴,并逐步形成以语义数据为核心的大规模知识系统。目标数据的类型日益丰富且更加灵活多变,其模式描述更趋复杂,同时概念模式常常会根据应用需求发生演化。为适应范围更广、变化更频繁的应用环境,信息系统中的模式元数据描述需要具备反映模式演化的能力,以使系统能根据应用需要,在不对底层进行大的修改前提下,实现对新引入的目标数据类型及实例的有效管理。随着大数据时代逐渐向大知识(Big Knowledge)时代过渡,面向知识管理需求研究模式元数据的描述和演化机制,已经成为有效管理、理解和利用各领域积累的大规模语义数据所必须要解决的问题。

模式演化是信息管理领域的经典课题,研究者们已经在关系数据库和对象数据库中深入开展模式演化的研究。然而,笔者从模式演化的实际应用场景中发现,现有关系型模式和对象型模式本身在结构上均难以满足常见的演化需求,一定程度上造成信息系统建设中处理概念模式演化需求时复杂度高、维护难度大、数据处理效率降低的问题。为此,本文提出一种新的模式元数据描述机制,主要贡献在于:

(1)对概念模式的结构化描述进行形式化定义;

(2)结合模式结构对概念模式演化的常见形式进行归纳,提出描述模式演化的新方法;

(3)基于上述方法确定基于正规模式的易演化模式结构,建立相应的模式元数据描述机制。

限于篇幅,本文主要从知识建模角度对概念模式的结构和操作进行探讨,基于该模式元数据机制的应用系统构建将在后续研究工作深入分析。

2 相关研究

关系模式是研究最为广泛的一种模式,1970年,“关系数据库之父”Codd[1]首次提出数据库的关系模型的概念,奠定了关系模型的理论基础。1978年,Ellison在关系数据库理论和SQL的基础上,开发了第一个商用关系型数据库Oracle[2]。目前,关系数据库已被广泛应用,Friedmand等[3]介绍关系数据库模型中临床患者数据库的通用模式。通用设计使得可以在标准结构中表示不同的临床数据并组织数据;然而现实世界中数据是多源异构的,关系数据所占比例大概不到20%。对于处理非关系型数据,研究者进行了多方面的探索,Link等[4]建立了一个框架为需要不确定数据的应用程序设计关系数据库模式。

随着互联网的发展,XML以其简单、可扩展、支持跨平台、跨地域、异构应用间的协同工作等优点,迅速成为互联网分布式应用系统数据交换的主要数据模式。从早期的XMLDTD模式[5],到W3C推出的XMLSchema[6,7],多种XML模式被提出。在DTD基础上扩展生成的SOX(Schema for Object-Orient XML)模式[8]是一种可扩展的数据类型,并具备继承等面向对象属性。

对于面向对象模式,Tanaka等[9]探究面向对象模式的构建步骤,描述面向对象数据库中的模式虚拟化的概念和实现技术,为用户提供数据库的多个视图。Rahim等[10]提出数据仓库的图形多维数据模型(GMDDM)及其等价的面向对象模式的转换,提供将任何基于图表的表示转换为面向对象模式的通用规则。由于XML模式的多样性,不同模式之间的映射受到学者的广泛关注[11,12,13]

近年来,由于JSON格式数据在数据交换过程中的便捷性,越来越多的系统采用JSON作为数据交换格式,对于标准化JSON模式的描述也逐渐得到研究者的更多关注。Pezoa等[14]为JSON Schema提供了语法和语义的第一个正式定义,并表明在实践中,在JSON上实现这个层是可行的。Bourhis等[15]在JSON Schema规范[16]基础上,定义JSON的数据模型,使得JSON数据模型具备关键查询功能,并提出允许为JSON文档指定模式约束的逻辑。

数据管理领域的研究者常常从模式演化的角度对既定模式元数据的扩展方式和管理机制进行探讨。模式演化是一个关于如何修改模式以满足现实世界的变化的问题,Beyer等[17]强调XML数据库DB2支持模式演化的意义与重要性。Bouchou等[18]提出具体的XML模式演化算法Grec,该算法利用有限状态自动机对模式进行修改,并为修改后的模式生成正则表达式,供使用者选择。

对于模式演化的研究较多集中面向对象数据库方向,大量研究者以此作为研究重点[19,20]。其原因在于面向对象数据模型比传统关系模型具有更丰富的语义表现能力。Lu等[21]提出一种等价的模式演化方法,不仅解决了模式演化中的软件重用问题,而且支持模式版本机制。De Matos Galante等[22]提出模式演化的时间和版本控制模型(TVSE)。该模型使用时间和版本概念管理面向对象数据库中的动态模式演化,能够管理模式演化过程,包括模式版本控制、模式修改、更改传播和数据操作。Monk等[23]提出的模式演化模型记录类的版本,并提供一种转换机制(例如更新和回溯过程),允许类的旧版本和当前版本之间的部分映射。他们的方法提供了一种多态机制,一个类的不同版本中的同一个属性可能具有不同语义。Piccioni等[24]展示了如何用类版本信息指导IDE,从而为开发人员提供指导,帮助他们实现语义上正确的模式演化。

然而由于面向对象数据库在商业上未取得成功,同时对象数据模型在模式的扩展方式上也存在一定不足,使得该方向的研究并未得到应用。

利用元数据描述信息资源,以支持信息资源的演化和信息系统的交互是学者关注的重要问题。大量学者在数字图书馆、GIS等领域,采用元数据描述框架,对信息资源进行描述管理[25,26]。也有学者将关注点聚焦于元数据设计、构建的宏观领域,通过借鉴国外政府的元数据标准,为中国元数据标准建设提供建议[27,28]。在设计准则层面,Duval等[29]提出元数据设计的4条准则:模块化、可扩展性、细化、以及多语言性。张晓林[30,31]则对元数据及其开发应用过程中的问题进行深入探讨,并进一步提出元数据的开放设计要求,即模块化、可扩展性、分布性以及递归性,以适应复杂的资源描述环境。

3 概念模式的基本结构

模式元数据描述的主要目标是概念模式,即信息系统应用中各种概念的逻辑结构和语义约束。限于篇幅,本文仅考虑概念的逻辑结构描述的相关内容。概念模式具有两方面的特点:一方面,概念模式的主要功能是刻画概念的内涵,概念内涵通常由其概念属性聚集而成;另一方面,概念模式在形式上由特定的逻辑结构表示,准确地说是由表现概念内涵的基本元素和相应的复合结构操作表示,因此逻辑结构形式决定了概念模式的表达范围和能力。传统关系模式使用的关系结构是一种结构平坦的属性聚集形式,其描述简单方便,在其上建立的关系代数复杂程度低,常见的实体-关系(Entity Relationship, ER)图等概念描述形式仍以关系模式为依托,解决了传统信息系统的典型概念建模问题。

传统方法将概念描述为概念属性的聚集,这种方法相对简单直观,并被传统概念模式如关系模式和对象模式所采用。然而,这种概念描述方式对概念属性的限制过于严格,导致模式演化的灵活性不足。本文在参考传统数据模式结构特点的基础上,设计新的概念模式结构描述方法,以建立能描述典型概念属性内涵结构特征并易于演化的概念模式。为此本文自主提出下列定义刻画概念属性结构。

由于概念的属性可以是另外一个概念或另一个概念的属性,因此设定存在一个概念属性域 ,为所有概念和属性的名字集合。当需要专门描述某个特定概念 C的属性 A时,可以用符号“.”进行间隔,如“ C.A”。

定义1 概念及属性

一个概念由一个二元组 C=A,O描述,其中:

A是一个有限集合, aA称为 C的一个属性;

O2A+称为属性出现约束集合,其中 A+A的包集,并且对任意 aA,存在 oO使得 aO

上述定义中,幂集符号 2s指由 S的子集构成的集合簇。由定义1可知,一个概念 C是由属性集合以及属性出现约束集合——一组属性 aiA构成的包集的集合簇——来表征。本文采用的属性出现约束集合列举了构成概念 C的所有可能的属性的出现情况。一个属性出现 oO是由属性集 A中的一个或多个属性(属性可重复)构成的包集,表示这些属性聚集在一起时可以完整表示概念 C的一种情况。对某个属性 aA,若对所有属性出现 oO,有 ao,则称 a为概念 C的必备属性,否则称 a为概念 C的可选属性。

例1 一个“教学”概念 C教学具有一个由“教师”、“学生”、“教学内容”三个属性构成的属性集合 A教学,而属性约束集可以定义为 O教学={{教师,学生},{教师,学生,教学内容}}。这表示一个 C教学概念的内涵可以由“教师”和“学生”属性构成,也可以由“教师”、“学生”和“教学内容”三个属性构成。其中,“教师”、“学生”是概念 C教学的必备属性,而“教学内容”则是 C教学的可选属性。

这里的概念属性出现以包集而非元组的形式表示概念属性形成聚集,因此在一个属性出现包集中,概念属性的顺序是无关的。

定义2 属性结构算子

一个 n元属性结构算子是一个映射 s:2(i=1n22+22+),其中,对于 A, s[A]为一个仅对 i=1n22A+的子集有定义的 n元部分函数。

由定义2可知,一个 n元属性结构算子在指定概念集 A时形成的映射 s[A]能将一组 n个属性出现约束集映射到一个属性出现约束集。因此,属性结构算子提供了一种分层次描述概念的属性出现约束集的方式,这是对概念进行形式化结构化描述的基础,也是建立概念模式结构的基础。通过引入不同的结构算子,可以通过算子建立不同的概念模式框架。当不引起混淆时,常将 s[A](O1,,On)简写为 s(O1,,On)

定义3 聚集算子

聚集算子“aggr”是一个二元属性结构算子,定义为:对于 A, O1, O22A+, aggr(O1,O2)={o1o2|o1O1,o2O2}

聚集算子是最常见最基本的结构算子。以关系模式为例,在不考虑元组中各属性顺序的情况下,关系模式可以表现为元组中各元素通过聚集算子构成的属性出现约束。将 aggr(O1,O2)记作“ (O1,O2)”。在聚集算子基础上,可定义一个 K重算子。

定义4 K重算子

K重算子 {k}k为正整数)是一个一元属性结构算子,定义为:对于 A, O2A+,若 k=1,则 {k}(O)=O;若 k>1, {k}(O)=(O,{k-1}(O))

由定义可知, K重算子可以将其参数属性集合扩展为 k次重复。将 {k}(O)记为 O{k}。例如, {2}(a)={a,a}。引入 K重算子,表明概念可以由多个同名属性构成,例如一个新的教学概念 O教学2={{教师,学生,学生},{教师,学生,学生,教学内容}}中,学生属性在每个属性出现约束中会出现两次,表明教师会教两个学生。

定义5 属性结构表达式

对于一个属性集合 A和一组属性结构算子 S,一个属性结构表达式由如下规则归纳形成:

①对 aA{null}, a是属性结构表达式;

②对于 n个属性结构表达式 p1,,pn和一个属性结构算子 sS, s(p1,,pn)是属性结构表达式。

属性结构表达式是一种描述属性出现约束集合的简单形式,其语义可以按如下定义。

定义6 属性结构表达式语义

对一个定义在属性集合 A和属性结构算子 S上的属性结构表达式 se,其语义函数 [|se|]2A+归纳定义为:

[|a|]={{a}},aA;

[|null|]={};

[|s(p1,,pn)|]=s([|p1|],,[|pn|])

由上述定义可知,一个属性结构表达式是对一个属性出现约束集合的简化描述,可以作为模式描述的符号表示。为简便起见,本文将属性结构表达式的集合用符号 SE表示。

定义7 结构化概念

一个结构化概念是一个由属性集合 A、一组结构算子 S以及一个在 AS上定义的属性结构表达式 se构成的三元组 SC=(A,S,se),其概念出现约束集合由 se指定。

引入结构算子后,能够通过结构算子建立结构化概念,以描述更加灵活的概念属性约束。传统模式描述方法仅利用聚集算子进行概念模式描述,仅能得到最简单的模式属性出现约束集。

性质1 一个概念若可仅由聚集算子描述其属性结构表达式,则其属性出现约束集仅有一个非空元素。

对于具有更多属性出现约束可能的概念描述,需要在聚集算子基础上进一步引入其他算子,以建立更加复杂的概念模式。同时,从概念属性出现约束集合的角度,可以对概念模式演化的方式及其对属性集的影响进行更加深入的分析。

4 概念模式演化方式

概念演化指人们对事物特征归纳所形成的概念随着认识逐步深入而发生变化。由于概念间的逻辑关系通常被归纳为特化和泛化两类,因此概念的演化也通常体现为利用特化和泛化机制衍生出新的相关概念。概念演化通过相应的模式描述方法表现为概念模式演化。对概念模式演化的描述则基于概念的逻辑结构对常见的特化和泛化等演化方式进行刻画。

4.1 概念特化

概念的特化是将既有概念描述的事物类别细分为子类别。从概念外延角度,概念的特化是对其指称范围的限制,表现为特化概念的外延对象集是原概念外延对象集的子集。从概念内涵的角度对概念模式进行特化时,则会在属性出现约束集中反映相应的指称范围限制。特别地,对于结构化概念而言,模式特化应该表现为对特化概念的属性结构约束进行刻画。常见的概念特化形式包括以下方面。

(1) 概念属性扩展

概念模式最常见的特化形式就是概念属性的扩展。对于既有概念而言,增加属性意味着对概念外延进一步约束,从而缩小概念指称的范围。传统的关系型数据库利用关系元组结构描述概念属性,因此概念属性扩展直接表现为在元组中添加新的属性列。面向对象数据库则利用子类继承的方式刻画概念特化,概念以类模式表示并以子类模式进行扩展,子类中的属性则是相对父类进行扩展的属性。在XML数据模式中,也参考对象数据模式的方法引入模式扩展的方式进行属性扩展。

概念属性扩展的形式可以从属性出现约束集的角度进行分析。通过增加新属性的方式对既有概念进行特化,意味着属性出现约束集中的各个属性出现包集中可能增加相应的新属性。形式上看,对于两个概念模式 C1=(A1,O1)C2=(A2,O2),如果 C2是对 C1通过扩展属性进行的特化,则有 A1A2,并且对任意 o1O1存在 o2O2使得 O1O2

教学关系属性图如图1所示,图1(a)中“教学”这一概念包括两个属性,教师、学生;图1(b)中“教学”概念包括三个属性,教师、学生以及教学内容。表明教学内容是“教学”概念的可选属性。图1(d)和图1(e)通过概念集扩展的方式实现对“教学”概念的特化,得到特化后的新概念:“阶段性教学”。特化后的概念“阶段性教学”增加时间这一新属性。

图1

图1   教学关系属性图

Fig.1   Teaching Relationship Attribute Figure


(2) 概念属性限定

概念模式的特化还可以通过对其属性的语义进行限制实现。属性的语义限制体现在两个方面:一方面,对属性值进行语义约束;另一方面,对属性出现约束集合进行限定。

对属性值进行语义约束限制了概念指称的外延对象在相应属性上的取值范围。这种语义约束在概念模式中通常表现为对一个或多个属性值设定逻辑条件约束。例如,关系模式中常通过对列设定完整性约束条件等形式,限定一个或多个属性的(组合)值范围。如图1(c),教学活动中可以存在多个学生。然而,由于这种基于逻辑式的属性值语义约束可以引入复杂的计算,如果对其表达式的形式和计算复杂性缺乏合适的限制,则会导致难以判断不同模式之间是否存在特化关系。对属性值的语义约束超出了本文的讨论范围,将在后续研究中进行深入探讨。

对属性出现约束集合进行限定是一种更简单宽松的属性限定方式。形式上看,对于两个概念模式 C1=(A,O1)C2=(A,O2),如果 C2是对 C1通过属性出现约束限制进行的特化,则有 O2O1,直观地表现为符合 O2的属性出现包集只是符合 O1的属性出现包集的一部分,因此 C2的指称范围是 C1的一部分。例如,对于图1(a)、图1(b)所表示的“教学”概念,如果将教学内容限定为必备属性,则可将“教学”概念特化为具备教学内容的“课程教学”。则 O教学演变为新的单元数属性出现约束集合 O课程教学={{教师,学生,教学内容}},因此形成一个新概念 C课程教学。当概念属性出现约束集合可以用结构算子表示时,这种限定也相应表示为属性结构表达式上的限制,这使得对概念间特化关系的判断更加简便直观。

(3) 相关概念分离

事物认知过程常会沿自底向上的途径,从具体事物特征出发归纳出抽象概念。在此过程中,一个常见的情况是:从已有概念的属性集中分离出一部分相关程度更高的属性(称为相关属性),并将其归纳为一个新的相关概念。为使整个模式结构更加合理、规范,通常会将这个新的相关概念单独定义,同时将原概念的相关属性演变为相关概念的对应属性。例如,对于 C课程教学概念,如果图1(f)“教师”和“教学内容”两者能形成相关属性,则可将其分离形成一个独立的相关概念 C课程教师,从而形成新的 C课程教学=({课程教师.教师,课程教师.教学内容,学生},{{课程教师.教师,课程教师.教学内容,学生}})。在关系模式中,这种情况表现为基于对属性间函数依赖关系的分析而进行的3NF规范化。

相关概念的分离使得原始概念的属性集相应调整,从而导致模式演化。与上述两种演化方式不同的是,相关概念分离导致的模式演化在原始概念的外延上并未产生变化,但在内涵上却有不同。这种演化仍然属于概念特化范畴,因为当用相关概念中的相关属性替换原有属性时,相关概念中的相关属性相对于原有属性已经进行了逻辑组合上的限定。例如,对于 C教学而言,“教师”和“教学内容”被“课程教师”中的“教师”和“教学内容”属性取代时,后者可以看作是原来属性被约束在 C课程教师概念中的一种特化形式。

4.2 概念泛化

概念的泛化是对含义相近、特征相似概念的特性进行归纳形成超类概念,也是源于对事物特征自底向上的认知过程。从概念外延角度,概念的泛化是对其指称范围的扩充,表现为特化概念的外延对象集是原概念外延对象集的超集。从概念内涵的角度对概念模式进行化时,则会在属性出现约束集中反映相应的指称范围扩展。常见的概念特化形式包括以下方面。

(1) 概念并集

概念并集是传统概念模式进行泛化的一个常用手段。通过引入“并”(Union)操作,将多个概念合并为一个“并”概念作为现有概念的超类概念。例如,图1(g)中, C教学C科研两个概念可以设定为一个并概念“ C教学unionC科研”,新的概念包含之前概念的相关属性。这个“并”概念具有明确的外延,即各个分概念的外延对象集的并集。例如,关系模式可以采用关系表的“并”运算表达概念并集,在XML模式中也有类似的“并”操作。

然而,“并”概念是对一组已知概念的操作结果,一经形成后无法成为其他概念的超类概念。这种缺乏灵活性的操作难以满足实际应用中引入独立的超类概念的需求。超类概念一经形成,应能够独立应用于其他概念的生成和描述。“并”概念通常缺乏对概念内涵的合适描述手段,没有从概念属性的共同特征角度对超类概念的内涵进行归纳,这使得其模式描述的表达能力严重受限。

(2) 基于属性子集生成超类概念

从概念内涵角度,泛化主要体现为对相似概念属性集中共有属性子集的归纳。由各原始概念属性的公共子集归纳形成的超类概念,其属性出现约束应与原始概念中相应的属性出现保持一致。形式上看,对于两个概念模式 C1=(A1,O1)C2=(A2,O2),如果 C1是对 C2通过选择属性子集进行的泛化,则有 A1A2,并且对任意 o1O1存在 o2O2使得 O1O2。例如图1(h)中,“教师”概念由“教授”概念泛化而来,其中“教师”属性集是“教授”属性集的子集,“教师”可以表现更加宽泛是实体概念。

对于原始概念进行归纳形成超类概念时,超类概念可以按专用的超类概念模式进行声明,并在声明时指定超类概念和原始概念之间的特化关系,其中特化关系主要关注于超类概念属性和原始概念属性之间的对应或映射关系。这种生成超类概念的方法在一些对象数据建模理论研究中被采用。然而,现有关系模式、XML模式以及大部分对象概念模式的定义规范通常仅允许在概念被声明时确定其为某个概念的特化概念,概念建立后不能再为其指定其他超类,这使得超类概念难以在模式中合理声明。

对于概念泛化的一般情况,超类概念被声明后应能够动态指定其与子类概念之间的特化关系。然而目前的概念模式描述方法难以满足这个要求,即使少数关注概念泛化的对象概念模式研究也仅允许超类在声明时确定已知子类,而无法建立动态特化/泛化关系。究其原因在于,模式(或类型系统)管理机制要求模式(数据类型)一经声明就不应再有变化,因而概念泛化/特化关系也需要在超类建立时指定。因此,基于属性子集归纳生成的超类概念,即便能从概念内涵角度描述泛化关系的细节特征,但仍然缺乏足够的灵活性以独立用于与其他概念的特化/泛化关系描述。

5 一种易演化的模式元数据描述模型

5.1 正规概念模式结构

上述概念模式演化的方式需要有合适的模式元数据描述机制进行支撑。以关系模式为代表的常见数据模式,利用聚集结构算子建立基本的概念属性结构,但缺乏合适的演化手段。以对象模式为代表的数据模式基于框架语义描述机制,引入特化机制,能够完成基本的模式演化,但是其模式结构仍然仅采用了聚集结构算子。

对于易演化的信息系统应用而言,概念模式的描述需求更加复杂,需要有更加灵活的逻辑结构加以支撑。为获得更强的表达能力,以XML模式为代表的新一代模式描述方法,采用了更加灵活多样的复合结构形式,在表现概念内涵属性聚集的基础上,通过基于正规表达式的模式结构对属性间的依赖约束情况进行刻画。但是XML模式也存在描述过于复杂、演化方式单一等问题:一方面,XML模式强调元素间顺序关系,这种顺序对于数据元素组织结构解析有实际意义,但在概念描述中通常并非重点;另一方面,XML模式主要通过继承方式进行模式特化扩展,但难以满足更复杂的模式演化需求。

本文根据上述概念结构描述机制,参考XML模式描述方法,设计新的模式结构及其演化机制。为增强模式结构的表达能力,引入新的模式结构选择算子。

定义8 选择算子

选择算子“cho”是一个二元属性结构算子,定义为:对于 A, O1,O22A+, cho(O1,O2)=O1O2

引入选择算子后,概念能够根据已有的属性情况在另外多个属性中选定相关属性。例如,对于“教学”概念,可以选定“考核”或“考试”两种考察方式的其中一种作为其属性。将 cho(o1,o2)记作 o1|o2

具有聚集算子和选择算子的模式结构,能够表达更加灵活的概念属性出现约束。例如,采用聚集和选择算子的属性结构表达式“(教师,学生,(教学内容|null))”可以描述例1中的属性出现约束。通常将属性结构表达式 φ|null简写为 φ?。

K重算子和选择算子进行组合可形成如下定义的范围算子,能够对概念中的同名属性个数做更灵活的限制。

定义9 范围算子

范围算子“ m..n”( m, n为正整数且 m< n)是一个一元属性结构算子,定义为:对于 A, O2A+, m..nO=mO|m+1O||nO

m..nO记为 Om..n。特别地,对于 m=1n趋于无穷时的范围算子记为 {*}。范围算子和选择算子组合可以为属性指定任意自然数子集作为其出现次数。对一个属性出现包集 o, 若存在属性 a和自然数集 NN,使得 ao中的出现次数在 N指定的范围内,则称 o满足 aN

上述给出的各个算子刻画不同的属性结构特征,将其集成在一起能使属性结构具有灵活强大的表达能力。

定义10 正规概念

由聚集算子、选择算子、 K重算子和范围算子构成的结构化概念,称为正规概念。

例如,一个相对完整的教学概念可以定义为如下的正规概念:

C教学*=({教师,学生,教学内容},(教师,学生{*}, 教学内容?) )

此定义表明,教学概念的属性中,教师为单一出现的必须属性,学生为出现数目不定的必须属性,教学内容为单一出现的可选属性。

本文主要讨论正规概念模式结构的描述方法。为简便起见,将正规概念的集合以 NC表示。对于正规概念 ncNC,根据需要将其表示为 nc=A,Onc=A,se

正规概念模式结构与XML文档的常见模式结构如DTD等有一定类似,能满足常见的概念结构表现的需求。但与XML文档模式相比,本文的正规概念模式不强调概念属性的出现顺序,内部结构相对灵活。同时,基于上述演化种类可以形成更加丰富的演化机制。

5.2 基于正规概念的模式演化

正规概念模式的各个属性结构算子为属性出现约束集的描述提供了一个简洁、灵活的表示机制。基于此机制,可以在属性结构算子支持下,通过引入相应的结构演化机制以刻画上述典型的模式演化途径。

(1) 概念属性扩展

对于正规概念而言,概念属性扩展可表示为在既有概念模式中引入新属性元素,即通过结构算子在原概念中的各个概念属性出现包集中增加指定的属性元素。显然,属性扩展可通过聚集算子完成此类演化。

例2 对一般的 C教学概念,可以通过扩展属性“教学时间”实现概念的演化,形成一个特化概念:

C教学2=({教师,学生,教学内容,教学时间},(教师,学生{*},教学内容?, 教学时间) )

更一般地,可以将基于正规概念的概念属性扩展演化抽象描述为一个映射。

定义11 正规概念属性扩展

一个正规概念属性扩展是一个映射 AE:NC×SENC,其中:对 nc=A,seNC, seSE,有 AEnc,se=(A,se,se),其中 A=AAseAsese中的属性名集。

由定义可知,正规概念进行属性扩展方式的特化时,只需指定待扩展的属性结构表达式即可。

(2) 概念属性限定

概念属性的限定通过对属性取值范围或属性出现约束的限定完成,而本文仅讨论对属性出现约束集合进行限定的情况。正规概念通过引入选择算子,能使属性出现约束集合存在多个非空元素。在属性出现约束集中的不同元素内,属性有不同的出现方式,因此可以从模式结构角度对这些不同的属性出现进行限定,从而实现对概念属性出现约束集合的限定。

① 指定关键属性存在

约束集合的不同元素内可能存在不同的属性。例如, C教学*中有的包含属性“教学内容”,有的不包含此属性。因此,通过指定某个出现于选择算子内的属性存在,可以删除属性出现约束集中不包含该属性的那些元素,从而实现属性限定。

② 指定包集中同名属性出现次数范围

约束集合中不同元素可能对某个共有属性出现的次数有不同的限定。在正规概念中,通过范围算子描述元素包集内属性出现次数的取值范围。对此范围进一步限定,能够缩小属性出现约束。例如, C教学*中,学生的出现次数通过 *描述为不限次数。因此,在 C教学*的特化概念中,可以对学生出现次数进一步限定(例如改用范围算子 150)。

由于指定关键属性存在形式上表现为该属性出现且出现次数不受进一步限制,所以上述两种方式可以统一描述为对属性出现约束中指定属性的出现次数,进而可以形成对属性约束限定的一致描述。

定义12 正规概念属性限定

一个正规概念属性限定是一个映射 AR:NC×ACC,其中:

AC=A×2N是属性出现次数的范围指定的集合;

②对 nc=A,seNC, acAC, O={o|o[|se|]o满足ac}, ARnc,ac=A,O

由定义可知,通过属性限定得到的概念,其属性出现约束集并未直接用正规概念的各个算子进行结构化表示,但可以通过对正规概念定义进行简单扩展以纳入此类概念。本文将此类概念也作为正规概念的一种特例,不专门加以区分。

(3) 相关概念分离

从概念中分离出由部分相关属性组合而成的相关概念,将使原始概念形成特化,这种特化通过一组映射描述。

定义13 相关概念特化

一个相关概念特化是一个部分映射 SS:NC×NC×AMNC,其中:

AM:是一个属性名间的部分映射,指称原概念的相关属性与相关概念中属性的对应关系;

②对 ncNC, ncNC,当 ncnc的相关概念且存在映射 m描述相关概念属性的对应关系时, SSnc,nc,m=(Am.Om),其中 AmOm分别为 AO中的相关属性名通过映射 m置换为对应的 nc中的属性。

由上述定义可知,相关概念分离后,原概念被特化为新的概念,此时原概念中的相关属性名由相关概念对应属性名代替。例2中, C教学的相关属性“教师”和“教学内容”形成相关概念 C课程教师并分离后,可衍生出一个属性映射 m课程教师={教师 课程教师.教师,教学内容 课程教师.教学内容},因此得到新的概念 SS(C教学,C课程教师,m)=(Am课程教师,Om课程教师)

(4) 概念泛化

正规概念泛化可以分为并集泛化和一般泛化两种情况,分别采用不同方式描述。

多个正规概念的并集概念可以利用选择算子方便地表示。对于一组正规概念 Ci=(Ai,sei)(i1,,n),可以设定并集概念 C=(Ai,se1sen)。显然 C的概念属性出现约束集合是 Ci的并集,因而能够恰当地表示概念的并集泛化情况。

正规概念的一般泛化是根据已有概念的属性特征进行归纳,形成泛化概念的属性结构。概念间的一般泛化关系定义了从下位概念到上位概念的一个泛化映射,这个映射的主要内容是确定上下位概念属性之间的对应关系,其定义如下。

定义14 泛化映射

一个泛化映射是一个概念间部分映射 G:NC×NC(),对 nc=A,ONCnc=A,ONC,当 ncnc的特化概念时, Gnc,nc定义为 AA上的部分映射 f,且对 oO, {fa|ao}O

在上述定义中,对 aA, Gnc,nca=a表明 nc的属性 a是从 nc的属性 a派生而来。通过泛化映射的定义,能够动态建立两个概念之间的特化/泛化关系,从而实现正规概念间一般泛化的描述。

5.3 与相关描述机制比较

当前数据模式描述机制主要分为关系模式、对象模式、XML模式几种,其中关系模式和XML数据模式已经得到广泛应用。本文所提基于正规概念模式的元数据描述机制与当前机制在概念语义特征描述能力各方面的比较情况如表1所示。

表1   模式元数据描述机制的对比情况

Table 1  Metadata Description Mechanism

语义特征描述

概念模式
关系模式对象模式XML模式正规概念模式
概念属性出现描述聚集聚集、多重聚集、选择、多重聚集、选择、多重
概念属性扩展不支持支持支持支持
概念属性结构限定限定属性出现、属性个数限定属性出现、属性个数
相关概念分离不支持不支持不支持支持
一般概念泛化不支持不支持不支持支持

新窗口打开| 下载CSV


表1可知,正规概念模式描述方法在表现常见的模式演化方面相对于当前流行的数据模式更有优势。

概念逻辑结构的规范描述也属于本体研究的范畴,正规概念模式描述可以看作是一种面向数据处理的轻量级本体描述方法,与以OWL语言为代表的传统本体描述方法也有较大区别。OWL语言等传统方法依托描述逻辑,具有很强的表达能力,可对概念的逻辑组成进行规范刻画和推理。然而,传统本体描述方法的研究与应用偏重于知识表示推理,但对数据模式管理中重点关注的模式结构和演化问题关注较少,同时其对元数据的表示以及对实例数据处理的影响也较少处理。例如,OWL本体的编辑和处理常常依托于专门的应用(如Protégé),但在元数据管理方面的功能相对欠缺。其实例数据以RDF三元组数据为载体形式进行存储和管理,但是基于概念模式的语义信息处理操作需要经过相对复杂的转换机制才能实现,用于RDF数据处理的查询语言SPARQL难以直接用于模式元数据管理。

5.4 正规概念模式的元数据描述模型

为在实际应用中使用正规概念模式进行数据建模和管理,需要根据模式的结构特点和演化方式,设计模式元数据的描述方法,以此作为后续模式元数据管理工作的基础。根据上述正规概念模式描述及其演化机制,提出一种基于图结构的易演化模式元数据(Evolutionary Normal Metadata, ENM)描述模型。ENM模型采用属性图数据模型描述正规模式元数据及其演化机制,并以当前主流图数据库作为预期的模式元数据载体。ENM模型的主要内容是ENM图,定义如下。

定义15 ENM图

一个ENM图是一个元组 G=(N,E,A,B),其中:

N是节点集,代表一个正规概念;

EN×N是一个节点间有向边集,代表概念间的关系。

概念节点之间的关系分为属性、并集、集合、特化、概念分离和泛化6类。

概念节点间的属性关系边表示目标节点概念是源节点概念的对应属性。属性关系边描述相关属性与源概念属性的对应关系。

概念节点间的集合关系边表示多个目标节点概念本身作为源节点概念中的属性。集合关系边的属性描述多个目标节点概念是源节点概念属性的集合。

概念节点间的特化关系边表示目标节点概念是源节点概念的特化。特化关系边描述目标节点概念与源概念属性的特化关系,用于建立相关概念特化映射的对应关系描述。

概念节点间的概念分离关系边表示,从源节点概念中分离出由部分相关属性组合而成的相关概念,将使原始概念形成特化,概念分离关系边描述相关属性组合形成新的相关概念与源节点概念的对应关系。

概念节点间的并集关系边表示节点概念之间取并集,形成新的节点概念。并集关系边描述新节点概念与原节点概念之间的并集关系,用于建立相关概念泛化映射的生成新概念的关系描述。

概念节点间的泛化关系边表示目标节点概念是源节点概念的泛化。泛化关系边描述目标节点概念与源概念的对应关系,用于建立相关概念泛化映射的泛化对应关系描述。

图2所示,图的节点表示概念,边表示概念之间的演化模式,边上的信息描述了演化的种类和演化的具体信息,即对属性进行了何种操作。图2描述了教学、阶段教学、课程教学、课程教师、教师、课堂教学等概念,以及属性、并集、集合、特化、概念分离、泛化6个关系。例如教学包括教师、学生、以及可选的内容等属性,在课程教学中,可以包含多个学生,即学生的集合;教学这一概念和科研概念,通过并集关系可以建立新的概念教学科研;课程教学的两个属性教师以及内容,通过概念分离则可以生成新的概念课程教师,在这种情况下,课程教学的属性即为,学生的集合、课程教师.内容、课程教师.教师;教学通过属性扩展,即在教学中添加属性教学时间,可以特化到阶段教学;教授的概念则可以一般泛化至教师。

图2

图2   教学关系ENM图

Fig.2   Teaching Relationship Figure


基于ENM图建立模式元数据的描述模型,具有多方面的优点。

(1)作为正规模式的图结构表示形式,ENM图能够准确描述正规模式结构及模式间演化关系;

(2)模式演化操作在ENM图中可以较容易地通过节点和边上的操作实现;

(3)基于正规模式的实例数据也可以通过结构类似的图数据模型进行表示和处理,并且作为数据模式的ENM图与数据实例图之间可以直接建立映射关系,使得数据实例的模式检查、映射、转换等工作更加便捷。

此外,与以RDF图表现的OWL本体相比,ENM图对数据模式的表示更加简便易操作。

6 结 语

为适应各类信息系统应用中数据模式频繁演化的需要,本文提出一种易演化的模式元数据描述机制。该机制基于对概念模式基本结构和演化方式的探讨与相关定义,采用一种新的正规概念模式结构,引入相应的演化描述方法,并在此基础上建立基于图结构的元数据描述模型。

模式元数据描述是构建应用领域复杂知识系统的核心问题之一,也是建立面向领域应用的元数据管理系统的基础。本文所提模式元数据描述机制仅是在该方向的初步尝试,未来将针对正规概念模式的结构表达式的理论性质做更深入的探讨,用以对元数据描述的逻辑结构进行优化。目前,笔者正在基于ENM模型,基于图数据库Neo4j建立元数据管理系统的原型,并以Neo4j的Cypher语言为基础设计正规概念模式描述的领域专用语言及其映射到Cypher的实现机制,准备将其应用于实际领域的信息系统构建中。同时,还将基于本文所提演化描述方法和相关映射研究正规概念模式间映射的表示和高效处理方法,并将其用于处理领域大规模语义数据的交换和查询等实际工作中。

致谢:

感谢图书情报国家级实验教学示范中心(武汉大学)对本研究的资助。

作者贡献声明

李旭晖:提出研究思路,定义理论框架,论文起草及最终版本修订;

于滔:资料收集,文献内容分析,起草、修改论文;

李婷:资料收集,起草论文;

李逸文:协助完成相关定义与性质的提出和证明;

顾进广:协助完善元数据图结构模型的相关工作。

利益冲突声明

所有作者声明不存在利益冲突关系。

参考文献

Codd E F .

A Relational Model of Data for Large Shared Data Banks

[J]. Communications of the ACM, 1970,13(6):377-387.

[本文引用: 1]

Ensor D .

A Brief History of Oracle[A].Oracle Insights: Tales of the Oak Table

[M]. Apress, 2004.

[本文引用: 1]

Frie dman C, Hripcsak G, Johnson S B, et al.

A Generalized Relational Schema for an Integrated Clinical Patient Database

[C]// Proceedings of the Annual Symposium on Computer Application in Medical Care. 1990.

[本文引用: 1]

Link S, Prade H .

Relational Database Schema Design for Uncertain Data

[J]. Information Systems, 2019,84:88-110.

[本文引用: 1]

Bray T, Paoli J, Sperberg-McQueen C M .

Extensible Markup Language (XML) 1.0

[EB/OL]. [ 2019- 08- 15]. .

URL     [本文引用: 1]

Biron P V, Malhotra A .

XML Schema Part 2: Datatypes

[EB/OL]. [ 2019- 08- 15]. .

URL     [本文引用: 1]

Thompson H S, Beech D, Maloney M , et al.

XML Schema Part 1: Structures

[EB/OL]. [ 2019- 08- 15]. .

URL     [本文引用: 1]

Davidson A, Fuchs M, Hedin M , et al.

Schema for Object-Oriented XML 2.0

[EB/OL]. [ 2019- 08- 15]. .

URL     [本文引用: 1]

Tanaka K, Yoshikawa M, Ishihara K.

Schema Virtualization in Object-Oriented Databases

[C]// Proceedings of the 4th International Conference on Data Engineering. IEEE, 1988.

[本文引用: 1]

Rahim S A, Chakraborty B, Debnath J, et al.

Design Graph Multi-Dimensional Data Model of a Data Warehouse and Conversion of Its Equivalent Object-Oriented Schema

[C]// Proceedings of the 2013 IEEE Symposium on Computers & Communications. IEEE, 2013.

[本文引用: 1]

Arenas M, Libkin L .

XML Data Exchange: Consistency and Query Answering

[J]. Journal of the ACM, 2008, 55(2): Article No. 7.

[本文引用: 1]

Amano S, Libkin L, Murlak F.

XML Schema Mappings

[C]// Proceedings of the 28th ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, Providence, Rhode Island, USA. ACM, 2009: 33-42.

[本文引用: 1]

Selma E Y E I, Zellou A, Idri A.

A New Mapping Approach Between XML Schemas in a P2P Environment

[C]// Proceedings of the 10th International Conference on Developments in eSystems Engineering. IEEE, 2017: 212-217.

[本文引用: 1]

Pezoa F, Reutter J L, Suarez F, et al.

Foundations of JSON Schema

[C]// Proceedings of the 25th International Conference on World Wide Web. 2016.

[本文引用: 1]

Bourhis P, Reutter J L, Suárez F, et al.

JSON: Data Model, Query Languages and Schema Specification

[C]// Proceedings of the 36th ACM SIGMOD-SIGACT-SIGAI Symposium on Principles of Database Systems. ACM, 2017: 123-135.

[本文引用: 1]

Internet Engineering Task Force (IETF). The JavaScript Object Notation (JSON) Data Interchange Format[EB/OL].[2019-08-15]. .

URL     [本文引用: 1]

Beyer K S, Özcan F, Saiprasad S, et al.

DB2/XML: Designing for Evolution

[C]// Proceedings of the 2005 ACM SIGMOD International Conference on Management of Data, Baltimore, Maryland, USA. ACM, 2005: 948-952.

[本文引用: 1]

Bouchou B, Duarte D, Alves M H F, et al.

Schema Evolution for XML: A Consistency-Preserving Approach

[C]// Proceedings of the 29th International Symposium on Mathematical Foundations of Computer Science. 2004: 876-888.

[本文引用: 1]

Peters R J, Tamer Ozsu M.

Axiomatization of Dynamic Schema Evolution in Object Bases

[C]// Proceedings of the 11th International Conference on Data Engineering. 1995.

[本文引用: 1]

Roddick J F .

Schema Evolution in Database Systems: An Annotated Bibliography

[J]. ACM SIGMOD Record, 1992,21(4):35-40.

[本文引用: 1]

Lu J, Dong C, Dong W.

A Equivalent Object-Oriented Schema Evolution Approach Using the Path-Independence Language

[C]// Proceedings of the 31st International Conference on Technology of Object-Oriented Languages & Systems. IEEE, 1999.

[本文引用: 1]

De Matos Galante R, Dos Santos C S, Edelweiss N , et al.

Temporal and Versioning Model for Schema Evolution in Object-Oriented Databases

[J]. Data & Knowledge Engineering, 2005,53(2):99-128.

[本文引用: 1]

Monk S R, Sommerville I .

Schema Evolution in OODBs Using Class Versioning

[J]. ACM SIGMOD Record, 1993,22(3):16-22.

[本文引用: 1]

Piccioni M, Oriol M, Meyer B.

IDE-integrated Support for Schema Evolution in Object-Oriented Applications

[C]// Proceedings of the 4th ECOOP Workshop on Reflection, AOP, and Meta-Data for Software Evolution. 2012.

[本文引用: 1]

孙立健, 张翀, 郭澄 , .

面向时空特性的地理信息元数据组织方法

[J]. 计算机应用, 2018,38(S2):152-156.

[本文引用: 1]

( Sun Lijian, Zhang Chong, Guo Cheng , et al.

Method of Organizing Spatial-temporal Geographic Metadata

[J]. Journal of Computer Applications, 2018,38(S2):152-156.)

[本文引用: 1]

Baldonado M, Chang C C K, Gravano L , et al.

The Stanford Digital Library Metadata Architecture

[J]. International Journal on Digital Libraries, 1997,1(2):108-121.

[本文引用: 1]

黄如花, 李楠 .

澳大利亚开放政府数据的元数据标准——对Data.gov.au的调研与启示

[J]. 图书馆杂志, 2017,36(5):87-97.

[本文引用: 1]

( Huang Ruhua, Li Nan .

Open Government Data Standards of Metadata in Australia: Investigation into & Englightenment from Data.gov.au

[J]. Library Journal, 2017,36(5):87-97. )

[本文引用: 1]

赵蓉英, 梁志森, 段培培 .

英国政府数据开放共享的元数据标准——对Data.gov.uk的调研与启示

[J]. 图书情报工作, 2016,60(19):31-39.

[本文引用: 1]

( Zhao Rongying, Liang Zhisen ,

DuanPeipei. Metadata Standards of Open Government Data in U.K:The Investigation & Enlightenment of Data.gov.uk

[J]. Library and Information Service, 2016,60(19):31-39.)

[本文引用: 1]

Duval E, Hodgins W, Sutton S , et al.

Metadata Principles and Practicalities

[J]. D-Lib Magazine, 2002,8(4):1-16.

[本文引用: 1]

张晓林 .

元数据开发应用的标准化框架

[J]. 现代图书情报技术, 2001(2):9-11.

[本文引用: 1]

( Zhang Xiaolin .

The Standardization Framework of Metadata

[J]. New Technology of Library and Information Service, 2001(2):9-11.)

[本文引用: 1]

张晓林 .

开放元数据机制:理念与原则

[J]. 中国图书馆学报, 2003,29(3):9-14.

[本文引用: 1]

( Zhang Xiaolin .

Open Metadata Mechanism: Ideas and Principles

[J]. The Journal of the Library Science in China, 2003,29(3):9-14.)

[本文引用: 1]

/