一种面向演化的模式元数据描述机制*
An Evolutionary Schema for Metadata Description
通讯作者: * 李旭晖,ORCID:0000-0002-1155-3597,E-mail:lixuhui@whu.edu.cn。
收稿日期: 2019-07-3 修回日期: 2019-10-31 网络出版日期: 2020-01-25
基金资助: |
|
Received: 2019-07-3 Revised: 2019-10-31 Online: 2020-01-25
【目的】 设计一种面向演化的模式元数据描述机制,以适应各类信息系统应用中数据模式频繁演化的需要。【方法】 在总结已有相关研究的基础上,对概念模式的结构化描述进行形式化定义,结合模式结构对概念模式演化的常见形式进行归纳,确定基于正规模式的易演化模式结构。【结果】 提出一种面向演化的模式元数据描述机制及一种基于图结构的易演化模式元数据(Evolutionary Normal Metadata, ENM)描述模型。【局限】 研究仅是初步尝试,在后续工作中将针对正规概念模式的结构表达式的理论性质做更深入的探讨。【结论】 本文所提正规概念模式描述方法具备较强的概念语义特征描述能力。
关键词:
[Objective] This paper proposes an evolutionary schema for metadata description, aiming to address the frequent changing of schema for information system applications.[Methods] First, we summarized related research and formalized the structural description of the conceptual schema. Then, we summarized the common forms of conceptual schema evolution by combining schema structures. Finally, we determined the evolution schema structure based on the normal model.[Results] This paper established an evolutionary mechanism for metadata description and the ENM (Evolutionary Normal Metadata) model.[Limitations] This paper is only a preliminary study. More in-depth discussion is needed on the theoretical nature of structural expressions of normal conceptual schema.[Conclusions] The proposed method has strong abilityin the concept description of semantic features.
Keywords:
本文引用格式
李旭晖, 于滔, 李婷, 李逸文, 顾进广.
Li Xuhui.
1 引 言
元数据是“关于数据的数据”,确切来说是指描述一般数据(常称为目标数据)的结构和管理特征的数据。信息系统的构建和应用需要存储、传输和交换各种信息,元数据被广泛用于对这些信息的结构规则和语义约束进行描述,以保障系统能够稳定高效运行。这些信息结构规则和语义约束通常称为概念模式,本文将这种描述概念模式的元数据称为模式元数据。对模式进行合理准确的描述并对模式元数据进行有效管理是构建信息系统与知识系统的核心问题之一。
模式元数据本质上是一种轻量级知识本体,是对相应的对象数据中所蕴含的抽象概念信息的描述,其内容主要包括目标数据反映的概念属性、概念(属性)间关联以及概念属性的简单语义约束。相对于注重逻辑推理的一般知识本体,模式元数据更关注概念模式中的数据类型以及与目标数据间的映射机制,其目的主要在于实现目标数据语义特征的表示并基于语义特征优化数据管理。
传统信息系统一般通过底层数据库管理系统对以关系型概念模式为代表的模式元数据进行管理。这种模式元数据采用结构平坦的关系元组描述对象概念及其属性。由于系统功能和对象数据类型相对稳定,元数据一旦形成不会轻易更改。近年来,随着NoSQL数据库技术广泛应用于信息系统建设中,信息系统管理的目标数据范围逐步扩大,以XML、JSON数据为代表的各种复杂结构化和半结构化目标数据被纳入数据管理范畴,并逐步形成以语义数据为核心的大规模知识系统。目标数据的类型日益丰富且更加灵活多变,其模式描述更趋复杂,同时概念模式常常会根据应用需求发生演化。为适应范围更广、变化更频繁的应用环境,信息系统中的模式元数据描述需要具备反映模式演化的能力,以使系统能根据应用需要,在不对底层进行大的修改前提下,实现对新引入的目标数据类型及实例的有效管理。随着大数据时代逐渐向大知识(Big Knowledge)时代过渡,面向知识管理需求研究模式元数据的描述和演化机制,已经成为有效管理、理解和利用各领域积累的大规模语义数据所必须要解决的问题。
模式演化是信息管理领域的经典课题,研究者们已经在关系数据库和对象数据库中深入开展模式演化的研究。然而,笔者从模式演化的实际应用场景中发现,现有关系型模式和对象型模式本身在结构上均难以满足常见的演化需求,一定程度上造成信息系统建设中处理概念模式演化需求时复杂度高、维护难度大、数据处理效率降低的问题。为此,本文提出一种新的模式元数据描述机制,主要贡献在于:
(1)对概念模式的结构化描述进行形式化定义;
(2)结合模式结构对概念模式演化的常见形式进行归纳,提出描述模式演化的新方法;
(3)基于上述方法确定基于正规模式的易演化模式结构,建立相应的模式元数据描述机制。
限于篇幅,本文主要从知识建模角度对概念模式的结构和操作进行探讨,基于该模式元数据机制的应用系统构建将在后续研究工作深入分析。
2 相关研究
对于模式演化的研究较多集中面向对象数据库方向,大量研究者以此作为研究重点[19,20]。其原因在于面向对象数据模型比传统关系模型具有更丰富的语义表现能力。Lu等[21]提出一种等价的模式演化方法,不仅解决了模式演化中的软件重用问题,而且支持模式版本机制。De Matos Galante等[22]提出模式演化的时间和版本控制模型(TVSE)。该模型使用时间和版本概念管理面向对象数据库中的动态模式演化,能够管理模式演化过程,包括模式版本控制、模式修改、更改传播和数据操作。Monk等[23]提出的模式演化模型记录类的版本,并提供一种转换机制(例如更新和回溯过程),允许类的旧版本和当前版本之间的部分映射。他们的方法提供了一种多态机制,一个类的不同版本中的同一个属性可能具有不同语义。Piccioni等[24]展示了如何用类版本信息指导IDE,从而为开发人员提供指导,帮助他们实现语义上正确的模式演化。
然而由于面向对象数据库在商业上未取得成功,同时对象数据模型在模式的扩展方式上也存在一定不足,使得该方向的研究并未得到应用。
3 概念模式的基本结构
模式元数据描述的主要目标是概念模式,即信息系统应用中各种概念的逻辑结构和语义约束。限于篇幅,本文仅考虑概念的逻辑结构描述的相关内容。概念模式具有两方面的特点:一方面,概念模式的主要功能是刻画概念的内涵,概念内涵通常由其概念属性聚集而成;另一方面,概念模式在形式上由特定的逻辑结构表示,准确地说是由表现概念内涵的基本元素和相应的复合结构操作表示,因此逻辑结构形式决定了概念模式的表达范围和能力。传统关系模式使用的关系结构是一种结构平坦的属性聚集形式,其描述简单方便,在其上建立的关系代数复杂程度低,常见的实体-关系(Entity Relationship, ER)图等概念描述形式仍以关系模式为依托,解决了传统信息系统的典型概念建模问题。
传统方法将概念描述为概念属性的聚集,这种方法相对简单直观,并被传统概念模式如关系模式和对象模式所采用。然而,这种概念描述方式对概念属性的限制过于严格,导致模式演化的灵活性不足。本文在参考传统数据模式结构特点的基础上,设计新的概念模式结构描述方法,以建立能描述典型概念属性内涵结构特征并易于演化的概念模式。为此本文自主提出下列定义刻画概念属性结构。
由于概念的属性可以是另外一个概念或另一个概念的属性,因此设定存在一个概念属性域
定义1 概念及属性
一个概念由一个二元组
①
②
上述定义中,幂集符号
例1 一个“教学”概念
这里的概念属性出现以包集而非元组的形式表示概念属性形成聚集,因此在一个属性出现包集中,概念属性的顺序是无关的。
定义2 属性结构算子
一个
由定义2可知,一个
定义3 聚集算子
聚集算子“aggr”是一个二元属性结构算子,定义为:对于
聚集算子是最常见最基本的结构算子。以关系模式为例,在不考虑元组中各属性顺序的情况下,关系模式可以表现为元组中各元素通过聚集算子构成的属性出现约束。将
定义4
由定义可知,
定义5 属性结构表达式
对于一个属性集合
①对
②对于
属性结构表达式是一种描述属性出现约束集合的简单形式,其语义可以按如下定义。
定义6 属性结构表达式语义
对一个定义在属性集合
①
②
③
由上述定义可知,一个属性结构表达式是对一个属性出现约束集合的简化描述,可以作为模式描述的符号表示。为简便起见,本文将属性结构表达式的集合用符号
定义7 结构化概念
一个结构化概念是一个由属性集合
引入结构算子后,能够通过结构算子建立结构化概念,以描述更加灵活的概念属性约束。传统模式描述方法仅利用聚集算子进行概念模式描述,仅能得到最简单的模式属性出现约束集。
性质1 一个概念若可仅由聚集算子描述其属性结构表达式,则其属性出现约束集仅有一个非空元素。
对于具有更多属性出现约束可能的概念描述,需要在聚集算子基础上进一步引入其他算子,以建立更加复杂的概念模式。同时,从概念属性出现约束集合的角度,可以对概念模式演化的方式及其对属性集的影响进行更加深入的分析。
4 概念模式演化方式
概念演化指人们对事物特征归纳所形成的概念随着认识逐步深入而发生变化。由于概念间的逻辑关系通常被归纳为特化和泛化两类,因此概念的演化也通常体现为利用特化和泛化机制衍生出新的相关概念。概念演化通过相应的模式描述方法表现为概念模式演化。对概念模式演化的描述则基于概念的逻辑结构对常见的特化和泛化等演化方式进行刻画。
4.1 概念特化
概念的特化是将既有概念描述的事物类别细分为子类别。从概念外延角度,概念的特化是对其指称范围的限制,表现为特化概念的外延对象集是原概念外延对象集的子集。从概念内涵的角度对概念模式进行特化时,则会在属性出现约束集中反映相应的指称范围限制。特别地,对于结构化概念而言,模式特化应该表现为对特化概念的属性结构约束进行刻画。常见的概念特化形式包括以下方面。
(1) 概念属性扩展
概念模式最常见的特化形式就是概念属性的扩展。对于既有概念而言,增加属性意味着对概念外延进一步约束,从而缩小概念指称的范围。传统的关系型数据库利用关系元组结构描述概念属性,因此概念属性扩展直接表现为在元组中添加新的属性列。面向对象数据库则利用子类继承的方式刻画概念特化,概念以类模式表示并以子类模式进行扩展,子类中的属性则是相对父类进行扩展的属性。在XML数据模式中,也参考对象数据模式的方法引入模式扩展的方式进行属性扩展。
概念属性扩展的形式可以从属性出现约束集的角度进行分析。通过增加新属性的方式对既有概念进行特化,意味着属性出现约束集中的各个属性出现包集中可能增加相应的新属性。形式上看,对于两个概念模式
图1
(2) 概念属性限定
概念模式的特化还可以通过对其属性的语义进行限制实现。属性的语义限制体现在两个方面:一方面,对属性值进行语义约束;另一方面,对属性出现约束集合进行限定。
对属性值进行语义约束限制了概念指称的外延对象在相应属性上的取值范围。这种语义约束在概念模式中通常表现为对一个或多个属性值设定逻辑条件约束。例如,关系模式中常通过对列设定完整性约束条件等形式,限定一个或多个属性的(组合)值范围。如图1(c),教学活动中可以存在多个学生。然而,由于这种基于逻辑式的属性值语义约束可以引入复杂的计算,如果对其表达式的形式和计算复杂性缺乏合适的限制,则会导致难以判断不同模式之间是否存在特化关系。对属性值的语义约束超出了本文的讨论范围,将在后续研究中进行深入探讨。
(3) 相关概念分离
事物认知过程常会沿自底向上的途径,从具体事物特征出发归纳出抽象概念。在此过程中,一个常见的情况是:从已有概念的属性集中分离出一部分相关程度更高的属性(称为相关属性),并将其归纳为一个新的相关概念。为使整个模式结构更加合理、规范,通常会将这个新的相关概念单独定义,同时将原概念的相关属性演变为相关概念的对应属性。例如,对于
相关概念的分离使得原始概念的属性集相应调整,从而导致模式演化。与上述两种演化方式不同的是,相关概念分离导致的模式演化在原始概念的外延上并未产生变化,但在内涵上却有不同。这种演化仍然属于概念特化范畴,因为当用相关概念中的相关属性替换原有属性时,相关概念中的相关属性相对于原有属性已经进行了逻辑组合上的限定。例如,对于
4.2 概念泛化
概念的泛化是对含义相近、特征相似概念的特性进行归纳形成超类概念,也是源于对事物特征自底向上的认知过程。从概念外延角度,概念的泛化是对其指称范围的扩充,表现为特化概念的外延对象集是原概念外延对象集的超集。从概念内涵的角度对概念模式进行化时,则会在属性出现约束集中反映相应的指称范围扩展。常见的概念特化形式包括以下方面。
(1) 概念并集
概念并集是传统概念模式进行泛化的一个常用手段。通过引入“并”(Union)操作,将多个概念合并为一个“并”概念作为现有概念的超类概念。例如,图1(g)中,
然而,“并”概念是对一组已知概念的操作结果,一经形成后无法成为其他概念的超类概念。这种缺乏灵活性的操作难以满足实际应用中引入独立的超类概念的需求。超类概念一经形成,应能够独立应用于其他概念的生成和描述。“并”概念通常缺乏对概念内涵的合适描述手段,没有从概念属性的共同特征角度对超类概念的内涵进行归纳,这使得其模式描述的表达能力严重受限。
(2) 基于属性子集生成超类概念
从概念内涵角度,泛化主要体现为对相似概念属性集中共有属性子集的归纳。由各原始概念属性的公共子集归纳形成的超类概念,其属性出现约束应与原始概念中相应的属性出现保持一致。形式上看,对于两个概念模式
对于原始概念进行归纳形成超类概念时,超类概念可以按专用的超类概念模式进行声明,并在声明时指定超类概念和原始概念之间的特化关系,其中特化关系主要关注于超类概念属性和原始概念属性之间的对应或映射关系。这种生成超类概念的方法在一些对象数据建模理论研究中被采用。然而,现有关系模式、XML模式以及大部分对象概念模式的定义规范通常仅允许在概念被声明时确定其为某个概念的特化概念,概念建立后不能再为其指定其他超类,这使得超类概念难以在模式中合理声明。
对于概念泛化的一般情况,超类概念被声明后应能够动态指定其与子类概念之间的特化关系。然而目前的概念模式描述方法难以满足这个要求,即使少数关注概念泛化的对象概念模式研究也仅允许超类在声明时确定已知子类,而无法建立动态特化/泛化关系。究其原因在于,模式(或类型系统)管理机制要求模式(数据类型)一经声明就不应再有变化,因而概念泛化/特化关系也需要在超类建立时指定。因此,基于属性子集归纳生成的超类概念,即便能从概念内涵角度描述泛化关系的细节特征,但仍然缺乏足够的灵活性以独立用于与其他概念的特化/泛化关系描述。
5 一种易演化的模式元数据描述模型
5.1 正规概念模式结构
上述概念模式演化的方式需要有合适的模式元数据描述机制进行支撑。以关系模式为代表的常见数据模式,利用聚集结构算子建立基本的概念属性结构,但缺乏合适的演化手段。以对象模式为代表的数据模式基于框架语义描述机制,引入特化机制,能够完成基本的模式演化,但是其模式结构仍然仅采用了聚集结构算子。
对于易演化的信息系统应用而言,概念模式的描述需求更加复杂,需要有更加灵活的逻辑结构加以支撑。为获得更强的表达能力,以XML模式为代表的新一代模式描述方法,采用了更加灵活多样的复合结构形式,在表现概念内涵属性聚集的基础上,通过基于正规表达式的模式结构对属性间的依赖约束情况进行刻画。但是XML模式也存在描述过于复杂、演化方式单一等问题:一方面,XML模式强调元素间顺序关系,这种顺序对于数据元素组织结构解析有实际意义,但在概念描述中通常并非重点;另一方面,XML模式主要通过继承方式进行模式特化扩展,但难以满足更复杂的模式演化需求。
本文根据上述概念结构描述机制,参考XML模式描述方法,设计新的模式结构及其演化机制。为增强模式结构的表达能力,引入新的模式结构选择算子。
定义8 选择算子
选择算子“cho”是一个二元属性结构算子,定义为:对于
引入选择算子后,概念能够根据已有的属性情况在另外多个属性中选定相关属性。例如,对于“教学”概念,可以选定“考核”或“考试”两种考察方式的其中一种作为其属性。将
具有聚集算子和选择算子的模式结构,能够表达更加灵活的概念属性出现约束。例如,采用聚集和选择算子的属性结构表达式“(教师,学生,(教学内容|null))”可以描述例1中的属性出现约束。通常将属性结构表达式
将K重算子和选择算子进行组合可形成如下定义的范围算子,能够对概念中的同名属性个数做更灵活的限制。
定义9 范围算子
范围算子“
将
上述给出的各个算子刻画不同的属性结构特征,将其集成在一起能使属性结构具有灵活强大的表达能力。
定义10 正规概念
由聚集算子、选择算子、
例如,一个相对完整的教学概念可以定义为如下的正规概念:
此定义表明,教学概念的属性中,教师为单一出现的必须属性,学生为出现数目不定的必须属性,教学内容为单一出现的可选属性。
本文主要讨论正规概念模式结构的描述方法。为简便起见,将正规概念的集合以
正规概念模式结构与XML文档的常见模式结构如DTD等有一定类似,能满足常见的概念结构表现的需求。但与XML文档模式相比,本文的正规概念模式不强调概念属性的出现顺序,内部结构相对灵活。同时,基于上述演化种类可以形成更加丰富的演化机制。
5.2 基于正规概念的模式演化
正规概念模式的各个属性结构算子为属性出现约束集的描述提供了一个简洁、灵活的表示机制。基于此机制,可以在属性结构算子支持下,通过引入相应的结构演化机制以刻画上述典型的模式演化途径。
(1) 概念属性扩展
对于正规概念而言,概念属性扩展可表示为在既有概念模式中引入新属性元素,即通过结构算子在原概念中的各个概念属性出现包集中增加指定的属性元素。显然,属性扩展可通过聚集算子完成此类演化。
例2 对一般的
更一般地,可以将基于正规概念的概念属性扩展演化抽象描述为一个映射。
定义11 正规概念属性扩展
一个正规概念属性扩展是一个映射
由定义可知,正规概念进行属性扩展方式的特化时,只需指定待扩展的属性结构表达式即可。
(2) 概念属性限定
概念属性的限定通过对属性取值范围或属性出现约束的限定完成,而本文仅讨论对属性出现约束集合进行限定的情况。正规概念通过引入选择算子,能使属性出现约束集合存在多个非空元素。在属性出现约束集中的不同元素内,属性有不同的出现方式,因此可以从模式结构角度对这些不同的属性出现进行限定,从而实现对概念属性出现约束集合的限定。
① 指定关键属性存在
约束集合的不同元素内可能存在不同的属性。例如,
② 指定包集中同名属性出现次数范围
约束集合中不同元素可能对某个共有属性出现的次数有不同的限定。在正规概念中,通过范围算子描述元素包集内属性出现次数的取值范围。对此范围进一步限定,能够缩小属性出现约束。例如,
由于指定关键属性存在形式上表现为该属性出现且出现次数不受进一步限制,所以上述两种方式可以统一描述为对属性出现约束中指定属性的出现次数,进而可以形成对属性约束限定的一致描述。
定义12 正规概念属性限定
一个正规概念属性限定是一个映射
①
②对
由定义可知,通过属性限定得到的概念,其属性出现约束集并未直接用正规概念的各个算子进行结构化表示,但可以通过对正规概念定义进行简单扩展以纳入此类概念。本文将此类概念也作为正规概念的一种特例,不专门加以区分。
(3) 相关概念分离
从概念中分离出由部分相关属性组合而成的相关概念,将使原始概念形成特化,这种特化通过一组映射描述。
定义13 相关概念特化
一个相关概念特化是一个部分映射
①
②对
由上述定义可知,相关概念分离后,原概念被特化为新的概念,此时原概念中的相关属性名由相关概念对应属性名代替。例2中,
(4) 概念泛化
正规概念泛化可以分为并集泛化和一般泛化两种情况,分别采用不同方式描述。
多个正规概念的并集概念可以利用选择算子方便地表示。对于一组正规概念
正规概念的一般泛化是根据已有概念的属性特征进行归纳,形成泛化概念的属性结构。概念间的一般泛化关系定义了从下位概念到上位概念的一个泛化映射,这个映射的主要内容是确定上下位概念属性之间的对应关系,其定义如下。
定义14 泛化映射
一个泛化映射是一个概念间部分映射
在上述定义中,对
5.3 与相关描述机制比较
当前数据模式描述机制主要分为关系模式、对象模式、XML模式几种,其中关系模式和XML数据模式已经得到广泛应用。本文所提基于正规概念模式的元数据描述机制与当前机制在概念语义特征描述能力各方面的比较情况如表1所示。
表1 模式元数据描述机制的对比情况
Table 1
语义特征描述 概念模式 | 关系模式 | 对象模式 | XML模式 | 正规概念模式 |
---|---|---|---|---|
概念属性出现描述 | 聚集 | 聚集、多重 | 聚集、选择、多重 | 聚集、选择、多重 |
概念属性扩展 | 不支持 | 支持 | 支持 | 支持 |
概念属性结构限定 | 无 | 无 | 限定属性出现、属性个数 | 限定属性出现、属性个数 |
相关概念分离 | 不支持 | 不支持 | 不支持 | 支持 |
一般概念泛化 | 不支持 | 不支持 | 不支持 | 支持 |
由表1可知,正规概念模式描述方法在表现常见的模式演化方面相对于当前流行的数据模式更有优势。
概念逻辑结构的规范描述也属于本体研究的范畴,正规概念模式描述可以看作是一种面向数据处理的轻量级本体描述方法,与以OWL语言为代表的传统本体描述方法也有较大区别。OWL语言等传统方法依托描述逻辑,具有很强的表达能力,可对概念的逻辑组成进行规范刻画和推理。然而,传统本体描述方法的研究与应用偏重于知识表示推理,但对数据模式管理中重点关注的模式结构和演化问题关注较少,同时其对元数据的表示以及对实例数据处理的影响也较少处理。例如,OWL本体的编辑和处理常常依托于专门的应用(如Protégé),但在元数据管理方面的功能相对欠缺。其实例数据以RDF三元组数据为载体形式进行存储和管理,但是基于概念模式的语义信息处理操作需要经过相对复杂的转换机制才能实现,用于RDF数据处理的查询语言SPARQL难以直接用于模式元数据管理。
5.4 正规概念模式的元数据描述模型
为在实际应用中使用正规概念模式进行数据建模和管理,需要根据模式的结构特点和演化方式,设计模式元数据的描述方法,以此作为后续模式元数据管理工作的基础。根据上述正规概念模式描述及其演化机制,提出一种基于图结构的易演化模式元数据(Evolutionary Normal Metadata, ENM)描述模型。ENM模型采用属性图数据模型描述正规模式元数据及其演化机制,并以当前主流图数据库作为预期的模式元数据载体。ENM模型的主要内容是ENM图,定义如下。
定义15 ENM图
一个ENM图是一个元组
①
②
概念节点之间的关系分为属性、并集、集合、特化、概念分离和泛化6类。
概念节点间的属性关系边表示目标节点概念是源节点概念的对应属性。属性关系边描述相关属性与源概念属性的对应关系。
概念节点间的集合关系边表示多个目标节点概念本身作为源节点概念中的属性。集合关系边的属性描述多个目标节点概念是源节点概念属性的集合。
概念节点间的特化关系边表示目标节点概念是源节点概念的特化。特化关系边描述目标节点概念与源概念属性的特化关系,用于建立相关概念特化映射的对应关系描述。
概念节点间的概念分离关系边表示,从源节点概念中分离出由部分相关属性组合而成的相关概念,将使原始概念形成特化,概念分离关系边描述相关属性组合形成新的相关概念与源节点概念的对应关系。
概念节点间的并集关系边表示节点概念之间取并集,形成新的节点概念。并集关系边描述新节点概念与原节点概念之间的并集关系,用于建立相关概念泛化映射的生成新概念的关系描述。
概念节点间的泛化关系边表示目标节点概念是源节点概念的泛化。泛化关系边描述目标节点概念与源概念的对应关系,用于建立相关概念泛化映射的泛化对应关系描述。
如图2所示,图的节点表示概念,边表示概念之间的演化模式,边上的信息描述了演化的种类和演化的具体信息,即对属性进行了何种操作。图2描述了教学、阶段教学、课程教学、课程教师、教师、课堂教学等概念,以及属性、并集、集合、特化、概念分离、泛化6个关系。例如教学包括教师、学生、以及可选的内容等属性,在课程教学中,可以包含多个学生,即学生的集合;教学这一概念和科研概念,通过并集关系可以建立新的概念教学科研;课程教学的两个属性教师以及内容,通过概念分离则可以生成新的概念课程教师,在这种情况下,课程教学的属性即为,学生的集合、课程教师.内容、课程教师.教师;教学通过属性扩展,即在教学中添加属性教学时间,可以特化到阶段教学;教授的概念则可以一般泛化至教师。
图2
基于ENM图建立模式元数据的描述模型,具有多方面的优点。
(1)作为正规模式的图结构表示形式,ENM图能够准确描述正规模式结构及模式间演化关系;
(2)模式演化操作在ENM图中可以较容易地通过节点和边上的操作实现;
(3)基于正规模式的实例数据也可以通过结构类似的图数据模型进行表示和处理,并且作为数据模式的ENM图与数据实例图之间可以直接建立映射关系,使得数据实例的模式检查、映射、转换等工作更加便捷。
此外,与以RDF图表现的OWL本体相比,ENM图对数据模式的表示更加简便易操作。
6 结 语
为适应各类信息系统应用中数据模式频繁演化的需要,本文提出一种易演化的模式元数据描述机制。该机制基于对概念模式基本结构和演化方式的探讨与相关定义,采用一种新的正规概念模式结构,引入相应的演化描述方法,并在此基础上建立基于图结构的元数据描述模型。
模式元数据描述是构建应用领域复杂知识系统的核心问题之一,也是建立面向领域应用的元数据管理系统的基础。本文所提模式元数据描述机制仅是在该方向的初步尝试,未来将针对正规概念模式的结构表达式的理论性质做更深入的探讨,用以对元数据描述的逻辑结构进行优化。目前,笔者正在基于ENM模型,基于图数据库Neo4j建立元数据管理系统的原型,并以Neo4j的Cypher语言为基础设计正规概念模式描述的领域专用语言及其映射到Cypher的实现机制,准备将其应用于实际领域的信息系统构建中。同时,还将基于本文所提演化描述方法和相关映射研究正规概念模式间映射的表示和高效处理方法,并将其用于处理领域大规模语义数据的交换和查询等实际工作中。
致谢:
感谢图书情报国家级实验教学示范中心(武汉大学)对本研究的资助。
作者贡献声明
李旭晖:提出研究思路,定义理论框架,论文起草及最终版本修订;
于滔:资料收集,文献内容分析,起草、修改论文;
李婷:资料收集,起草论文;
李逸文:协助完成相关定义与性质的提出和证明;
顾进广:协助完善元数据图结构模型的相关工作。
利益冲突声明
所有作者声明不存在利益冲突关系。
参考文献
A Relational Model of Data for Large Shared Data Banks
[J].
A Brief History of Oracle[A].Oracle Insights: Tales of the Oak Table
[M].
A Generalized Relational Schema for an Integrated Clinical Patient Database
[C]//
Relational Database Schema Design for Uncertain Data
[J].
Extensible Markup Language (XML) 1.0
[EB/OL]. [
XML Schema Part 1: Structures
[EB/OL]. [
Schema for Object-Oriented XML 2.0
[EB/OL]. [
Schema Virtualization in Object-Oriented Databases
[C]//
Design Graph Multi-Dimensional Data Model of a Data Warehouse and Conversion of Its Equivalent Object-Oriented Schema
[C]//
XML Data Exchange: Consistency and Query Answering
[J].
XML Schema Mappings
[C]//
A New Mapping Approach Between XML Schemas in a P2P Environment
[C]//
Foundations of JSON Schema
[C]//
JSON: Data Model, Query Languages and Schema Specification
[C]//
DB2/XML: Designing for Evolution
[C]//
Schema Evolution for XML: A Consistency-Preserving Approach
[C]//
Axiomatization of Dynamic Schema Evolution in Object Bases
[C]//
Schema Evolution in Database Systems: An Annotated Bibliography
[J].
A Equivalent Object-Oriented Schema Evolution Approach Using the Path-Independence Language
[C]//
Temporal and Versioning Model for Schema Evolution in Object-Oriented Databases
[J].
Schema Evolution in OODBs Using Class Versioning
[J].
IDE-integrated Support for Schema Evolution in Object-Oriented Applications
[C]//
面向时空特性的地理信息元数据组织方法
[J].
Method of Organizing Spatial-temporal Geographic Metadata
[J].
The Stanford Digital Library Metadata Architecture
[J].
澳大利亚开放政府数据的元数据标准——对Data.gov.au的调研与启示
[J].
Open Government Data Standards of Metadata in Australia: Investigation into & Englightenment from Data.gov.au
[J].
英国政府数据开放共享的元数据标准——对Data.gov.uk的调研与启示
[J].
DuanPeipei. Metadata Standards of Open Government Data in U.K:The Investigation & Enlightenment of Data.gov.uk
[J].
Metadata Principles and Practicalities
[J].
元数据开发应用的标准化框架
[J].
The Standardization Framework of Metadata
[J].
/
〈 |
|
〉 |
