【目的】总结时空数据建模方法, 以期为时空知识的组织和管理研究提供理论基础。【文献范围】在百度学术、谷歌学术、EI、CNKI中分别以检索式“时空数据模型”、“spatio-temporal data model”在限定时间范围、期刊类型内进行文献检索, 获得部分相关文献, 根据研究主题相关程度筛选最终获得64篇相关文献。【方法】根据建模对象的抽象层次对时空数据模型进行分类, 分别从物理层、逻辑层和应用层三个层次对时空数据模型的相关研究进行综述。【结果】近年来物理层对时空数据模型的研究主要侧重于对以往模型的修正, 应用层的时空数据模型集中于满足各领域具体需求, 而逻辑层的研究在表达能力方面有待改进。【局限】不同层次的时空数据模型横向对比研究较少。【结论】未来大规模的时空信息管理和利用, 将为时空数据建模的深入发展提供广阔的空间。
[Objective] This paper aims to summarize spatio-temporal data modeling methods to provide a theoretical basis for the study of the organization and management of space-time knowledge. [Coverage] Literature search was conducted using the “spatial-temporal data model” and “spatio-temporal data model”, respectively, within a limited time frame and journal type, in Baidu Academic, Google Scholar, CNKI, and Engineering Village. Some relevant documents were obtained and screened according to the degree of relevance of the research topic. Finally we chose 64 related documents to review. [Methods] The spatio-temporal data model is classified according to the level of abstraction of the modeled objects, and the related researches on the spatio-temporal data model are summarized from three levels of the physical layer, logic layer and application layer. [Results] In recent years, the studies of the spatio-temporal data model in the physical layer mainly focused on the revision of the previous model. The spatio-temporal data models of the application layer focused on satisfying the specific needs of various fields. However, the researches on the logic layer need to be improved in terms of expression ability. [Limitations] There are few horizontal comparison studies of spatial-temporal data models at different levels. [Conclusions] Large-scale space-time information management and utilization will provide broad space for development of space-time data modeling in the future.
随着信息技术的迅猛发展和大数据时代的到来, 以交通、金融、医疗等为代表的多个领域产生大量数据, 这些数据中蕴含着丰富的时空知识信息, 需要有效的管理和利用。时空知识的组织与管理一直是知识管理的重要研究方向。从广义空间来看, 信息机构、信息系统、网站、企业甚至个人都是空间中的知识储藏点[1], 而现实中的多种领域知识往往具有时间特征, 对时空知识进行有效管理, 需要有合适的时空知识表示模型描述其结构和计算特征, 因此时空数据建模方法被信息管理、计算机科学技术、遥感技术等相关领域广泛关注。
国内外学者关于时空数据建模的研究可以追溯到20世纪70年代。早期研究把时间问题引入空间和属性信息变化中, 提出关于时空数据模型的基本概念和理论, 如Hagerstrand[2]最早提出时空立方体模型。20世纪80年代, 学者主要对时态技术和数据库技术的融合与集成展开研究, 集中于对时态数据库及其查询语言的探讨和研究[3], 时空数据模型主要包括序列快照模型[4]、基态修正模型[5]和时空复合模型[5]等。20世纪90年代, 研究重点逐渐转向时空的复杂结构、逻辑特征和修正已有模型等方面, 如面向对象的时空数据模型[6]、基于事件的时空数据模型[7]、基于特征的时空数据模型[8]、基于过程的时空数据模型[9]以及对相关时空模型的改进[10,11]。近年来时空数据建模研究进一步向方法技术和领域应用等多个方面发展, 在建模理论与技术方面, 研究者们从时空结构[12]、时空尺度[13]、时空信息意义[14]以及时空模型的存储和索引机制[15]等多个方面进行深入探讨。在应用方面, 时空数据建模已经应用于解决土地[16]、交通[17]等领域的具体问题, 并被进一步应用于商业领域的相关数据建模与分析[18]。
近十余年来, 时空数据建模方面的研究仍然保持着迅猛的发展态势。笔者对传统与近期的时空数据建模相关文献进行搜集与分析, 将建模研究工作根据研究重点分为物理层、逻辑层和应用层三个层次。时空数据建模包含物理时空数据管理、时空逻辑概念及关联和应用领域时空对象。其中, 物理时空数据管理(简称物理层)关注物理世界时空数据(如GIS系统)的组织管理; 时空逻辑概念及关联(简称逻辑层)关注基于时空信息的事件规则、分析预测和逻辑因果推理; 应用领域时空对象(简称应用层)则偏重于对面向应用领域的时空对象进行概念建模。本文按照以上三个层次对时空建模相关工作进行梳理, 介绍主要研究思路与特点。
笔者首先按照表1进行文献检索, 文献时间范围为1985年1月1日-2018年1月1日, 经过整理、去重、剔除无效文献等操作, 获得130篇英文文献以及111篇中文文献。将国际相关重点期刊(如DMKD、GeoInformatica、KIS、TOIS、VLDBJ等)作为出版物限制条件, 以检索式“spatio-temporal data model”在百度学术中检索2010年1月1日-2018年1月1日范围内的文献, 过滤掉重复文献后, 获得70篇英文文献。由此共获得311篇文献。
在文献筛选过程中, 物理层和逻辑层的时空数据模型按照模型进行归类整理, 应用层时空数据模型则按照应用领域相似性进行整理, 此外还包括对综述文献的整理。根据整理内容与研究主题的相关性进行筛选, 最终获得64篇相关文献, 其中英文文献32篇, 中文文献32篇。
时空数据建模作为一个具有重要理论与应用价值的研究问题, 已经有一些综述性文献对其方法进行梳理。
时空数据库可以有效管理历史信息, 尤其是随时间变化的信息。Abraham等[19]从改进模型或方法的角度进行讨论, 时空数据库旨在支持扩展空间信息系统(Spatial Information System, SIS)模型, 通过包含时间更好地描述动态环境, 以往研究受到在时空数据库中引入时间的影响, 缺乏对数据库系统时空性的综合概述。翟亮等[20]对时间-空间立方体模型、序列快照模型、基态修正模型、时空复合模型、基于事件的时空模型、面向对象的时空模型和图谱模型等进行论述和比较, 讨论时空数据库的相关问题, 指出时空数据库相较于传统空间数据库的优势, 为研究新的时空模型和方法提供借鉴。
学者们从多个角度研究时空数据模型的分类、存储、查询等问题。Langran[21]从计算机模型的角度入手, 总结已有时空立方体模型、快照模型、基态修正模型以及时空复合模型, 并针对信息处理中的时间性研究探讨时间关系数据库的设计。Pelekis等[22]全面回顾十几种时空数据模型, 从时间语义、空间语义、时空语义、查询功能等方面对这些时空数据模型进行对比研究, 突出模型的具体空间、时间和时空语义, 并探讨其相应的查询能力, 通过案例研究和比较框架, 对各种方法进行批判性评估。作者研究了大部分时空数据库模型, 参考现实世界的概念, 对地理现象和过程进行建模, 并确定时空研究群体的基本问题。佘江峰等[23]将时空数据模型分为4类: 着重于描述时空状态序列的过程模型(面向过程的数据建模), 着重于描述某个时间点上形成的时空因果联系的时间点模型(面向时间点的数据建模), 全面描述时空关系的面向对象模型(面向对象的数据建模)以及满足特定时空推理方法要求的专用数据模型(面向时空推理的建模), 基于此介绍时空数据模型的研究进展和现状, 同时对主要时空数据模型的优缺点进行评述。研究发现, 时空对象的特征变化过程、空间关系以及时序关系的表达在时空数据模型研究中的讨论比较广泛且深入, 但是时空中的相互作用过程、存在于其中的时空因果联系以及针对时空不确定性的表达研究仍显不足。李阳东等[24]分别从数据冗余度、查询能力、获取状态/变化、依赖空间维、处理属性变化、支持离散/连续变化、空间表达方式等角度对时空数据模型的优缺点和侧重点进行对比分析, 发现这些模型在这些方面各有优劣。李玉兰[25]通过梳理时空数据模型的研究历史, 分析各种时空数据模型的特点和不足, 说明当前时空数据模型的研究现状和进展情况, 将其特点总结为提出的模型多、实现的原型少; 理论研究多、应用研究少; 学术门派多、应用开发商少; 面向矢量数据格式的模型多、面向栅格数据格式的模型少等, 认为栅格数据在地理信息系统中的空间分析中比矢量数据更具优越性, 因此必须建立实用的基于栅格数据的时空数据模型。吴正升等[26]重点讨论时空数据模型的一些最新研究成果, 针对研究中存在的诸多问题, 建议时空数据模型的研究主要应该从语义、通用及实用三个角度出发。
综上, 尽管比较分析时空数据模型时, 采用的分类方法不尽相同, 但普遍关注时空数据模型的实现机制, 尤其是从时空数据管理角度出发, 对各个模型在时空数据结构、存储与更新机制以及时空推理等方面进行分类, 并对比模型在某个方面的优缺点以及修正改进情况, 结合实例分析模型的适用性。
笔者通过搜集整理时空数据建模的研究成果, 发现该方向的研究近年来一直处于比较活跃的状态, 自2010年以来, 关于时空建模的文献总体呈现上升趋势, 略有波动, 2015年相关文献数量达到37篇, 2016年则达到45篇。随着越来越多的领域数据被纳入信息管理范畴, 时空数据建模不再仅仅关注以GIS系统为代表的时空数据库, 更多的研究开始从领域需求出发讨论领域时空信息的建模方法, 进而探讨时空知识的组织与管理方法。与单纯的时空数据建模相比, 从领域时空数据处理需求角度开展的研究更加关注领域时空对象的数据结构特征和逻辑关联特征, 有必要从新的角度去考查和梳理近年时空数据建模研究的脉络。为此, 本文从物理数据结构、时空逻辑关联和领域对象需求三个层面对时空数据建模研究进行分类, 旨在整体梳理时空数据模型的相关研究, 以辅助未来时空知识组织和管理工作的深入开展。
本文对当前有代表性的时空数据建模研究进行分类综述, 分类依据是建模对象的抽象层次。虽然时空数据模型都是以具有时空特征的实体作为建模对象, 但不同模型具体的建模目标和应用场景不尽相同。笔者通过对当前主流时空建模研究成果进行分析, 认为时空数据模型研究根据其重点关注的问题与研究目标基本可以分为物理层、逻辑层和应用层三个层次。
物理层的时空数据建模研究主要关注目标对象在现实世界中的绝对时空坐标和运动轨迹, 其模型主要用于构建GIS的时空数据库。逻辑层的时空建模研究主要关注对象的时空逻辑概念及相对的时空关系, 其模型通常用于时空信息的语义结构描述和知识表示。应用层的时空数据建模则重点关注具体应用领域中具有时空特征的领域对象, 其模型主要用于描述领域对象附带的相关时空信息,并在必要的时候对领域对象的时空关系进行推理。
物理时空数据模型通常针对基于位置的信息系统的应用需求, 关注现实世界时空坐标系中实体的位置信息及其变化轨迹的建模和管理。此类研究面向实体的位置数据频繁更新的实际需要, 探讨物理时空数据的高效存储机制。物理时空数据建模的研究内容主要是设计物理时空信息在数据库中存储时的基本逻辑结构和更新机制。研究思路主要体现为两个方面: 根据时空数据存储、查询需求设计合适的物理数据结构; 针对既有同类模型的不足进行扩展。
物理时空数据模型的各项研究在信息组织的结构与粒度上各有侧重。经典的序列快照模型、基态修正模型等以及后续的改进研究(如快照-增量模型等), 主要研究底层原始时空数据的存储结构及更新机制; 而面向对象的时空数据模型、基于图的时空数据模型等研究则分别从时空数据的语义聚集和拓扑结构等方面探讨粗粒度时空数据单元的存储及表现方法。
(1) 典型物理时空数据模型
序列快照模型最早由Armstrong[4]提出, 是指将一系列时间片段快照保存起来, 反映整个空间特征的状态, 根据需要对指定时间片段的现实片段进行播放, 如图1所示。Pelekis等[22]认为快照模型是最简单的时空数据模型, 时间信息将时间戳层结合到空间数据模型中, 时间被认为是位置的一个属性, 该模型能够回答简单的空间、时间和时空查询。
时空复合模型存储某个时间的基态和该次变化的基态, 虽然存储量小, 但变化增多会导致碎片加大, 如图3所示。
时空复合模型的特点在于将空间分隔成具有相同时空过程的最大公共时空单元, 每次时空对象的变化都将在整个空间内产生一个新的对象。该对象把在整个空间内的变化部分作为其空间属性, 变化部分的历史作为其时态属性。时空单元中的时空过程可用关系表来表达, 若时空单元分裂, 用新增的元组反映新增的空间单元。时空过程每变化一次, 关系表中新增一列时间段, 从而达到用静态的属性表来表达动态的时空变化过程的目的[29]。
面向对象方法在数据管理中的应用促使研究者们尝试将该方法与时空数据模型相结合来表示粒度更粗、语义更加丰富的时空变化。Worboys[6]关注面向对象在时空数据建模中的应用, 面向对象技术以更自然的方式将复杂的时空信息模型化, 是支持时空复杂对象建模的有效手段, 其基本优点是打破关系模型范式的限制, 直接支持对象的嵌套和变长记录[30]。
基于图的时空数据模型记录空间信息的位置状态和变迁, 把位置状态和变迁作为描述时空变化的同样重要的两个方面, 显式地表达时空数据及时空拓扑关系, 提供丰富的语义。其中, 图的节点所表示的时空对象由空间对象和时间对象复合而成, 图的边所表示的时空关系由空间关系和时间关系复合而成[31]。另外通过将Petri网转换为马尔科夫链, 可进行定量时空分析[32]。
(2) 物理时空数据建模的发展
随着时空变化的表示方式越来越多样化, 传统表示方法渐渐显露出不足, 基于此, 学者们进行一系列扩展研究, 意在改善时空数据模型, 使其更好地用于时空变化和知识表示。
在序列快照模型中, 快照会将未发生变化的时间片段的所有特征重复进行存储, 产生大量数据冗余。当应用模型变化频繁且数据量较大时, 系统效率会急剧下降[29]。Pelekis等[22]认为该模型支持复杂查询的能力有限, 很难解决所有类型的查询。鉴于模型产生数据冗余的不足, Langran[33]提出基于时态栅格模型, 如图4所示。阵列格网的每个位置以变长列表的形式表示空间随时间变化累积的空间变化量, 该模型只存储特定位置上的变化, 可避免数据冗余, 适合栅格数据时空分析[32]。
基态修正模型在时态查询时要进行空间逻辑运算, 当变化关系较多时, 空间拓扑关系不易维护, 围绕如何改进该模型性能、提高查询效率的问题, 国内外学者进行了一系列研究。Langran[10]最早记录一个数据基态和相对于基态的变化值, 当检索久远的历史状态时, 几乎要对整个历史状态进行查询, 查询会变得缓慢。张祖勋等[11]认为该方法效率不足, 不能很好地满足要求, 提出使用分级索引方法加以改进。曹志月等[30]认为文献[11]只是一定程度地解决了查询效率不足的问题, 当历史状态很久远时, 该问题仍然存在, 因此提出动态多级索引方法, 在整个历史状况中动态地设立多个基态, 基态间的差文件数称为基态距, 可根据具体应用由用户或系统确定基态距阈值, 当不断加入新的变化状况、基态间差文件距大于某阈值时, 要自动创建新的基态; 当用户对某时间段的检索较频繁时, 特别对于连续变化的时空过程, 差文件的恢复中大量连续变化属性的推导过程会占去较大时间开销, 动态创建差文件和基态的方法可以缓解这一问题。张保钢等[27]认为文献[30]虽然降低了检索的时间开销, 但是增加了基态的占用时间, 提出多基态多级差文件修正方法, 该方法的多基态数据分别是当时空间数据的快照, 按时间顺序存储, 其数据结构采用基于时间面向对象的方法, 即用“对象标识+对象空间信息+对象属性信息+对象保持此空间属性的时间”表示对象在某时刻的状态, 此状态与该对象上一或下一状态的关系用双向指针表示, 该方法节省存储空间, 历史数据恢复速度快且不受历史久远影响。
此外, 其他学者也通过引入新理论或新思想对基态修正模型进行改进和修正。余志文等[34]引入超图模型的部分理论, 建立基于基态修正的面向对象时空数据模型, 很好地解决了时空对象的空间关系和时空对象之间的关系, 提出时空对象的索引结构, 引入基态距因子和等比系数, 大大提高了查询效率, 缩短查询时间, 通过控制迭代次数, 有效控制基态个数, 改进后的动态多级索引方式的基态修正存储法效率较高, 数据冗余也大大减小。李勇等[35]解决了由于事件时间分布不均匀而引起的基态距与时间相关性减弱的问题, 实现了基态的动态更新, 对历史数据的存储和检索效率进行优化。陆纳纳等[36]提出基于面向对象的基态修正改进模型, 在现有模型基础上, 以对象的空间和属性连续变化为切入点, 引入基态对象变化率作为判断基态距的影响因子, 详细设计基态的建立流程, 论述该模型的存储与组织方式, 并构建基于时间点和基于时间段的时空查询方法, 为解决时空数据模型数据冗余和查询效率之间的矛盾提供新思路。尹章才等[37]认为已有的时空索引是基于时间或空间索引的扩展, 将相应的空间或时间成分作为属性, 难以同时顾及时间查询和空间查询的效率, 提出基于快照-增量的时空数据索引机制, 如图5所示。这是对序列快照模型和基态修正模型的扩展, 将时间和空间作为同等重要的维, 提高时空数据模型的查询效率。由此可见, 学者们从未停止对基态修正模型的改进和扩展, 这对于地学领域物理时空数据管理的研究意义重大。同时, 不断修正的模型也越来越适用于时空特征知识组织方面的研究。
建立物理时空数据模型不仅应关注数据的存储, 更需要针对查询需求考虑数据组织问题, 重点包括时空语义表达、数据查询效率等。面向对象的时空数据模型建立以地理实体为中心的空间、时间和属性特征聚集, 在表达地理实体空间变化的同时, 还可以表达属性变化, 并且能显式表达时空拓扑关系, 提高时空语义数据的查询效率。同时, 面向对象时空数据模型与事件建模方法相结合, 能较好地组织和利用实体相关事件的时空信息, 对现实世界中的时空信息进行更加完整地描述和表达[38]。袁一泓等[39]基于面向对象的思想定义时空数据模型及其抽象数据结构, 并利用开源的对象关系数据库PostgreSQL实现其存储和访问, 提供一种通过扩展对象关系数据库支持时空数据存储和访问的有效途径, 可以充分利用对象关系数据库的优势, 直接支持时空查询, 存取效率较高, 操作方便快捷。可见面向对象的时空数据模型在时空变化表示和知识表示方面比传统时空数据模型更具优越性。
为提高数据查询效率, Wilcox等[12]提出一种基于图的方法描述时空关系与实体, 该模型由快照序列模型扩展而来, 用于研究空间上不连续变化、时间上连续变化的时空数据, 图的边描述实体对象的时空变化。尹章才等[40]将图与时空数据模型相结合, 利用图显式表达时空实体与时态关系, 形成时空图模型, 如图6所示。时空图模型描述多边形对象及其时空关系, 图的顶点表示在时间点上发生空间变化所形成的新多边形对象, 图的边连接空间上交叉、时间上相遇的顶点, 使用基于图论的时空数据模型便于对时空数据进行有效的查询与管理, 减少数据库访问次数。
迄今为止, 时空数据建模的研究主要应用于地理信息系统及位置服务, 因此大部分研究都围绕地理位置服务相关的物理层模型展开。这主要得益于以数字地图为代表的各种位置服务在移动互联网中的广泛应用。研究者主要面向构建地理信息系统的目标, 从现实世界时空数据的结构、存储、索引机制等方面进行探讨。时空数据库的主流建模方法与技术在1990年-2005年间发展比较迅速, 但近十年来的研究更偏重于对以往模型与实现技术的优化以及在各相关领域的推广应用。
逻辑层时空数据模型主要的研究内容是事物时空变化的逻辑描述, 根据其关注的重点可以进一步分为面向时空变化特征的研究和面向事物多尺度时空特征的研究两个方面。面向时空变化特征的研究主要探讨刻画时空变化的逻辑结构, 包含相对于时间的空间状态变化、将过程作为时空对象表示演化以及将现实世界抽象为特征表示时空变化等。面向事物多尺度时空特征的研究基于现实世界事物在时空上普遍存在的多尺度特性, 探讨不同尺度上的时空变化表示方法及其关联方法。时间尺度反映用户基于何种采样间隔考察对象的时态演变规律; 空间尺度反映用户在不同空间视点上考察对象的空间分布及变化规律。
(1) 面向时空变化特征的逻辑时空建模
面向时空变化特征的逻辑时空建模重点研究基于特定时空数据结构上反映时空变化的数据处理方式, 典型研究包括基于事件的时空数据模型、基于过程的时空数据模型、基于特征的时空数据模型等。
基于事件的时空数据模型(Event-based Spatial- Temporal Data Model, ESTDM)最早由Peuquet等[7]提出, 将某一空间区域的每次状态变化视为一个事件, 用一维时间轴上的事件序列表示时空过程, 如图7所示。ESTDM是基于栅格位置的描述, 不能描述客观实体对象及其变化、非时态的空间拓扑以及模型之外的地理特征等, 而且ESTDM时空数据查询效率低, 因此, 对其进行一系列改进。
对ESTDM的改进主要集中于在ESTDM中应用面向对象的思想, 或者对ESTDM进行扩展, 以改善查询效率低的缺点。基于事件的时空数据模型或面向事件的方法是基于栅格或者矢量的, 而模型无法同时处理演化的时空对象, Xia等[41]针对该问题, 提出基于事件的矢量栅格数据结构空时数据模型, 在ESTDM基础上集成矢量和栅格数据结构, 通过处理事件或状态对空间、时间和时空进行查询, 提高时空数据查询效率。林广发等[42]提出一种以事件为核心的面向对象时空数据模型, 采用面向对象的方法组织时空数据, 以面向对象数据库作为功能实现的平台, 定义事件之间的连锁关系, 以事件为核心建立数据完整性控制表, 确定了时态数据管理的最佳对象粒度及对象层次结构, 由于面向对象方法在实体建模中的灵活性, 该数据模型具有广泛的适用性。Zheng等[14]通过分析几种典型时空数据模型的特点和局限性, 提出基于事件的时空数据模型改进的扩展方法。该模型以当前地理状态为基础, 快速恢复过去任何时间的空间数据, 由于记录空间对象的变化和变化原因, 模型可以查询空间对象的历史数据(几何和主题), 并推理空间对象的变化, 将空间数据、专题数据和时间分开存储和管理, 有效减少存储空间和数据冗余, 提高查询效率。
随着研究的深入, 研究者发现基于事件序列或时空变化序列的时空过程建模方法, 一定程度上仍等同于事件序列建模, 事件之间没有建立关联关系, 给事件的历史回溯和动态反演带来不便[43]。于是, 学者们将过程作为时空对象表示演化, 以弥补现有基于事件的时空数据模型在历史动态反演中存在的不足。张丰等[43]提出一种基于过程的动态时空数据模型, 将过程作为时空对象, 设计和实现时空过程、时空对象特征和时空行为的动态数据组织和管理技术。该模型能够全面反映时空对象的演变过程以及这个过程中产生的各种因果关系。基于此构建的时空组织体系可以减少数据访问复杂度, 提高时空数据处理效率。薛存金等[44]认为面向过程的时空建模理论主要包括概念层次上的过程语义、逻辑层次上的过程对象表达与组织和物理层次上的过程对象-关系的扩展存储。基于过程语义的时空数据模型将过程对象作为完整的表达载体, 采用分级的思想对“过程→状态”进行提取, 然后回溯复原“状态→过程”, 从而给对象变化提供更丰富的时空语义和更完整的动态表达。此外, 基于过程的时空数据模型还可以使用面向对象的方法, 形成基于过程的面向对象时空数据模型, 该模型以面向对象方法为基础, 结合事件与过程之间的相互关系, 基于过程语义表达事件变化的内在联系, 从而体现出事件之间的时空拓扑关系并解决在时空变化中对空间对象的查询、历史回溯、分析等问题[45]。李景文等[45]认为其数据管理是将地理实体按照模型要求以空间对象的方式将空间几何信息和属性信息统一存储到Oracle Spatial的SDO_GEOMETRY字段中, 如图8所示。查询时只需在空间对象变化关系过程库中查询存在的对象即可。
时空变化还可以通过现实世界抽象而来的特征变化表示, 客观世界是具有高度相关结构的物质实体集合, 人类对客观世界的认识基于地理特征, 而不是基于分层要素, 数据模型应当能够直接反映这种认知过程[46]。基于特征的时空数据模型是一组相互关联的时间特征, 李小娟[8]使用基于特征的物理世界的识别和表达方法, 实现物理世界高度抽象和整体表达的需求, 认为与传统时空数据模型相比, 基于特征的时空数据模型的特点在于其建模对象模拟地理特征而非几何对象, 并且以特征实例为载体整合地理信息, 因而具有明确的地理意义。柯丽娜等[47]认为现实世界中的任何现象都可以用特征表达, 基于特征实例的变化特征, 以特征实例为基本信息组织单元进行建模, 完整地表达特征实例随时间变化的信息。
(2) 面向事物多尺度时空特征的逻辑时空建模
现实世界中的事物通常存在层次结构, 从时空角度对其层次结构进行观察可以得到不同时空尺度的事物特征, 通常称为多尺度(或多粒度)时空特征。与不考虑事物层次结构的时空数据模型相比, 事物多尺度时空特征的建模更加复杂: 多时间尺度的时空数据意味着对事物不同层次细节的采样时间点可能是不同步的, 不同空间尺度下时空对象空间特征的结构也往往由于表达不同空间分布规律的客观需要存在差异[13]。
早期多尺度时空特征的数据模型研究主要关注如何设计合理的时空数据的基本结构以反映多尺度特性。其代表性工作是Camossi等[48,49]和Bertino等[50]的研究工作, 讨论如何扩展对象数据模型的建模结构来表示和查询多粒度空间对象。作者通过描述粒度和多粒度值的面向对象形式化, 多粒度的类型、值以及转换的问题, 定义了一个面向对象的多粒度查询语言, 用来表示时空多粒度对象的演化等问题。随后一些研究者们纷纷根据各自对多尺度时空特征的理解提出相应模型。Song等[51]将时空数据在各种抽象层次上描述, 这个抽象层次即为信息粒度, 利用信息粒度表示时空数据, 有助于实现用户友好的数据分析方法, 用户可以更好地查看时空数据并以语义的方式描述数据。
研究者们还探讨了多尺度时空对象的演变过程, 对时空对象变化过程中的对象时空粒度进行深入分析。佘江峰等[13]指出对象进化的结果不仅是特征的变化, 还包括机制的变化, 其直接动力是对象行为, 根本原因是其内在机制中的时空事件起着对象间信息通道的作用。据此提出对象进化模型, 该模型可作为多尺度时空数据集成的结构性基础, 在反映时空现象的演变过程, 特别是异构演变过程, 以及在这个过程中产生的因果关系的同时, 还可以保留时空数据的不同时间尺度和空间尺度特点, 从而达到增加时空数据库信息量的目的。
随着时空数据库在相关领域的逐步应用, 更多研究开始关注以土地测量为代表的相关应用领域内的多尺度时空数据的表示与处理。Wang等[52]提出一种支持多粒度和不确定性时空对象的新时空粒度表示, 将此方法应用于土地时空数据库(Agrarian Spatio-Temporal Database, ASTD), 通过支持多个粒度和近似区域, ASTD可以一起处理多个级别的数据, 以不同精度执行查询并处理不确定性。与类似系统相比, ASTD在多粒度、不确定性、对象类型和粒度操作方面更加强大。袁磊等[53]以空间维度为切入点, 构建面向对象的土地利用多尺度时空数据模型。该模型能够较好地表达多尺度土地利用数据的时间、空间及语义属性信息, 清晰地反映多尺度土地利用要素对象之间的多层次关联关系。
此外, 研究者们还从实现角度对多尺度时空数据模型的性能进行优化, 旨在更好地表达时空语义信息, 优化存储机制。Lu[54]提出一个多尺度背景模型形式检测, 运动测量的跨尺度传播和软件更新方案使得该模型适用于动态背景, 并在一个基准数据集上评估多尺度背景模型, 实验表明在低对比度的动态场景其可以有效检测运动。
逻辑层的相关研究工作关注事物时空关联的抽象描述形式, 利用事件、过程、特征或Petri网等逻辑模型建立相对时空拓扑结构。此外, 多尺(粒)度时空数据的建模问题因其在地理信息系统和多媒体语义描述等相关方面的重要应用, 也是近年来时空逻辑建模的研究重点。总体而言, 时空逻辑模型相对物理数据模型而言更关注较抽象的事物时空特征, 但目前提出的模型在表达能力上尚有改进空间。例如, 逻辑层研究工作中设计的描述时空信息的逻辑结构的可扩展性问题并未得到足够重视, 对事物时空语义的理解常常是一个逐步深入演化的过程, 时空的多尺(粒)度特性就是这种演化的一个特例。对时空信息的逻辑特征进行建模不仅要考虑时空信息的表示, 更要考虑时空信息的扩展与更新。这方面的研究还有待深入开展。
近年, 传统的时空数据模型被大量改进和扩展, 以满足各个领域的需求, 于是形成应用广泛的应用型时空数据模型, 国内外众多学者对此进行大量研究。
应用于位置领域的时空数据模型在生活中非常实用, 校准系统、轨迹、导航等都是其适用的场景。Su等[55]提出一个基于锚的校准系统, 由一个参考系统和一个校准方法组成, 设计基于空间几何、时空几何、空间模型和时空模型的4种校准方法, 使用真实的轨迹数据集和一系列常用的轨迹相似性测量进行广泛的实验, 证明校准过程可以显著提高轨迹相似性度量的有效性; 此外, 轨迹的表示、变化也可以用来表示时空变化。Elnekave等[56]提出一种总结时空数据的新方法, 包括根据聚类有效性指数优于现有相似性度量来总结轨迹之间的新相似性度量。通过预处理时空数据流构建轨迹的紧凑表示, 定义一个新的基于数据量的相似性度量, 以便根据时间和空间的接近度发现相似轨迹, 这将允许发现具有类似时空行为的群体。
随着智能Web(即允许有意义的人-机和机-机合作)不断发展, 需要允许共享知识的共享和组织, 目前已有各种方法实现自动事件的提取和描述, 然而, 大多数方法并没有捕捉嵌入基于Web的多媒体数据中的语义含义[57]。因此, 研究者们希望通过多媒体时空数据模型对多媒体数据进行表示。Abebe等[57]提出通用多媒体表示空间模型, 定义为由时间、空间和语义三个复合维度组成的超空间, 描述每个多媒体对象, 该模型被设计用于多媒体数据和基于多媒体的事件表示, 以允许基于多媒体知识共享的事件检测和识别。宋英良[58]认为表现模型是多媒体数据模型的重要部分, 也是媒体数据库的关键技术之一, 提出以时间为基础的时空同步模型, 其最大特点是以对象理论为基础描述空间与时间的关系, 描述媒体对象的复杂运动, 从而大大提高媒体对象的的表现能力。Chen等[59]提出一种基于增益迁移网络(Augmented Transition Network, ATN)的抽象语义模型以及用于多媒体演示的正则表达式。ATN的输入由正则表达式建模, 正则表达式为媒体流和语义对象时空关系的标志性索引提供一种有效手段, ATN及其子网络用于表示媒体流和语义对象的出现顺序。此外, 嵌入式演示强调现有媒体流和演示结构的模块化及重用, 在此设计下, 存储密集型多媒体数据可以存储到大型共享数据库中, 大大降低设计复杂性。
时间和空间的知识表示以及时间和空间关系的推理是机器人视觉、可视化等领域的重要应用, 将时空数据模型应用于可视化或结合可视化研究时空数据模型意义重大。Andrienko等[60]将交互式视觉技术与来自机器学习和统计的计算方法相结合, 以此支持具有数值的空间参考时间序列(Time Series, TS)形式的大量时空数据分析和建模, 该框架包括一个建模方法库的交互式视觉接口, 支持选择合适的方法, 调整模型参数, 评估所得模型。从可视化分析角度来看, 该框架提出一种以明确的形式表示交互式可视化分析结果的方法, 不仅可以进行审查和交流, 还可以进一步分析和预测。从统计分析和建模角度来看, 提出支持模型构建和评估的视觉、交互和计算技术的组合, 从时空分析角度, 提出一种通过将整体建模任务分解为时空建模子任务实现时空建模的方法。Lee等[61]讨论了时空信息可视化作为一种描述和表示历史遗迹的方式, 为弥补ESTDM的不足, 提出改进的基于平滑时序事件的时空数据模型(Smooth-Timing Event-based Spatial-Temporal Data Model, ST-ESTDM), 可以动态和平滑地表示时空数据, 提供每个历史遗迹当前状态和过去的记录, 表示时空变化, 使管理者更加有效地确定维护计划。
研究历史文化的演变过程也是时空建模和表示的重要应用。Dai[62]提取典型的北京城市历史事件, 建立基于历史事件的多维星状快照数据模型(Multi-Dimension Star Snapshot Data Model, MDSSDM), 展现空间特征及北京城市形态和城市空间结构的历史特征, 提供一种简单的方法分析影响北京空间数据的因素和推进机制, 并根据典型的历史事件, 挖掘时空变化, 识别北京城市发展的趋势和轨迹。Scholz等[63]阐述表示语言/方言数据的时空关联数据模型, 提出一种时空关联数据方法建模和发布语言学和方言数据, 关注利用现有数据并使用虚拟的RDF图发布这些数据, 使用DBPedia和geonames.org等外部数据源指定方言记录的查询, 将时空维度纳入本体, 使得每个来源(证据)都有相关的位置和时间有效性, 为使用方言数据进行时空分析提供可能性, 并将这些数据与在关联数据云中发布的其他数据集相关联。
在交通问题中, 需要存储大量的交通视频, 对这些视频的存储和查询也是时空建模和表示的应用场景。Yue等[17]提出一个交通时空系统, 对从视频中提取的车辆轨迹数据进行插值, 将其与空间道路信息结合以存储动态交通环境信息, 可以将交通视频数据转换为时空数据库中的车辆运动信息, 用户可以在时空交通环境中管理和操作多种形式的多维交通数据, 有效缓解与存储大量交通视频有关的数据存储和检索问题。
土地数据具有典型的时态特征, 将土地调查及地籍管理中的相关数据表示为时空数据, 通过时空建模研究土地管理的问题已有广泛应用。胡彦波等[64]对土地调查数据进行时间、空间的语义分析, 提出适合农村土地调查数据的面向对象时空属性概念模型, 为土地时空信息的有效组织、管理和查询提供新思路和新方法, 并且能够降低数据冗余, 提高检索效率。
应用层的研究工作主要根据具体领域需求开展, 较具代表性的是位置服务和时空数据分析的应用领域。然而, 时空特征作为现实世界事物的一个基本属性, 未来会有更多领域有相关的应用需求。例如, 在金融领域, 各经济实体的各种经济/金融行为都天然带有时空信息, 对这些信息进行组织管理和利用将是一个重要的研究方向; 在医疗领域, 病患的疾病信息和治疗信息也有时空特征, 并且这些信息对建立完整高效的医疗系统有重要作用。
本文以建模对象的抽象层次作为分类方法对现有时空数据建模方法进行综述, 主要从物理时空数据管理、时空逻辑概念及关联和应用领域时空对象三方面梳理了现有时空数据模型, 并介绍时空模型的存储和查询, 以形成对时空数据模型层次性的整体认知, 为今后系统性的研究时空知识建模提供借鉴。
时空逻辑概念及关联和应用领域时空对象的时空模型进一步形成了时空知识建模, 由于对于时空知识建模缺乏系统性的研究, 没有知识组织层面的支撑, 面向时空信息处理的知识表示和组织方法也没有成体系的研究, 因此, 本文在该方面的论述较为局限。未来将在此基础上进一步研究多粒度时空数据模型, 探讨在不同层次结构下, 时空数据模型如何表示事物的时空语义。
李旭晖: 提出研究思路和研究命题, 论文起草及最终版本修订;
刘洋: 资料收集, 文献内容分析, 起草并修改论文。
所有作者声明不存在利益冲突关系。