构建可信赖的数字资源长期保存系统摄入工作流
吴振新, 王玉菊, 付鸿鹄, 李春旺, 刘建华
中国科学院文献情报中心 北京 100190
吴振新, ORCID: 0000-0003-4966-1961, E-mail: wuzx@mail.las.ac.cn

作者简介:吴振新: 设计、实施研究方案, 撰写并修订论文; 王玉菊, 刘建华: 开发摄入流程; 付鸿鹄: 开发任务Agent; 李春旺: 提出信任链机制和可信赖工作流管理模型。

摘要
目的在数字资源长期保存实践中, 基于可信赖仓储认证标准的要求, 探索可信赖数字资源保存系统的摄入处理流程。方法中国科学院文献情报中心的数字资源长期保存系统需要接收、处理、存档来自多个出版商的数据, 摄入工作流是该系统的一个重要组成部分。基于可信赖仓储认证标准, 在摄入流程设计与开发中, 采用工作流程管理理论以及信任链机制与可信赖工作流的管理模型。结果初步完成数字资源长期保存系统摄入工作流程设计和开发。结论基本满足数字资源保存系统摄入工作流程的灵活、可定制、个性化、可扩展、可复用等要求。
关键词: 可信赖性; 摄入工作流; 数字资源长期保存
中图分类号:TP393
Constructing a Trusted Ingest Workflow of Digital Preservation System
Wu Zhenxin, Wang Yuju, Fu Honghu, Li Chunwang, Liu Jianhua
National Science Library, Chinese Academy of Sciences, Beijing 100190, China
Abstract

[Objective] Based on requirements of standards of trusted digital repository, research on the ingest workflow of trusted preservation system in digital preservation practice. [Methods] Digital preservation system of National Science Library, Chinese Academy of Sciences need to receipt, ingest, archive data from multiple publishers, the ingest workflow is an important part of this system. Based on standards of trusted digital repository, apply the workflow management theory, mechanism of trust chain and trusted workflow management model in designing and developing trusted ingest workflow. [Results] The design and development of the ingest workflow of the digital preservation system are completed. [Conclusions] Basically meet requirements of the ingest workflow of the preservation system with good flexibility, customizability, personalization, expansibility and reusability.

Keyword: Trustworthiness; Ingest workflow; Digital preservation
1 引言

人工失误、技术更新、设备损坏等原因, 常常会造成数字对象的完整性、真实性、安全性和可用性的不断衰减和丧失, 这是数字资源长期保存(简称长期保存)的研究和实践活动中面临的一个重要问题。作为承担着长期保存数字资源任务的保存系统, 需要采用各种策略、技术和方法保障数据的完整性、真实性、安全性和可用性。

在数字资源长期保存系统(简称保存系统)中, 数据摄入模块是所有待保存数字对象的最初入口, 是保存系统与内容提交者之间信息传递的桥梁。它从接收存档内容提供者的信息包(SIP)开始, 通过一系列相关工作流程处理, 最终创建有效的、符合长期保存存储数据格式和标准的存档信息包(AIP)。摄入阶段能否对原始提交数据进行有力控制, 将直接影响保存系统中的数据质量。因此, 摄入模块是保障存档资源完整性、真实性、安全性和可用性的第一步。

目前已经有一些保存系统结合实际应用中上下文的环境和需求, 对摄入管理进行了研究和实践, 如荷兰国家图书馆的e-Depot[1]、美国第三方保存系统Portico[2]等, 形成了各具特色的摄入管理功能、摄入流程。基于同样的目的, 笔者在中国科学院文献情报中心的商业数字文献资源长期保存系统(Digital Preservation System, DPS)研发过程中, 从可信赖工作流程管理的角度对数据摄入进行深入探索。

2 信任链机制及可信赖工作流管理模型

长期保存是一项复杂的系统工程, 对数据的控制和管理不同于其他信息系统的要求, 另外由于长期保存的特点, 很难在短时间内发现和纠正保存过程中的失误。因此, 保存系统需要更为严格的工作流程管理和控制, 以有效保证其可信赖性。

李春旺等从过程管理的角度, 结合长期保存可信赖仓储认证的相关要求, 提出了信任链机制, 并进一步形成了可信赖工作流管理模型。笔者在进行DPS研发过程中, 借鉴了他们的信任链机制和可信赖工作流管理模型, 并根据系统的实际需求进行适当的改进。

2.1 信任链机制

信任链机制是通过将某一工作目标分解成一个连续的、不能再分的、由多个原子处理过程组成的工作流程链, 而每一个原子过程的可信度是建立在该过程所处环境的可信度以及系统前一个过程是否可信的基础上, 因此可以通过对每一个原子过程进行严格控制管理来保障其可信赖性, 这样就可以通过建立一个工作流程的信任链保障整个流程的可信赖性。

2.2 管理模型

图1 可信赖工作流管理模型

按照可信赖工作流程管理模型(如图1所示), 需要为每一个原子处理过程明确定义如下内容:

(1) 定义及基本要求

需要明确该原子过程的目的, 即要完成的操作任务和提供的功能, 该过程所涉及的技术特点、性能要求, 以及相关的法律限制和管理要求等。

(2) 输入信息

同时要明确该原子过程输入什么信息, 以何种格式输入, 信息输入数量、频率如何, 如何进行信息输入控制, 信息输入过程中可能出现的问题以及解决办法是什么等。

(3) 信息输出

要明确该原子过程输出什么信息, 以何种格式输出, 信息输出数量、频率如何, 如何进行信息输出控制, 信息输出过程中可能出现的问题以及解决办法是什么等。

(4) 原子处理过程

信息的原子处理过程是工作流的核心, 任何使用资源将输入转化为输出的活动都可以被视为一个原子过程。前一个原子过程的输出可能直接成为下一个原子过程的输入。为确保长期保存工作的有效运行, 必须识别和管理许多相互关联和相互作用的原子过程。长期保存可信赖工作流过程通常包括以下4个要素:

①信息。描述工作流过程相关的数据资源, 包括内部信息、外部信息以及流程控制信息等, 具体表现为数字资源长期保存政策、程序、工作指南手册等。

②方法。长期保存工作流中拟采用的标准规范、技术方法及支持其他资源的方法等。

③组织与责任。描述工作流程内部的各个实体及其相互关系, 具体表现为长期保存组织机制、人员要求、岗位工作报告制度等。

④活动。描述构成工作流的各个原子过程及其约束关系。这些活动通过顺序、分叉、合并、并行、串行、反复等控制方式进行编排, 从而形成一个完整工作流程。

3 基于可信赖工作流管理模型的摄入工作流设计

DPS系统采用Fedora Repository[3]作为底层保存仓储, 在遵循OAIS参考模型标准[4]的工作流程基础上, 结合可信赖仓储的要求以及保存的实际需求, 对摄入到系统的信息包进行一系列预处理以更好地保证下一步的存储管理。

基于可信赖工作流管理模型及信任链机制, 笔者将保存系统的摄入工作详细拆分为多个连续的原子处理过程, 将各个原子处理过程开发封装为标准功能模块, 并对各模块按照可信赖工作流管理模型实施可信赖性管理。在摄入工作流的设计过程中, 形成了如下的设计思路和策略。

3.1 DPS系统的数据包管理策略

目前保存系统接收的提交数据包来自多个出版商的多种类型资源, 所以保存系统在设计摄入模块时采用“ 接收多种格式提交数据包, 统一转换为规范格式的存档数据包, 提供多种格式的分发数据包” 的策略, 允许摄入系统接收并处理多种格式提交包, 并规范成为统一的存档格式包进行存档管理, 如图2所示。这种策略意味着不同格式的数据在整个摄入过程中会需要一些个性化的处理, 而另一些是公共的处理模块, 因而一种格式的摄入工作流是由公共模块和个性化模块交叉组配而成的, 每个格式的摄入工作流从整体看是需要个性化定制的。

图2 DPS系统的数据包管理策略

3.2 组配式个性化工作流程的构建策略

不同格式的数据提交包需要经过不同预处理才能进入存档系统, 因此要求摄入系统能够提供灵活的工作流构建策略, 为多种提交格式提供定制的工作流管理。

(1) 原子过程定义

根据模块化的程序开发思想, DPS系统将数据摄入过程中所有的处理工作细化到不可拆分的最小步骤, 将这些最小步骤定义为原子过程, 根据可信赖工作流程的管理模型逐个对原子过程进行定义, 然后分别开发实现各原子过程的模块, 并将这些原子模块登记到原子过程库中备用。

(2) 原子模块分类

由于系统采用“ 接收多种格式提交数据包, 统一转换为规范格式的存档数据包, 提供多种格式的分发数据包” 的策略, 整个摄入处理过程中就需要包括处理多种格式提交包的个性化原子过程, 因此需要对划分好的原子过程进行分类, 模块分为个性化模块和公共模块, 分别在DPS系统中登记。

(3) 原子模块的命名规范

DPS系统要求原子模块的命名规则要简单明了, 模块要使用有意义的名称, 模块名称要能反映出其具体的用途和功能, 增加可读性; 同时要求固定使用一种自然语言的命名方式, 即只使用英文命名, 不能使用拼音和英文混合的命名方式。

公共模块的命名规则是根据原子模块功能进行命名, 个性化原子模块则是在公共模块的命名规则后添加格式名称。公共模块命名规则: “ 操作对象类型” +“ 原子模块功能” , 如: SIPVirusCheck(); 个性化模块命名规则: “ 操作对象类型” +“ 原子模块功能” +“ _” +格式名, 如: SIPFixityCheck_Springer()。

(4) 摄入工作流组配

针对一种新的格式, 处理人员根据对该格式的分析进行工作流拆分, 然后针对个性化的模块进行开发, 再对模块进行登记后, 处理人员就可以通过DPS系统的工作流定制页面进行个性化的工作流定义。

图3 组配式的工作流程构建

图3所示, 根据拆分好的工作流, 处理人员按顺序定义每一个处理步骤, 从已经注册的原子过程模块中挑选所需的模块, 按预处理需求对所选原子过程加注个性化信息(例如, 包括文档、工具、标准、责任人等), 整个工作流的全部步骤定义好后, 需要按规范进行命名并存入数据库中以供后期调用。DPS系统允许对定义好的工作流进行修改和步骤重新排序。

对于某一格式的数据, 也可定制多个不同的工作流供不同需求状况下调用, 比如二次处理的数据, 可能就不需要再进行病毒检查和解压缩的过程。

不同出版商的数据源, 只要数据提交格式相同, 即可使用同一工作流进行摄入处理, 不需再次进行个性化模块开发和工作流定义, 因此具备较好的重用性。

4 长期保存摄入工作流的实现
4.1 摄入工作流分解和原子模块划分

在OAIS标准中对摄入模块的流程有相应的描述, 但OAIS模型仅是概念模型, 需要在实际保存系统中结合自身需求细化没有详细定义的步骤, 如数据审核、责任分配、数据语义定义、工作流模型标准等。

另外, 在保存仓储系统的可信赖研究中, 都提出了摄入阶段的相应要求, 如Nestor认证目录[5]中要求: 仓储须定义资源提供商SIP相关规范要求, 保证数字对象的完整性; 识别需要进行数字对象迁移的风险; 保证数字资源从提供商向仓储的安全传输; 仓储保证传输的完整性和质量。在ISO 16363“ Audit and Certification of Trustworthy Digital Repositories” 认证标准[6]中要求摄取模块要提供对存储数字对象的来源、正确性、完整性及充分控制的保障措施。

在上述研究的基础上, 根据实际的数据接收和处理过程, 笔者将摄入管理细分为14个原子过程, 按照可信赖工作流程模型对每一原子过程所需的文档、工具、人员、处理说明等给予详细说明, 如表1所示:

表1 DPS摄入流程原子过程划分表
4.2 原子过程模块定义与管理

一个可信赖的工作流程一方面体现在设计的科学、合理、可靠, 另一方面体现在其过程和组织控制规范的透明、公开、可验证。从过程管理的角度, 需要通过相关的标准规范、管理制度具体实现这个流程, 也需要通过相关的标准规范、管理制度保证对流程的可靠管理。因此, 可以借助对必须具备的标准规范和管理制度的检验, 评价工作流程的可信赖性。

在DPS系统中, 除了完成相应功能模块的开发, 同时在系统中对每个模块按照可信赖工作流管理模型进行详细的定义如下:

(1) 功能描述。描述该原子过程的目的, 即要完成的操作任务和提供的功能。

(2) 输入信息。描述该原子过程输入什么信息, 在哪个目录下获取。

(3) 信息输出。描述该原子过程输出什么信息, 输出到哪个目录下。

(4) 原子处理过程调用方式。通常是给出URL或者模块的名称ID。

(5) 问题及解决办法。可能出现的问题以及解决办法, 通常会对应到“ 常见问题清单” 的相关问题标识符。

(6) 责任人。负责该原子过程模块开发的人员。

(7) 相关文档。与该模块开发与使用相关的文档。

实际处理中, 由于DPS系统设置了固定的数据处理目录、中间结果目录和日志目录等, 所以信息输入、输出管理就没有再对此进行管理。

DPS在系统管理部分通过原子过程管理页面实现原子过程的定义和登记, 如图4所示:

图4 原子过程管理页面

4.3 摄入工作流的个性化定制与保存

在工作流管理模块, DPS可以为每一种格式的资源定义各自的摄入处理工作流程, 图5是通过Web页面为IOP定义摄入处理流程。通过选择所需的原子过程、为每个原子过程附加个性化信息、对原子过程排序等操作, 最终形成该资源的个性化摄入处理流程。

图5 摄入处理流程定义页面

每个原子过程附加个性化信息包括:

(1) 基本信息。即4.2节关于原子过程的定义信息。

(2) 文档信息。描述工作流过程相关的数据资源包括内部信息、外部信息和流程控制信息等, 具体表现为数字资源长期保存政策、程序、工作指南手册等。

(3) 工具(方法)。指长期保存工作流中集成的外部工具及模块, 以及采用标准规范、技术方法及支持其他资源的方法等。

(4) 管理员。该步骤的执行人员, 如果指定了人员, 就意味着只有该人员对资源有操作权限。

定义好的工作流保存在关系数据库中, 每个工作流拥有唯一识别符, 既保存了所选择的每个原子过程的附加个性化信息, 也保存了原子过程之间的先后顺序, 如图6所示:

图6 原子过程模块与工作流的存储示意图

4.4 摄入工作流的调度和执行

由于需要的摄入数据量不等, 有时需要较长的处理时间, 如果网络不稳会造成前台与后台服务器之间通信的中断, 使得摄入任务的执行状况无法捕获。同时每个月都要接收和摄入多个资源的存档数据, 因此也需要提高自动化处理的程度。综合上述需求, DPS系统采用摄入处理的任务Agent机制, 即把每次的摄入处理作为一个任务定制好, 由Agent在后台对其进行调度处理, 既减少前后台交互, 又在一定程度上提高了自动化程度, 减少了人工时间, 如图7所示:

图7 摄入工作流的调度和执行示意图

图7完整地展示了摄入工作流的调度和执行过程。由于可以为每种提交格式定义多个工作流, 所以在摄入处理任务定制时, 需要为待处理的数据选择要使用的工作流, 并确定摄入任务执行时间。然后任务Agent会根据调度信息, 在后台自动调取工作流信息, 根据所选流程依次调用各原子过程, 同时系统会适时地为处理人员提供定义流程时所提供的相关信息, 每个原子过程处理完毕后系统会给出供参考的处理建议, 整个流程结束后会生成处理报告, 报告各原子流程的处理状况和结果, 如图8所示。如果任何一个原子过程出现问题, 可以将该数据包转入问题流程, 等待人工处理。

图8 处理流程结果报告页面

5 结语

保存系统的摄入处理实际上都是由一系列连贯的处理步骤(原子过程)协同完成的, 数据按照既定的流程在不同步骤间流转, 遵照详细的管理规范和系统要求, 完成对不同种类数字资源的处理。经过对多种数据格式数据的处理, 验证了本文对于摄入工作流管理的最初设想, 除完成相应的摄入处理, 基本满足了对工作流程管理的灵活、可定制、个性化、可扩展、可复用等要求。

本文所讨论的摄入处理工作流程管理方案, 通过对原子过程划分, 详尽定义了各步骤的功能需求, 以及需要采用的具体标准和工具, 从而保证了数字对象在摄入过程的完整性和可用性, 为后续的存档管理和访问提供可靠的支持。其中附加的相关文档、处理建议以及对于处理过程的详细记录, 使得摄入管理具有很好的可理解性和透明性。

数字资源长期保存系统作为一个复杂的应用系统, 本身应具备可信赖的特性, 可信赖的摄入工作流程管理为整个保存系统的可信赖性奠定了良好的基础。本文在探索可信赖保存系统研发上做了初步探索, 还需进行深入和细致的研究, 希望此文可为同行提供有益的参考。

参考文献
[1] Van Diessen, R J, Steenbakkers, J F. The Long-term Preservation Study of the DNEP Project - An Overview of the Results [EB/OL]. [2014-08-20]. http://www.kb.nl/sites/default/files/docs/1-overview.pdf. [本文引用:1]
[2] Morrissey S. Digital Preservation Case Studies: Preservation Activities at Portico [EB/OL]. [2014-08-20]. http://www.fao.org/fileadmin/templates/jhove2-workshop/documents/Digital-Preservation-Case-Studies-Portico.pdf. [本文引用:1]
[3] Fedora [EB/OL]. [2014-08-05]. http://www.fedora-commons.org/software/current. [本文引用:1]
[4] Reference Model for an Open Archival Information System (OAIS) [EB/OL]. [2014-08-05]. http://public.ccsds.org/publications/archive/650x0m2.pdf. [本文引用:1]
[5] Catalogue of Criteria for Trusted Digital Repositories (Version 2) [EB/OL]. [2014-08-05]. http://www.langzeitarchivierung.de/Subsites/nestor/SharedDocs/Downloads/materialien/nestor_mat_08_eng.pdf;jsessionid=A64691077A287E17CE5200BF845BF221.prod-worker3?__blob=publicationFile. [本文引用:1]
[6] Audit and Certification of Trustworthy Digital Repositories [EB/OL]. [2014-08-05]. http://public.ccsds.org/publications/archive/652x0m1.pdf. [本文引用:1]