欧盟长期保存项目Planets的体系与特点
姚飞, 姜爱蓉
清华大学图书馆 北京 100084
摘要

简要介绍Planets项目的基本概况,详细描述其在保存计划、内容特征化、保存行为、互操作框架、试验平台等方面的技术实施。Planets项目能够提供长期保存过程中所需的多种工具和服务,推进数字资源长期保存的发展,其很多方面值得借鉴。

关键词: Planets; 保存计划; 特征化; 迁移; 仿真; 互操作框架; 试验平台; 长期保存
System and Features of Planets——A Long-term Preservation Project Funded by European Union
Yao Fei, Jiang Airong
Tsinghua University Library,Beijing 100084,China
Abstract

This paper briefly introduces the basic summary of the Planets project, and makes a detailed description of the preservation planning, content characterisation, preservation action, interoperability framework as well as testbed of the project.The authors believe that Planets provides various tools and services needed during the long-term preservation, facilitates the development of the long-term preservation of digital resources, and it’s a good reference for China.

Keyword: Planets Preservation planning; Characterisation; Migration; Emultation; Interoperability framework; Testbed; Long-term preservation

近年来,数字资源长期保存日益受到重视,许多发达国家制定了数字资源长期保存策略,相关方面的研究和应用也取得了很大进展。Planets[ 1](Preservation and Long-term Access through Networked Services)是联盟级大型长期保存项目之一,影响广泛。本文对Planets项目的体系结构进行调研和分析,旨在为我国长期保存相关工作者提供参考和借鉴。

1 Planets项目概述

Planets是由欧盟第6框架支持的4年期项目。其主要目标是提供一个可持续性框架来实现数字内容的长期保存,增强欧洲在此领域的竞争力。更具体的目标是建立用于保障数字文化和科学资源的长期存取的服务和工具。该项目联合了大英图书馆等16家联盟成员,总预算1 500万欧元,开始于2006年6月1日。

2 Planets项目体系

Planets项目有6个子项目,分别是保存计划、特征化、保存行为、互操作框架、试验平台和宣传推广子项目。各个部分相互关联,彼此交互。Planets的体系架构如图1所示。本文重点从技术层面对前5个部分进行剖析。

图1 Planets的体系架构[ 2]

2.1 保存计划(Preservation Planning)

保存计划定义长期保存过程中对数字对象所采取的一系列保存行为。保存计划考虑政策、法律、组织和技术限制、用户需求、保存目标等因素,描述保存语境,评价保存策略并判断结果。Plato[ 3, 4]是Planets提供的用于执行保存计划的工具,由项目成员维也纳技术大学开发,是基于Web的判决支持工具,其通过严格体系化的过程来定义和优化保存需求,比较可用的保存策略和行为,并从众多保存策略中辨别出最佳策略,帮助用户生成和评价保存计划并定义保存行为[ 5]。Plato定义了包括定义需求、评价备选方案、结果分析和建立保存计划4个部分的保存计划工作流,各部分的详细信息如图2所示:

图2 保存计划工作流程[ 6]

2.2 内容特征化[ 7](Content Characterisation)

在处理长期保存的内容时,需要认识并理解信息对象,确保信息对象在处理过程中不被破坏。在保存文档过程中,需要保存与文档格式相关的“技术元数据”以及与其他信息(例如:对象名称、对象生成软件、对象的知识产权、对象最后修改的时间等)相关的非技术性“相关元数据”。当前,存在多种文件格式,但是只有少数格式在实际中适用于长期保存。因此,需要将不适合长期保存的格式迁移为合适的格式。一旦发生迁移,就需要判断迁移是否保留了必需的重要信息[ 8]。当涉及海量数据时,迁移前后文件的比较和检查就只能依赖于高度自动化的处理,人工检查是不切实际的。

Planets科隆大学(UzK)工作组开发了可以比较不同格式文件特性的技术。这种方法建立在基于XML的语言——可扩展特征语言(XCL)[ 9]的基础上。XCL包括可扩展特征定义语言(XCDL)[ 9]和可扩展特征提取语言(XCEL)[ 9]。XCDL提供文件的摘要描述。每个XCDL文档通过说明属性值来描述数字对象,可以为任何类型的文件格式产生XCDL描述。XCEL以机器可读的方式描述文件格式的结构和意义。XCEL也可称为“摘要文件格式规范”。任何可读格式的说明都可以转换成XCEL描述,其可以被提取器解析,进而分析这种格式的对象。在XCEL的帮助下,提取器能够解析某一格式的文件且为这些文件生成XCDL文件,用于概要地表达包含在数字对象中的各种信息。

从数字对象提取描述信息是有用的,但还不够。不仅每个文件格式的编码信息不同,而且它们的属性意义之间还存在很大差异。例如,一种格式可用像素表示图像宽度,而另一种格式可以使用米来进行度量。为了跨文件格式比较特征,UzK提出了XCL本体(XCL Ontology)[ 10]的概念,其定义了文件格式属性和它们之间的关系。XCL本体通过关联文件格式属性到一组基本信息的方式实现不同格式文件之间的比较。所有组件之间的关系如图3所示[ 8, 9]:

图3 XCEL、 XCDL、提取器和比较器之间的关系[ 8]

迁移服务将文件a转换成文件b;提取器使用格式A和格式B的XCEL来提取摘要描述XCDL a和XCDL b;比较器获取这些描述以形成它们的异同的度量。XCL方法实现了数字对象的自动描述,并支持在迁移时对它们进行各种评估,从而发现用于长期保存的最佳方法。

2.3 保存行为(Preservation Action)

保存行为是Planets数字保存解决方案的核心。迁移和仿真是最常见的保存行为。Planets对现有保存行为工具进行评估,鉴别出适合封装在Planets中的工具,将其打包在Planets中并通过Planets服务推出。同时,Planets开发新的解决方案来填补现有工具的空白。这些服务将通过Planets 试验平台来评价,且详细地在核心注册中描述。

(1) Planets 核心注册[ 11]

Planets核心注册与Planets的很多工具和服务息息相关。核心注册包含关于文件格式、工具的详细信息。文件格式的描述与上文的内容特性化相关,保存行为工具(软件、硬件、介质)的注册与保存行为相关。核心注册基于英国国家档案馆技术信息在线注册(PRONOM)[ 12]且与通用数据格式注册(UDFR)[ 13]兼容。

(2)迁移

迁移改变数字对象,将原始文档转换为新版本。迁移的优点在于用户可以在当前环境中使用原始文档,缺点是它具有改变文档内容、布局或结构的风险。数字对象在迁移过程中可能发生不一致性、丢失某些功能性且迁移的质量评价是困难的。在Planets环境中包括的迁移工具如表1所示:

表1 Planets环境中打包的迁移工具[ 14]

(3)仿真

仿真改变当前计算机环境以模拟文档最初被创建的环境,对象本身不发生变化。仿真的风险包括:技术挑战和用户必须知道关于原有环境的知识。Planets项目组提供以下三种仿真工具:

①模块化仿真器Dioscuri[ 15]。Dioscuri是Java编写的基于组件的X86计算机硬件仿真器,具有持久性和灵活性两个关键特征。Dioscuri完全基于组件,每个硬件组件通过称为模块的软件代理仿真。通过各种模块的组合,允许用户配置任意计算机系统,新的或更新模块可以被添加到软件库中,为仿真器不断扩充提供运行这些新模块的能力。Dioscuri提供多种仿真计算机组件,完整的组件列表参见文献[16]。

②通用虚拟机UVC[ 17]。IBM参与Planets的工作集中在通用虚拟计算机上。在当今计算机架构的模拟中,UVC是简化计算机的虚拟表达,可以用在任意计算机系统上。通用虚拟机由通用虚拟计算机(UVC)、格式解码器(Format Decoder)、逻辑数据模式(Logical Data Schema)和视图(Viewer)4个组件构成。格式解码器(每一种文件格式需要一种UVC格式解码器,一旦存在此格式的解码器,则其可用于相同格式的所有文件)能够将具体文件格式译码为逻辑数据图(LDV),LDV可以详细描述数字对象的结构。逻辑数据模式(LDS)描述数字对象拥有的信息。最后,LDV通过视图转换成可理解的表达[ 18]

③远程仿真访问工具GRATE[ 19]。GRATE是用Java/PHP/Perl和JavaScript (Ajax)编写的网络服务,允许通过Internet对仿真服务器进行地点无关的远程访问。GRATE不仅通过因特网或其他网络提供对于专用软件的远程访问,还允许用户上载主要的数字对象。GRATE还显示关于存储的辅助数字对象(仿真器、操作系统等)的介质信息,而且GRATE能够装载这些对象到仿真环境,使得它们可用——用户可以查看和编辑过时的数字对象,且修改后的对象可以通过下载保存在用户的本地系统中。

2.4 互操作框架[ 20, 21](Interoperability Framework)

尽管很多工具可以满足特定的存储任务,但这些工具通常不能被“转移”到其他环境中。Planets提供一种面向服务的架构——互操作框架(Interoperability Framework,IF)来解决这一问题。IF将工具从其原始执行环境解耦,同时允许现有组件的再利用。IF将来自数字保存领域各个方面的工具和服务统一到一个保存系统。Planets框架是可扩展的,开发者或解决方案提供者可以测试自己的工具且通过标准接口将它们集成到Planets。一旦封装到Planets服务中,各种操作功能(保存计划、保存行为、特征化)将高度可互操作,且不再作为孤立的软件组件存在。Planets框架是平台无关的架构,且与OAIS兼容。Planets软件作为一个整体可以从网站下载。Planets框架还允许Planets工具和服务集成在公共档案和图书馆系统中。Planets为用户提供稳定的环境来完成关键的数字保存计划、内容特征化和数字保存行为过程。

图4 Planets互操作框架和试验平台系统架构[ 22]

图4表示Planets IF及其与Planets应用、仓储和第三方服务的关系。IF建立服务总线以及核心组件。核心组件包括提供授权和认证服务的安全组件;提供灵活监控和日志服务的监控组件;采取业务处理执行语言(BPEL)[ 23]中制定的工作流且在可用Planets服务环境中执行工作流的工作流执行引擎;提供工作流元件执行的复杂业务的回滚和补偿的业务管理器;提供统一的服务以用于处理注册和服务中出现的异常的例外处理器;数据库层以及使得工作流具有适当程度的隔离的工作区服务。每一类型的服务具有服务注册的基本定义。

2.5 试验平台[ 24](Testbed)

当对数字保存执行进行科学研究、在多样化的“真实世界”中评价保存方法时,需要一个专用的研究环境来系统地执行实验。这些实验严格遵循某一方法学,是可再现的且完全记录归档并可存取,以便于日后的分析和比较。Planets 试验平台正是这样一种Web应用。试验平台定义为“一种用于实验和评估的受控环境,具有允许进行工具和策略比较的度量和基准”[ 26]

Planets将每个实验提炼为必须遵循的6个关键步骤[ 22]。如图5所示,在第1步定义基本属性中,定义名称、目的、参与者、范围、工具类型、对象类型、方法等。在第2步设计实验中,定义实验的类型,包括迁移、特征化和工作流,指定特定的工具和专门的数据。在第3步指定资源和结果中,估计输出文件的数量和计算机资源需求,指定用于实验的基准目标。在第4步执行/不执行中,基于估计的系统需求、所需存储能力和处理器时间的可用性,由试验平台管理员做出判决。在第5步运行实验中,以业务处理执行语言(BPEL)工作流执行实验,由互操作框架的工作流执行引擎进行处理,并呈现状态报告。在第6步评价实验中,呈现输入和输出数据并评价基准目标。

图5 Testbed方法学[ 26]

试验平台的系统是三层架构[ 27](见图4):第一层基于Java服务器Faces和Facelets处理用户界面的表现,动态创建内容的逻辑;第二层基于JavaBean和JaxWeb服务端点,提供业务逻辑(核心功能);第三层提供数据持续性,其使用通过Planets互操作框架提供的用户数据注册。

使用Planets 试验平台,可以在实践的基础上系统地分析可能的数字保存行为(如迁移和仿真),在受控环境内对各种保存工具和服务进行实验,测试保存工作流的各种组合(如MS Word到PDF或PDF/A的迁移),比较不同方案的保存结果,选择合适的迁移策略,提供大量的证据来证实特定工具对于特定对象类型是成功的且告知未来的保存计划,并向软件开发者提供反馈。

3 结 语

Planets项目联合欧洲范围内有影响力的单位来共同面对数字资源长期保存所面临的挑战。Planets提供数字保存的集成方法,帮助用户定义数字保存目标和政策、理解资源集合的特性、将不满足要求的格式对象转换成期望的格式、在遗留的操作系统中运行软件。Planets提供一种可扩展的集成框架来满足从保存计划到行为实施再到评估验证的一系列服务。

现阶段,我国长期保存方面的工作刚刚起步,重点在于现有特定资源的保存。而Planets已朝着先进、集成和自动化的关键数字保存过程的目标迈进。显然,发达国家已经领先一步,在策略、工具、服务、系统及技术等方面都已取得了很大的突破。在根据我国实际情况开展长期保持工作的同时,还要学习和借鉴Planets项目的优势理念和做法。

参考文献
[1] Planets[EB/OL]. [2010-01-20]. http://www.planets-project.eu/. [本文引用:1]
[2] Background to the Planets Project [EB/OL]. [2010-02-06]. http://www.planets-project.eu/docs/newsletters/Planetarium7_July09.pdf. [本文引用:1]
[3] Plato[EB/OL]. [2010-02-06]. http://www.ifs.tuwien.ac.at/dp/plato/intro.html. [本文引用:1]
[4] Planets Preservation Planning Tool: Plato 2. 1 User Manual[EB/OL]. [2010-01-20]. [2010-01-20]. http://www.ifs.tuwien.ac.at/dp/plato/docs/Plato_21_UserManual.pdf. [本文引用:1]
[5] Planets Brochure[EB/OL]. [2010-01-20]. http://www.planets-project.eu/docs/comms/PLANETS_BROCHURE.pdf. [本文引用:1]
[6] Planets Planning Tool(v2) [EB/OL]. [2010-01-20]. http://www.planets-project.eu/docs/reports/Planets_PP4-D4_PlanetsPlanningTool.pdf. [本文引用:1]
[7] Brown A. Characterisation in Planets[EB/OL]. [2010-02-06]. http://www.planets-project.eu/docs/presentations/SignificantPropertiesApril2008_AdrianBrown.pdf. [本文引用:1]
[8] Automating the Process of Comparing Digital Objects: Spotlight on Characterisation [EB/OL]. [2010-02-06]. http://www.planets-project.eu/docs/newsletters/Planetarium7_July09.pdf. [本文引用:2]
[9] XCL - eXtensible Characterization Language[EB/OL]. [2010-01-20]. http://planetarium.hki.uni-koeln.de/planets_cms/about-xcl. [本文引用:4]
[10] The XCL Ontology[EB/OL]. [2010-02-06]. http://planetarium.hki.uni-koeln.de/planets_cms/xcl-ontology. [本文引用:1]
[11] Planets: Report on Glossary and PA Tool Registry[EB/OL]. [2010-02-06]. http://www.planets-project.eu/docs/reports/Planets_PA3-D5_Report_Glossary_Registry_final.pdf. [本文引用:1]
[12] The Technical Registry PRONOM[EB/OL]. [2010-02-06]. http://www.nationalarchives.gov.uk/PRONOM/Default.aspx. [本文引用:1]
[13] The Unified Digital Formats Registry (UDFR) [EB/OL]. [2010-02-06]. http://www.gdfr.info/udfr.html. [本文引用:1]
[14] Van Bussel S. How to Preserve [EB/OL]. [2010-01-20]. http://www.planets-project.eu/events/sofia-2009/presentations/day1_part3/SaraVanBussel.pdf. [本文引用:1]
[15] Dioscuri[EB/OL]. [2010-02-06]. http://dioscuri.sourceforge.net/. [本文引用:1]
[16] Planets: Second Version of Dioscuri [EB/OL]. [2010-01-20]. http://www.planets-project.eu/docs/reports/Planets_PA5-D6-Second_version_of_Dioscuri_final.pdf. [本文引用:1]
[17] Universal Virtual Computer[EB/OL]. [2010-02-06]. http://www-935.ibm.com/services/nl/dias/cs/uvc.html. [本文引用:1]
[18] UVC for Images[EB/OL]. [2010-01-20]. http://www.kb.nl/hrd/dd/dd_onderzoek/uvc_voor_images-en.html. [本文引用:1]
[19] Planets: First Version of GRATE[EB/OL. [2010-01-20]. http://www.planets-project.eu/docs/reports/Planets_PA5-D7_GRATE.pdf. [本文引用:1]
[20] Welcome to the PLANETS IF Sub-Project gForge! [EB/OL]. [2010-01-20]. http://gforge.planets-project.eu/gf/project/if_sp/?action=index. [本文引用:1]
[21] Planets: Interoperability Framework-Release Report1[EB/OL]. [2010-01-20]. http://www.planets-project.eu/software/Planets_IF2345-D3_ReleaseReport-Final_Website.pdf. [本文引用:1]
[22] Kaiser M. The Planets Testbed[EB/OL]. [2010-01-20]. http://www.planets-project.eu/docs/presentations/LisbonFP6Conference_Kaiser_TB_01.ppt. [本文引用:1]
[23] Business Process Execution Language (BPEL) [EB/OL]. [2010-02-06]. http://www.service-architecture.com/web-services/articles/business_process_execution_language_for_web_services_bpel4ws.html. [本文引用:1]
[24] Farquhar A, Hocku-Yu H. Planets: Integrated Services for Digital Preservation[J]. The International Journal of Digital Curation, 2007, 2(2): 88-99. [本文引用:1]
[25] Welcome to the PLANETS Testbed on gForge! [EB/OL]. [2010-02-06]. http://gforge.planets-project.eu/gf/project/ptb/?action=index. [本文引用:1]
[26] Barr M. Testbed- A Walk-through[EB/OL]. [2010-01-20]. http://www.planets-project.eu/docs/presentations/matthew_barr.pdf. [本文引用:1]
[27] Planets: Test Methods for Testbed[EB/OL]. [2010-02-06]. http://www.planets-project.eu/docs/reports/Planets_TB3-D2_MethodsForTesting.pdf. [本文引用:1]