Researchers require infrastructures that ensure a maximum of accessibility, stability and reliability to facilitate working with and sharing of research data. Such infrastructures are being increasingly summarized under the term Research Data Repositories (RDR). The project re3data.org–Registry of Research Data Repositories–has begun to index research data repositories in 2012 and offers researchers, funding organizations, libraries and publishers an overview of the heterogeneous research data repository landscape. In July 2013 re3data.org lists 00 research data repositories and counting. 288 of these are described in detail using the re3data.org vocabulary. Information icons help researchers to easily identify an adequate repository for the storage and reuse of their data. This article describes the heterogeneous RDR landscape and presents a typology of institutional, disciplinary, multidisciplinary and project-specific RDR. Further the article outlines the features of re3data.org, and shows how this registry helps to identify appropriate repositories for storage and search of research data.
科研数据共享与重用及其发展, 近年来逐渐得到重视。其实, 早在2003年世界主要科研组织就开始呼吁科学与人文知识的开放获取, 而且在其《柏林宣言》(Berlin Declaration, 2003)中, 也将科研数据作为学术知识的一部分[
英国皇家学会在2012年发布《科学是开放事业》的报告中, 敦促科学家们在“可理解的开放性(Intelligent Openness)”的层面上, 使得科研人员的科研数据可获取和可利用: “科学家们应该在合适的数据知识库里存储数据, 让人使用和验证数据”[
根据科研方法和不同学科中的科研对象的特征, 人们对科研数据会有不同的认识。然而, 科研数据的概念检验, 如同科研数据知识库一样重要, 必须服务不同学院和学术社群以及符合它们对科研数据概念的认识。信息基础设施的需求同样来自于内容和用户需求。
所以, 我们定义科研数据这个术语, 即下: 作为科研过程的一部分或者结果的数字数据。
此过程覆盖科研的所有阶段, 从科研数据生成到科研结果产出, 包括科学、社会科学实证研究或是文化现象观察等。数字科研数据因为学科和方法的不同, 而有不同的数据类型、不同程度的集成方式以及数据格式。就科研数据使用与重用的获取目的而言, 如果缺乏元数据以及描述内容和工具来具体规范如何创造、存储、调整和分析数据档案, 则数字科研数据没有丝毫价值[
数据政策要求接受资助的科研人员以及论文作者, 确保出版或者在项目中产生的数据具有可获取性[
尽管科学家们认同为科学进步实施数据共享, 有其共同潜在利益; 然而多数人在实际执行的时候还是有所顾忌[
科研数据可以经过三种发布策略实施开放获取[
(1) 科研数据独立发表: 作为独立的信息对象, 由知识库发布[
(2) 科研数据与文本文献一同发表: 此类情况又称数据论文[
(3) 科研数据依附出版物发表(使出版物丰富化): 作为注释文本内容的材料, 以丰富出版物内容的用途, 作为一种说明文件[
这些发布策略的共同特征是要求信息基础设施能够确保数据在最大程度上进行永久保存和开放共享。这种基础设施的名称包括: 数据档案、数据中心、数字图书馆、数字典藏和其他名称等, 我们称它们是科研数据知识库(RDR)。
目前为止, 人们缺乏针对上述基础设施及其功能的全面概述。科研数据知识库的注册机制re3data. org改变了这种不利的局面。该项目已经在2012年开始对科研数据知识库进行索引, 并且提供科研人员、资助机构、图书馆和出版商一份系统性概述异构RDR的全景观测。在2013年7月, re3data.org的注册清单上已有00个科研数据知识库。其中的288个采用一份由re3data.org开发的特殊标识符号来详细描述自己。以下给出一个RDR的全景观测(见第2节); 此外, 本文描述了注册机制的发展, 在re3data. org上的功能, 以及解释这套机制如何帮助人们确定适合科研数据存储与搜索的知识库(见第3节)。
欧盟理事会2009年的ICT报告总结“整个欧洲的数据知识库非常异质化, 不过我们具有连贯的发展政策, 作为克服这种零散状态的坚实基础, 并且提供科研社群得以更好地管理、使用、存储和保存数据”[
RDR及其服务因为所存储内容的不同而各具特点, 它们在不同情况下, 为各式各样文件类型的获取与使用进行存储。然而对比科研数据的存储, 人们更关注知识库提供科研出版物的标准规范。开放档案协议(OAI)很早就建立了促进机构或者学科知识库的标准规范和网络, 以提供文本信息对象的开放获取, 如科研论文(前出版或者后出版)、学位论文等[
直至今日, 仅有少数研究调查了科研数据知识库的全球现况, 例如2010年Marcial & Hemminger出版对100个 RDR的调查研究[
2.1 科研数据知识库的类型
以下是在分析00个RDR的基础上演化而来的RDR类型体系。基于机构和学科的学术文献知识库之间具有宽泛的差异性[
(1) 机构科研数据知识库
机构科研数据知识库由大学或者研究机构来运行。在大学层面上是跨学科规模。爱丁堡DataShare (http://datashare.is.ed.ac.uk)是英国的一个机构RDR案例。爱丁堡大学在DSpace软件框架的基础上, 制定“跨学科科研数据的网络数字知识库”[
(2) 学科科研数据知识库
在学科RDR里比较突出的案例是GenBank和PANGAEA。GenBank的服务(http://www.ncbi.nlm. nih.gov/genbank)始于1982年[
作为地球与环境科学的数据发布者(http:// www.pangaea.de), 盘古大地(PANGAEA)的定位是“存档、发布、传播从地球系统研究得到的地理参照数据的开放获取图书馆”[
(3) 跨学科科研数据知识库
除了机构和学科等方式, 科研数据知识库还能服务跨学科需求。作为科研数据知识库案例之一的Figshare(http://figshare.com)就“允许科研人员采取引用、搜索和共享的方式发布他们所有的数据”[
(4) 项目科研数据知识库
特别的科研项目会产生特殊的科研数据, 而它们导致各式各样的RDR状态。由GFZ 德国地球科学研究中心运行的科学钻探数据库(SDDB)(http:// www.scientificdrilling.org)可被称为典范。它提供产生自科学大陆钻探计划(ICDP)的钻探数据的开放重用[
上述种类型呈现了异构RDR的整体景观。它被实际运用在描述那些符合潜在用户需求的RDR服务。
2.2 科研数据管理服务与工具的需求
从科研人员的角度来看, 目前存在各种各样影响学者们主动分享科研数据的障碍。目前Kuipers和Van der Hoeven的全面研究[
为此, re3data.org付诸行动。今天, 在大多数学科中, 很难得知现有RDR的完整概况。尽管有像OpenDOAR开放获取知识库目录(http://www. opendoar.org)和ROAR开放获取知识库注册(http://roar.eprints.org)这样的机制, 也只包含一小部分的科研数据知识库(小于5%)的信息, 因为这两个机制的重点是学术出版物的知识库。过去几年, 像是OAD开放获取目录(http://oad.simmons. edu/oadwiki/ Data_repo sitories)以及DataCite(http:// www.datacite. org/repolist)等网站开始列举RDR。然而, 这些目录以及类似的服务只提供了关于RDR和它们服务的基础信息, 像是简短描述那些维护中的知识库运行、学科和URL等。为了克服上述在用户调查[
科研人员即将高度关注RDR的存储与利用。然而, 开放科学的技术与政策需求[
欧盟委员会在2010年曾经委托的一项研究, 描述在2030年的科研数据处理愿景。由此得知, 科研人员需要能够“发现、获取和处理他们所需的数据”。此外, 科研人员采集数据时, 将会在国际标准的基础上进行“在可靠的知识库中存储他们可信赖的数据”[
德国地球科学研究中心(GFZ)的图书馆与信息服务部门(LIS)、柏林洪堡大学的图书馆与信息科学学系, 以及卡尔斯鲁厄理工学院(KIT)图书馆是re3data.org项目的核心成员。这三个项目伙伴与德国网络信息协议组织(DINI)具有长期固定合作关系。在DINI资助下的科研数据政策报告于2009年发布[
该项目的主要目标是提供数据供应者和数据使用者双方科研人员对RDR异构全景的指引, 并且服务科研资助者和基础设施维护者, 如数据中心和学术图书馆。进一步来说, re3data.org旨在建立更为集中和集成的“数据知识库的生态系统”[
起先re3data.org列表上只有少数RDR以及基本信息, 像是知识库名称、维护者和学科专业等。在2012年12月项目收集和记录了将近00个存储科研数据的基础设施。目前的开放获取目录(OAD)列表就采用了这套全景观测结果。
re3data.org项目的三个合作伙伴各自独立检测随机选取20次的RDR。第一次的分析确认了一幅极端异质的RDR全景以及成为创作RDR描述框架草稿的基础。因为缺乏一个合适框架, 所以促使re3data.org发展一个新的描述RDR的元数据框架。在第二阶段, 这个架构对接类似的元数据框架, 调整了图标元素, 并且介绍RDR的基本条件。
第一版描述RDR的关键术语在2012年7月的一份文件中发表[
各项反馈十分正面, 而且在一些案例中有非常缜密的阐述。项目得到来自reBIND (http://rebind. bgbm.org)、DataCite(http://www.datacite.org)和OpenAIR Eplus (http://www.openaire.eu)以及其他反馈。项目小组分析和讨论了所有意见并且建议纳入关键术语的考量, 以指导修改在2012年12月所公布的核心要素第二版[
(1) 一般信息(如RDR的简短描述、内容类型、关键词汇等);
(2) 知识库群(如受资助的机构责任、内容或者技术议题等);
(3) 政策(如RDR政策, 包括它们的URL等);
(4) 法律议题(数据库以及数据集的许可证等);
(5) 技术标准(如应用程序界面、数据集版本、RDR软件等);
(6) 质量标准和服务(如证书、审计过程等)。
由于不同学术社群的异构性需求以及RDR标准的共同匮乏, 认证条件与RDR审计程序受到检验[], 其中若干条件存在不普遍适用RDR的情况。所以, 需要适当降低RDR加入re3data.org注册的门槛。然而, 为了让知识库在re3data.org能被索引, 科研数据的获取和许可的细节缺一不可。如果您的RDR满足了这些基本要求, 则可以被索引和被评论。
图标集凸显了知识库的主要特性, 如图2所示:
这套图标系统帮助用户去选择适合存储他们数据的知识库。科研人员在re3data.org中可以清楚看到每个RDR的访问与使用条件以及其他特性。
该网站(http://www.re3data.org/faq)解释了图标和它们的含义。这些图标引起RDR运行机构在re3data.org上注册的意愿。不过, 符号系统不只是对科研人员有用, 而且也对RDR维护者有用,有助于后者比较知识库的优缺点。这也使得re3data.org成为一项随着RDRs而不断更新和改版的实用工具。
简单质朴的re3data.org 搜索设计(见图 3)会让每次搜索结果包括: RDR 的名称、知识库覆盖的主题、一些描述基础设施的图标(见图 4), 以及是否已经被re3data.org 审核通过等信息。
信息过滤是检索结果的凝练, 它采用: 主题、内容类型、国家、认证、开放获取、永久标识符以及审核情况等次级选项, 来产生搜索分页。通过点击知识库名称, 可以浏览各个RDR 入口网站如图5 所示:
RDR 维护者可以经过一道简单的申请方式, 建议re3data.org 收录他们的数字基础设施。项目小组会列举和检查在目录上提交的知识库。当满足最低收录条件时, 知识库就被索引, 这意味着它们可以提供数据获取以及在网页上有明确的术语解释。我们在实践过程中考虑到: 如果过分区隔RDR 网站的结构, 会耗费索引过程的时间; 而且目前仅有少数RDR 具有服务政策、指定社群和使用条款, 还有某些RDR 要求联系维护者才能拿到这些信息。鉴于这类情况的频繁发生, 我们优化了re3data.org 工作流程, 并且改善了RDR 维护者的反馈渠道。
随着负责数字议程(http://ec.europa.eu/digital- agenda)的欧盟委员Kroes疾呼“我们要开启开放科学的时代”宣言, 凸显了开放性(Openness)就是数字科学的范式[
所有re3data.org项目合作伙伴资助了注册机制的长期运行。基于利益相关者的反馈, re3data.org将继续发展科研数据管理的新功能与服务。对此安排与DataCite在2012年春季签署了合作备忘录。作为科研数据的永久唯一标示符倡议者之一的DataCite是德国科研基金会资助的数据出版项目成果, 也是re3data.org的联盟成员之一[
尽管re3data.org尚在起步阶段, 截至2013年7月已有00个RDR编入re3data.org的索引, 超过288个被审核通过。项目下一阶段的工作集中在改善可用性和实施新功能。超越登记注册的发展, 本项目追求科研数据知识库的标准和网络。本项目努力促使在创作共用许可CC0(许可授权: 公共知识共享)下, 所有注册的元数据得以开放使用。与此同时, re3data.org为开放科学开辟了一条实践之道。
(注: 原文作者致谢开发re3data.org期间参与项目的成员: Gabriele Kloska, Evelyn Reuter, Jessika Rücknagel, Markus Schnalke, Edeltraud Schnepf, Angelika Semrau, Shaked Spier。)
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|
[32] |
|
[33] |
|
[34] |
|
[35] |
|
[36] |
|
[37] |
|
[38] |
|
[39] |
|
[40] |
|
[41] |
|
[42] |
|
[43] |
|
[44] |
|
[45] |
|
[46] |
|
[47] |
|
[48] |
|
[49] |
|
[50] |
|
[51] |
|
[52] |
|
[53] |
|
[54] |
|