科研数据知识库研究述评
刘峰1,2,3, 张晓林1, 孔丽华1,2,3
1中国科学院国家科学图书馆 北京 100190
2中国科学院计算机网络信息中心 北京 100190
3中国科学院大学 北京 100049
刘峰 E-mail:liufeng@cnic.cn

张晓林: 提出研究思路与研究框架, 参与论文修订;

刘峰: 设计研究方案, 负责研究数据收集、整理、统计与分析,负责论文起草和论文修订;

孔丽华: 参与研究数据的收集与整理, 参与论文修订。

摘要

【目的】 分析描述科研数据知识库及其服务的现状和未来发展方向。【方法】 利用Databib开放注册数据, 分析科研数据知识库的国别、建立时间、学科领域、隶属机构类型、开放度等分布, 并利用GenBank、Dryad、Figshare三个典型数据知识库分析对比科学数据库的服务特色。【结果】 科研数据知识库无论在开放趋势还是在服务模式都呈现积极上升和丰富化态势, 但在标准化集成化管理和多样化服务模式方面仍有重要发展潜力。【结论】 科研数据知识库已有良好的发展基础, 但应在基于科研活动全生命周期的科研数据规范化管理和开放科研数据应用机制方面加大研究和发展力度。

关键词: 数据知识库; 机构知识库; 数据管理; 数据服务
中图分类号:G250 文献标志码: 文章编号:2014-2-25-31
Research Review on the Research Data Repositories
Liu Feng1,2,3, Zhang Xiaolin1, Kong Lihua1,2,3
1National Science Library, Chinese Academy of Sciences, Beijing 100190, China
2Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China
3University of Chinese Academy of Sciences, Beijing 100049, China
Abstract

[Objective] To discusses the current status and future directions of Data Repositories (DR).[Methods] Using Databib data, this paper analyses the distributions of DR in terms of country, set-up time, academic field, organizational types, and openness, and then uses GenBank, Dryad, and Figshare to demonstrate DR services.[Results] The study reveals the increasing openness and constant service enrichment of DR, and great potentials in standardizations and integrations.[Conclusions] DRs are in full development, but there are strong needs for further research and application in research lifecycle based data management and open data standards and tools.

Keyword: Data repositories; Institutional repository; Data management; Data services
1 引 言

近年来, 随着数据密集型科研活动的蓬勃发展, 数据管理成为科研活动的重要组成部分, 继而对科学数据管理和科学数据知识库(Data Repositories, DR)提出了新的要求。本文通过DR现状分析来揭示现有DR的能力和局限, 为DR的发展提出建议。

2 数据知识库概述
2.1 定义与特点

DR往往被翻译为数据知识库、数据仓储、数据资源库、数据存储库等。在科研领域和科学数据管理领域, DR的重点往往在于支持科研活动、深化基于数据的知识再利用和再创造, 因此本文中将使用数据知识库。需要指出, 数据知识库本身将随着科技模式、科技环境、以及技术本身的发展而发展, 而且需要通过不同领域、不同应用、不同数据形态等多角度个性化地发展, 因此本文比较开放地定义数据知识库为以存储和管理“科研数据”、支持科研活动及其知识创造的数字知识库, 其中科研数据是指通过采集、实验、观察、整理而形成, 用于科研分析并最终形成科研成果的数字数据[ 1]

数据知识库承担不断发展更多的数据管理、数据应用的责任, 包括:

(1) 支持对科学数据集的存缴、格式处理、内容描述、长期保存等;

(2) 提供查询、调用、显示等基本服务;

(3) 往往提供对数据进行转换、融汇、可视化等服务或工具;

(4) 可能提供支持数据管理、协同处理、应用控制等服务;

(5) 可由某个机构、领域或者公共第三方建立。

2.2 数据知识库类别

目前, 数据知识库主要分为机构数据知识库、学科数据知识库、多学科数据知识库以及特定项目数据知识库4类[ 2], 如表1所示:

表1 数据知识库分类说明

其中, 就数据服务的开放性而言, 学科数据知识库和多学科数据知识库由于面向广泛的科研群体, 开放性最强, 而机构数据知识库和项目数据知识库往往局限于相应机构或项目; 就服务学科领域的深度而言, 学科数据知识库面向特定学科领域、且往往是长期服务, 表现出更强的系统化与专业化服务能力; 就服务学科领域的广度而言, 多学科数据知识库和机构数据知识库明显更有优势。

2.3 数据知识库目录系统

面对越来越多的各类数据知识库, 发现和利用合适的知识库成为一种挑战, 科研数据知识库注册与目录系统应运而生。当前比较知名的这类系统包括OAD[ 3]、re3data.org[ 4]、Databib[ 5]等, 如表2所示:

表2 典型数据知识库注册目录系统比较

另一方面, 科技发达国家以及一些国际组织结合政府数据和科研数据开放利用的要求, 积极建设自己的数据门户, 帮助人们发现和利用政府数据和政府资助科研项目数据, 如表3所示。由于政府本身往往是各类数据的主要生产者, 也是科技研究的主要资助者, 这些数据门户已经成为所在国最重要的数据目录。

表3 主要科技大国及世界组织数据门户列表
3 基于Databib的数据知识库分布分析

为了全面了解国际科研数据知识库的发展现状, 笔者对Databib注册的595个数据知识库(截至2013年9月27日[ 6])进行了多角度统计分析。

Databib作为专门的数据知识库注册系统, 力图收集和描述全球有重要价值的数据知识库, 其内容具有一定的代表性。当然, 由于数据知识库本身在迅速发展中, 而且Databib 采取自愿注册, 不同国家的参与度也不一样, 因此它的广泛性、准确性存在一定局限, 基于它的分析主要提供大致的场景而非绝对的数据。

3.1 按国家分布统计

数据知识库按国家分布统计如图1所示。以美国、英国等国在科研数据知识库数量方面具有较大优势, 包括中国在内的广大发展中国家还存在很大差距。

图1 数据知识库按国家分布统计

3.2 按建设年代及年度统计

对标有建设年份的433个数据知识库记录统计发现, 建于2000年前的数据知识库占45.27%, 2000年以后的占54.73%, 可见21世纪以来, 各国数据知识库发展建设迅速。笔者进一步分析了2000年以后的各年度数据, 如图2所示, 可见2000年以来数据知识库建设的发展速度总体相对平稳。

图2 2000年以来数据知识库建设情况统计

3.3 按学科领域分布统计

数据知识库按学科领域分布统计如图3所示, 生物、环境、地球科学等的数据知识库分布较为广泛, 农业等领域分布相对较少。应积极鼓励各个领域加强数据知识库研究建设。

图3 数据知识库按学科领域分布统计

3.4 按知识库类型统计

图4所示, 隶属于学科、政府、机构的数据知识库占了绝大多数, 而多学科或隶属于商业、企业的科研数据知识库占据比例非常有限。

图4 数据知识库按类型统计

3.5 按开放程度统计

根据数据知识库对内容的开放获取、开放重用、开放存储许可, 统计如图5所示。在Databib登记的多数数据知识库允许开放获取和开放重用, 但只有部分允许开放存储。当然, 这些结果与Databib更关注开放数据库有密切关系。

图5 数据知识库开放程度统计

3.6 按开放趋势统计

笔者分析了1983年以来建设的数据知识库的开放获取及开放重用许可情况, 分析了2000年以来建设的数据知识库的开放存储状况(因为开放存储本身的开展较晚), 去除上下限极值后的结果如图6所示, 可见数据知识库的开放获取和开放重用有较为明显的上升, 开放存储稳中略有上升。

图6 数据知识库开放趋势统计

4 数据知识库实例分析

为了深入理解科研数据知识库的服务模式与特色, 笔者选取了国际范围内应用广泛的三个数据知识库GenBank[ 7]、Dryad[ 8]和Figshare[ 9]做进一步分析。

4.1 GenBank

(1) 简介

GenBank是美国国家生物技术信息中心(NCBI[ 10])建立的基因序列数据库, 致力于收集所有公开可用的DNA序列数据, 为科研人员提供大规模基因组测序数据。作为国际核苷酸序列数据库协作组织的重要成员之一, 为保证数据的覆盖面, GenBank与该组织的其他两个成员日本DNA数据银行(DDBJ[ 11])和欧洲分子生物实验室(EMBL[ 12])建立了相互交换数据的合作关系。

(2) 服务特点

①采用序列标识符及标注元数据信息检索GenBank序列数据;

②采用基于Web的提交工具BankIt、基于FTP的客户端工具Sequin;

③采用NCBI程序组件接口检索、连接、下载序列数据, 提供专门的检索工具Nucleotide;

④采用BLAST(基础的本地比对检索工具)比对查询GenBank序列数据;

⑤对提交的序列数据类型及内容组成有专门的格式要求;

⑥提交者随时可更新修正序列数据;

⑦提交者可指定序列数据的发布共享的时间;

⑧提交者可因版权、专利等提出保护要求, 可不提供公共访问。

4.2 Dryad

(1) 简介

Dryad 国际数据知识库接受与出版的同行评议论文密切相关的科研数据集。 它对数据格式没有专门要求, 对提交的数据文件都给予DOI标识。Dryad与TreeBASE[ 13]、GenBank[ 7]、DataONE[ 14]结成合作伙伴, 相互之间可以进行数据交换。

(2) 服务特点

①支持灵活多样的数据格式、简单的提交模式和多层次的安全访问控制;

②支持与期刊论文和特定数据知识库(如GenBank)的数据关联;

③为数据对象分配DOI标识, 便于数据引用;

④提供人机两种数据索引及检索接口, 提升数据的可见性;

⑤数据内容可以自由下载和重用;

⑥全程监护数据文件与元数据, 保证数据的有效性;

⑦提交者可以自由更新数据文件;

⑧与CLOCKSS合作进行数据长期保存, 可迁移数据格式到最新版本, 保证数据可无限期访问。

4.3 Figshare

(1) 简介

Figshare为科研人员提供发布各类研究产出的平台, 以便研究成果可以更好地被引用、共享和发现。Figshare接受图表、媒体(包括音频)、海报(Poster)、论文(包括预印本)和多文件(文件集)、数据集等, 为所有内容对象分配DOI, 采用CreativeCommons许可协议共享数据, 并且采用Amazon基于云的数据管理系统来保证数据存储的安全和可靠性。

(2) 服务特点

①支持研究者以可引用、可检索、可共享的模式发布数据;

②提供无限的公共存储空间和1GB的私有自由存储空间;

③提供简洁的数据上传模式, 支持多种数据格式的快速上传;

④所有Figshare上的对象被自动分配DOI标识, 便于数据引用;

⑤所有图片和论文采用CC-BY许可, 所有数据集采用CC0许可;

⑥基于云数据管理服务模式, 支持桌面客户端上传工具;

⑦与CLOCKSS合作进行数据的长期保存;

⑧提交者可以在提交数据后自由更新数据文件;

⑨提供数据内容及功能的开放API接口。

4.4 综合对比分析

三个数据知识库的综合对比分析如表4所示。这三个数据知识库都支持开放获取、开放重用、开放存储, 支持数据集唯一标识、API接口、自由更新, 支持便捷的提交与检索入口。

表4 典型数据知识库实例对比分析
5 数据知识库发展的挑战

当前, 数据知识库的数量不断增加, 许多数据知识库已经能够提供丰富的服务。但是, 由于数据、数据管理实践、数据应用等的复杂性, 要有效发现、有效利用、集成融汇科学数据, 还面临一系列挑战, 例如元数据、数据格式、检索协议等的互操作性。因此, 《自然》杂志提出了Data Descriptor架构[ 15], 以数据描述符为核心, 通过一系列标准及框架映射实现多种数据知识库的有效整合, 并为科学数据及期刊文献的整合出版提供基础支撑服务平台, 如图7所示:

图7 数据知识库整合与出版框架[ 15]

另一方面, 笔者也注意到美国普渡大学的研究知识库PURR[ 16], 已经在数据知识库中嵌入科学数据管理规划功能和数据生命周期管理功能。前者根据美国国家科学基金会(NSF)的项目数据共享与管理计划要求, 提供数据管理计划规范文件、数据管理计划模板以及检查核对模块, 把数据管理关口前移, 支持科研人员从项目申请时就围绕项目目标和过程, 设计数据管理要求和流程, 并形成规范的甚至是计算机可读的数据管理计划。后者更是把数据知识库作为项目的数据管理平台, 支持项目组在项目进行过程中的数据存缴、转换、共享和发布管理等, 一方面支持项目组系统规范地管理数据和研究过程, 另一方面自然地把项目组层面的数据管理与机构层面的数据知识库管理有机结合, 有效解决了原来严重存在的这两个环节彼此割裂的问题。

国内的数据知识库建设也有了长足的发展, 当前重点集中在基础服务体系建设方面。以笔者所在的中国科学院计算机网络信息中心科学数据中心为例, 目前在数据资源集成、管理与服务方面已形成较为完整的软件服务架构, 例如科学数据自助管理方面的VisualDB[ 17]工具, 在数据整合与汇聚方面的数据资源与服务注册系统RSR[ 18], 在数据集成检索方面的科学数据搜索引擎Voovle[ 19], 在数据集管理方面的资源量统计系统Resstat[ 20]和数据服务监控与统计系统MSIS[ 21], 在科学数据参考咨询方面的DRS[ 22]系统, 同时正在云数据管理及基于社交网络的数据交换共享平台研发上进行积极探索。

考虑到科学数据管理本身的复杂性和科学数据发现与应用的复杂性, 数据知识库还需要进一步发展。一方面, 应向普渡大学PURR学习, 将科研活动、数据管理、数据知识库三者密切结合, 梳理和健全围绕科研活动生命周期的科学数据管理的需求与规范框架, 分析科研数据生产、审核、处理、管理、应用整个谱段的利益相关者的复杂需求, 建立科研数据的权益管理框架及科研生命周期驱动的科学数据管理范式, 建立汇聚科研活动、数据管理、数据知识库的新型管理与服务模式。另一方面, 积极适应开放科研环境和开放数据应用要求, 适应科学数据和科学文献的整合出版趋势, 以数据的开放存储、集成发现、互操作、开放利用等为目标, 支持以下“技术”方面的研究与应用实践: 数据集描述与引用; 数据出版; 数据关联发现; 数据溯源管理; 数据格式和元数据互操作; 数据开放检索协议; 数据权益保护和利用许可机制; 开放数据应用管理机制; 数据长期保存; 数据集和数据知识库登记; 海量数据资源集成整合, 等等。

参考文献
[1] The Edinburgh University. Data Repository: DataShare[EB/OL]. [2013-06-13]. http://www.ed.ac.uk/schools-depart-ments/information-services/services/research-support/data-library/data-repository/definitions. [本文引用:1]
[2] Pampel H, Vierkant P, Scholze F, et al. Making Research Data Repositories Visible: The re3data. org Registry[OL]. PeerJ PrePrints, 2013. DOI: 10.7287/peerj.preprints.21v1. [本文引用:1]
[3] OAD Data Repositories[EB/OL]. [2013-09-13]. http://oad.simmons.edu/oadwiki/Data_repositories. [本文引用:1]
[4] re3data.org. Registry of Research Data Repositories [EB/OL]. [2013-08-23]. http://www.re3data.org. [本文引用:1]
[5] Databib. Research Data Repositories[EB/OL]. [2013-08-17]. http://databib.org. [本文引用:1]
[6] DataCite Repositories[EB/OL]. [2013-08-13]. http://www.datacite.org/repolist. [本文引用:1]
[7] GenBank Home[EB/OL]. [2013-09-13]. http://www.ncbi.nlm.nih.gov/genbank. [本文引用:2]
[8] Dryad Digital Repository[EB/OL]. [2013-08-22]. http://www.datadryad.org. [本文引用:1]
[9] Figshare Repository[EB/OL]. [2013-09-04]. http://figshare.com. [本文引用:1]
[10] NCBI-National Center for Biotechnology Information[EB/OL]. [2013-09-12]. http://www.ncbi.nlm.nih.gov. [本文引用:1]
[11] DDBJ -DNA Data Bank of Japan[EB/OL]. [2013-09-08]. http://www.ddbj.nig.ac.jp. [本文引用:1]
[12] EMBL European Bioinformatics Institute[EB/OL]. [2013-09-10]. http://www.ebi.ac.uk. [本文引用:1]
[13] TreeBASE Repository[EB/OL]. [2013-09-05]. http://treebase.org/treebase-web/home.html. [本文引用:1]
[14] DataONE-Data Observation Network for Earth[EB/OL]. [2013-09-15]. http://www.dataone.org. [本文引用:1]
[15] Scientific Data to Complement and Promote Public Data Repositories[EB/OL]. [2013-09-10]. http://blogs.nature.com/scientificdata/2013/07/23/scientific-data-to-complement-and-promote-public-data-repositories. [本文引用:1]
[16] PURR-Purdue University Research Repository[EB/OL]. [2013-07-20]. https://purr.purdue.edu. [本文引用:1]
[17] 可视化关系型数据管理与发布工具[EB/OL]. [2013-08-21]. http://vdb.csdb.cn.(VisualDatabaseManageSystem[EB/OL]. [2013-08-21]. http://vdb.csdb.cn [本文引用:1]
[18] 科学数据资源与服务注册系统[EB/OL]. [2013-09-02]. http://rsr.csdb.cn. (Resources and Services Registry System[EB/OL]. [2013-09-02]. http://rsr.csdb.cn [本文引用:1]
[19] 科学数据搜索引擎[EB/OL]. [2013-09-15]. http://voovle.csdb.cn. (Search Engine of Research Data[EB/OL]. [2013-09-15]. http://voovle.csdb.cn [本文引用:1]
[20] 资源量在线统计系统[EB/OL]. [2013-09-16]. http://resstat.csdb.cn. (Data Resource Statistics System[EB/OL]. [2013-09-16]. http://resstat.csdb.cn [本文引用:1]
[21] 数据服务监控与统计系统[EB/OL]. [2013-06-09]. http://msis.csdb.cn.(ScientificDatabaseServiceMonitoringandStatisticsSystem[EB/OL]. [2013-06-09]. http://msis.csdb.cn [本文引用:1]
[22] 科学数据咨询服务系统[EB/OL]. [2013-10-13]. http://drs.csdb.cn.(DigitalReferenceServiceSystem[EB/OL]. [2013-10-13]. http://drs.csdb.cn [本文引用:1]