系统而全面地回顾第8届数字保管国际会议(IDCC2013),围绕“基础设施、情报、创新:启动数据科学的研究历程”的主题,与会者对机构和国家层面的研究数据管理、知识库/数据存档库、云服务、教育和培训、机密性/开放性研究数据、格式/标识符、交叉学科数据、艺术与人文科学数据、格式/元数据、数据出版等主题进行详细、深入而广泛的介绍、分析和讨论,呈现该领域的一系列理论与实践方面的研究成果、现状及挑战等。
This paper reviews the 8th International Digital Curation Conference systematically and comprehensively, centring on the theme of the “Infrastructure, Intelligence, Innovation: Driving the Data Science Agenda”, the conventioneers present, analyze and discuss the problems about the Institutional Research Data Management, National Perspectives in Research Data Management,Repositories/Data Archives, Cloud Services, Education & Training, Confidentiality/Open Research Data, Formats & Identifiers, Cross Disciplinary Data, Arts & Humanities Data, Formats/Metadata, Data Publication detailedly, deeply and extensively, which witness the research results, current status and challenges of the theoretical and practical aspects in this realm.
英国数字保管中心(Digital Curation Centre, DCC)作为数字信息保管领域的佼佼者,为整个英国高等教育研究领域的研究数据管理与共享做出了卓越的贡献,它的努力和成果也影响和推动了全球研究数据管理活动的发展。其每年一度的国际数字保管会议(IDCC),汇集了参与保管数据的所有学科和领域的个人、组织和机构, 为志同道合的数据保管者提供了一个分享和讨论的机会。
第8届数字保管国际会议——IDCC2013,于2013年1月14-17日在荷兰首都阿姆斯特丹召开,会议吸引了众多的数据创建者、管理者、使用者以及从事数据保管流程开发和培训的研究人员。本次会议在探讨研究数据保管的基础上,更提出了“基础设施、情报、创新:启动数据科学的研究历程”这样颇具引领性的主题[ 1]。
会议上来自不同领域的科学家论证了数据在科学研究中所发挥的重要作用。大英图书馆的Farquhar[ 2]介绍了机构学术资料数字化处理的过程、技术与成功案例,以及与其他社区的合作和未来的发展方向等。来自Cloud of Data的Miller[ 3]运用几个商业数据故事例证了大数据的情报潜力、洞察力及规模效用,包括过去Snow通过数据分析的方法发现引起霍乱的真正病因,以及现代Google流感趋势使用经过汇总的Google搜索数据来估测流感疫情等,都说明数据的无可替代的角色。德国阿尔弗雷德韦格纳研究所(Alfred Wegener Institute)的Pfeiffenberger[ 4]介绍了数据管理在海洋科学中的应用,海洋科学日渐成为基于大数据的研究,从传感器采集的数据集在海洋科学中占有重要地位,他还分析了数据在研究过程中的流向和应用场景,以及对数据从采集到存储到使用的相关要求。
与会者同时围绕“何为数据科学家”进行了广泛讨论,DCC的Lyon[ 5]认为:数据科学(Data Science)是一门在Web环境下的、以数据密集和数据驱动为特征的科学,它的工作流程、技术工具和出版物都与运用数据相关。数据占据重要地位,它可以被看作是商品、基础设施、研究基础或者工具。数据科学需要数据科学家来利用这些数据,数据科学家可能是数据工程师、数据分析师、数据图书馆员、数据管理人、数据新闻工作者、数据出版商或者户外数据工作者。其他来自华盛顿大学、英国数据档案中心(UK Data Archive)、Gigascience、Mastodon C的人员[ 6, 7, 8]分别从数据图书馆员、数据保管员、数据出版商的角度阐述了作为数据科学家所需的数据管理技巧,包括数据转换、操控、关联及合并数据资源,拥有分析数据的经验等。同时分析了大数据环境中需要做哪些事情以及现阶段人才的缺乏。
基础设施建设是一个被重点关注的主题,会上报道了欧洲生物信息学研究所(EMBL-EBI)的“21世纪生命科学及其信息基础结构——ELIXIR”项目,它为生物信息学建立了一个可支撑欧洲生命科学信息的基础结构,利用混合分布式系统架构,存储了大量分子生物学研究产生的数据[ 9]。同时莫纳什电子科研中心(Monash eResearch Centre)的Beitz[ 10]从机构角度研究了通过战略性投资进行基础设施建设来发展机构对研究数据的管理能力,在研究过程中,不论对研究人员还是研究机构,研究数据都起着十分重要的作用,因此对于研究机构来说,搭建良好的研究数据管理(RDM)平台是至关重要的,他重点介绍了莫纳什大学的研究数据管理平台的基础结构、工作流和数据管理策略等内容,并在最后总结了RDM的经验。欧盟科学与技术设施协会(Science and Technology Facilities Council,STFC)的Bicarregui[ 11]在题为“建设开放研究的数据基础设施:从政策到实践”的报告中,首先回顾了包括经济合作与发展组织(OECD)、EC(European Commission)、G8+5、Research Councils UK、Royal Society等多个资助机构对于研究数据共享与管理的政策,给出了一个基于其基本需求的数据共享视图;随后介绍了STFC的主要工作,描绘了以数据为研究中心的7C数据生命周期模型以及每个C所代表的具体内容,并介绍了汇聚13个欧洲研究机构的PaNdata联盟在e-infrastructure方面的工作;最后详细介绍了新兴的全球规模的国际研究数据联盟RDA的目标、任务、组织结构、进展。
研究数据如何实现“创新/应用”,是本次会议的另一个热点议题,加利福尼亚大学数据保管中心主任Cruse[ 12]强调要建立相关的服务及各类社区来支持数据密集型的科研活动。来自Digital Science的Thaney[ 13]对其组织机构进行了简单介绍,Digital Science是一家为科学研究服务的技术公司,致力于开发科学研究所需要的工具以提高研究效率,同时也向以科学家为服务对象的有前景的新企业和小企业提供风险投资,并与科学社区和利益相关者协同合作,以帮助改变科学工作的方式。
专题分会一包括机构研究数据管理(Institutional Research Data Management)、国家视角的研究数据管理(National Perspectives in Research Data Management)以及知识库/数据存档库(Repositories/Data Archives)三个分主题。
英国图书馆网络工程办公室(UK Office for Library Networking, UKOLN)及英国巴斯大学的Pink[ 14]从出资者的期望与机构现实的差距角度分析了数据管理挑战,介绍了工程与物理科学研究理事会(Engineering and Physical Sciences Research Council, EPSRC)的科研数据政策框架,以及JISC资助的科研360项目(Research360 Project)的路线图和执行情况。
爱丁堡大学的Rice[ 15]以其机构路线图为例展示了科研数据管理政策及实施过程;同时展示了数据管理的框架,包括数据管理规划、灵活有效的数据基础设施、数据管理服务、相应的支持(包括对科研工作者的支持和培训)等。
英国诺丁汉大学的Parsons[ 16]分6个方面介绍了科研数据管理的服务创建:项目管理和评价、政策和策略、科研数据管理(RDM)的需求和分析、RDM服务基础设施、RDM技术基础设施以及商业案例及其可持续性,最后列举了RDM调查的一些结果,并对数据备份、数据获取、数据共享的障碍等问题做了展示。
英国牛津大学的Rumsey等[ 17]介绍了数据发现服务(DataFinder)中所采用的一个实用的元数据解决方案,分析了数据发现服务的技术架构,及其在应对建立机构科研数据目录所面临的挑战上所能发挥的作用。同样来自牛津大学的Wilson[ 18]则介绍了牛津大学的科研数据管理现状,展示了2012年所做的关于科研人员及其对科研数据管理的认识的大型调查结果,进而提出了可持续性发展的解决方案,总结了科研数据管理的经验。
来自澳大利亚国家数据服务机构(Australian National Data Service, ANDS)的Groenewegen等[ 19]从其自身机构出发展示了澳大利亚的数据管理实践,介绍了ANDS的机构角色、职能、部门历经的变化以及所提供的服务、工具等,重点介绍了它在数据管理方面的实践,包括:脉冲星数据存档、对抗生素耐药性磁带库、Life Pattern项目、RedMap项目以及澳大利亚国家语料库等,最后简要地介绍了即将成立的科研数据联盟(ANDS、NSF、iCORDI(EU))。
美国北德克萨斯州大学的Halbert[ 20]从DataRes项目识别的挑战、机遇以及新兴模式等方面预测了科研数据管理的未来,介绍了DataRes项目和iCAMP项目以及二者所使用的方法,两个项目的重要成果以及2013年计划继续进行的调研活动,最后简要介绍了丹顿宣言(Denton Declaration)。
来自JISC的Hodson[ 21]全面论述了JISC的机构科研数据管理服务。介绍了JISC的管理科研数据的计划及第一期和第二期共35个项目的进展情况;同时介绍了数据管理支持服务的组成,重点探讨了面临的三个主要挑战:机构层面的科研数据管理支持服务的协同并进、可持续性和成本、支持研究数据发现的国家级基础设施。
DCC的Pryor[ 22]介绍了DCC与英国高等教育机构合作来提升其数据处理能力的过去、现在和未来。在2010年-2013年的业务规划上,DCC计划帮助21所大学构建数据管理和保管的能力和技术基础设施,目前已有19所机构启动计划,DCC不但提供专业知识和技术咨询等指导,还配备有三个工具——DAF、CARDIO、DMPonline来进行需求评估和提供研发支持。
研发活动的频繁开展使得资源越发紧张,这就需要证明项目或计划所能带来的收益,以获得主办机构的支持,证明投资的合理性并促进部门间的合作,JISCMRD团队的Molloy等[ 23]介绍了该项目所提出的一种更为结构化的新方法——MRD02,来更好地完成上述任务。
美国伊利诺伊州立大学的Weber等[ 24]通过定义研究数据存档的产品和系统特性,在“服务的数据集合”、“服务的文件”等14个基于使用的指标之中,筛选确定了与仓储库影响力有关的三大重要指标:提供作品获取的效率(不是数量)、下载的密度(不是原始计数)、数据集合的“成熟度”(不是规模),以全面评估和反映仓储库的影响力。
很多研究型大学都在面临研究数据泛滥的困境,有些会寻求图书馆和机构知识库作为解决方案。但是,有些挑战不是传统的基于文档的机构知识库所能应对的,而可持续的环境-可操作的数据(Sustainable Environment- Actionable Data, SEAD)虚拟存档可能是应对科学数据“长尾现象”的一种解决方案。美国印第安纳大学的Plale等[ 25]以SEAD虚拟存档为例提出要构建一个机构知识库联盟以实现可持续科研活动中的数据长期保存的观点,重点描述了支持可持续科研活动的虚拟存档的要求、政策和架构,不仅面向当前科研数据的保存工作,也为未来广泛的获取和使用提供支持。
GESIS莱布尼兹社会科学研究所(GESIS Leibniz Institute for Social Science)的Schumann[ 26]介绍了其机构开展的社会科学数据存档服务。GESIS是一个专注于社会科学研究数据存档的机构,其保存目标是要能够支持数据共享和重用以及国际性的数据交换。作者首先展示了GESIS的存档流程及传统关注范围,讲述其将扩大在数字保存领域中的影响力,并参与永久标识符、元数据标准、关联数据等领域。可信度不仅是新仓储所要面临的问题,也是GESIS数据存档这些已确立的仓储机构所要关注的问题。随后作者列举了欧洲审计和认证框架,并说明了具体实践步骤,这一获得广泛认可的数据存档库正在迈向一个新的信任等级。
密歇根大学的Yakel及OCLC研究所的Faniel等[ 27]就数字仓储的可信度撰写了一份研究报告,首先介绍由IMLS(Institute of Museum and Library Services)赞助的DIPIR项目,包括其研究目的、对象及受众群体(详细信息参见:http://www.dipir.org)。进而详细讨论了数字仓储的可信度问题,在理论框架上,作者认为信任由仓储库的可信赖的行动和外部利益相关者所表达的信任两部分构成,进而介绍了每个部分的关键因素,并详细解释和列举了各个关键因素的具体内涵及其对信任的影响。最后呈现了面向三个学科不同层次研究人员开展的调研结果:仓储库的行动,比如元数据创建、资源遴选等非常重要,并列出了受访者对各级信任影响因素的评价结果。
专题分会二包括云服务(Cloud Services)、教育和培训(Education & Training)以及机密性/开放性研究数据(Confidentiality/Open Research Data)三个分主题。
德国佛雷堡大学的von Suchodoletz等[ 28]重点介绍了一种面向多种数字对象的云获取服务——仿真作为一种服务(Emulation-as-a-Service, EaaS)。首先描述了仿真作为数据对象获取方法的背景、原理及优势,进而提出了仿真策略所面临的一些问题,以及可以克服这些瓶颈的云仿真模式。最后介绍了首先采用云仿真的德国的bwFLA项目,例证了云仿真的可行性及实用性。另外LOCKSS项目的Rosenthal等[ 29]也提交了《云中的分布式数字保存》的研究报告。
随着科学实践活动和数据管理要求的不断推陈出新,针对数据管理的专业知识和技术的需求不断上升,科学家和数据管理从业者都期望能够有正规的教育和培训课程和项目。
美国国家大气研究中心(National Center for Atmospheric Research, NCAR)的Kelly[ 30]以项目实例论述了科研数据管理教育的模式发展。由IMLS资助,伊利诺斯州立大学信息学院与NCAR合作开展了面向研究中心的数据管理教育项目(Data Curation Education in Research Centers, DCERC),包括一些实习项目及研究生培训等。
美国普渡大学的Carlson等[ 31]重点介绍了数据信息素质培养计划(Data Information Literacy Project)以及康奈尔大学、普渡大学等5个案例研究信息,包括文献回顾、访谈、制订教育计划、开展教育活动等的实施步骤;同时还列举了多种信息素质教育方法及未来措施,包括开展教育活动、评估学生及教职工的满意度、通用实践经验建模、出版和发布相关资料和工具等。
英国南安普顿大学针对本校的研究数据管理工作开展了相关的培训和教育工作,主要包括向研究生新生发放研究数据管理小册子和开展相关讲座,还通过各种渠道收集学生反馈以进一步提升培训效果[ 32]。
由三所荷兰技术大学图书馆联合启动的3TU.Datacentrum项目为了配合其数据存储和数据服务的运行,开展了主要针对图书馆员工的培训工作,他们设计了包括研究数据管理现状、数据管理基础理论、相关专业技能、数据采集和管理咨询等4大模块培训课程[ 33]。
虽然科学研究需要研究成果的可复制,但这种复制是受到一定限制的。而今科学研究中使用了大量受限获取的数据,不仅研究结果,数据源也可能是隐藏的,这就增加了验证的复杂性以及人们对研究结果普适性的担忧。目前的问题主要集中在数据集的安全保管力度不足、不一致的或不存在唯一标识(Identification)、需要选择性地隐藏数据和元数据等方面。
美国密歇根大学的Lagoze等[ 34]就隐私数据的数据管理进行了详细论述,同时介绍了一种可扩展的数据文件编制和获取知识库(Comprehensive Extensible Data Documentation and Access Repository, CED2AR)的全面解决方案。美国耶鲁大学的Peer[ 35]在其“参与者保密性和开放性的研究数据”报告中介绍了启动于2010年的ISPS Data Archive项目,该项目针对小型专业化社团,帮助他们进行数据的获取、保存、共享、关联数据、检查数据以及开放获取,考虑了隐私与透明性、标准和管理等问题,提供了当前可行的几种解决方案。
在社会科学数据的存档及获取上,据英国政治与社会研究高校联盟(Inter-university Consortium for Political and Social Research, ICPSR)的Lyle等[ 36]介绍,英国政治与社会研究高校联盟正面临着巨大的机密数据保存和访问的压力,对此,ICPSR提出要从以下三个方面来保证社会科学数据的共享。
(1)数据的安全:通过对数据的适当修改避免隐私泄露;
(2)地点的安全:通过安全的保存处理环境以及虚拟的访问环境来保证数据安全;
(3)人的安全:通过员工培训以及相关的用户条款保障数据安全。
最后,英国数据档案中心(UKDA)的Corti[ 37]就UKDA的数据处理方式对社会科学数据的披露机制进行了讨论。UKDA的主要职责之一是提供政府和研究机构公开数据的对外访问,保证数据的隐私安全和完整性是其主要的目标。为了达到该目标,UKDA对其不同类型的数据进行了不同程度的匿名化处理。Corti对匿名处理的基本要点、规则和相关策略进行了介绍,并指出哪些机构和人员需要参与到数据匿名的工作中来。
专题分会三包括格式/标识符(Formats & Identifiers)、交叉学科数据(Cross Disciplinary Data)、艺术与人文科学数据(Arts & Humanities Data)、格式/元数据(Formats/Metadata)、数据出版(Data Publication)等分主题。
意大利特兰托大学的Bortoli等[ 38]首先介绍了持久标识符的研究背景、标识符从非数字对象的非数字标识到网络环境下数字化和非数字化的对象的数字标识的发展过程,并对Linked Data (Cool URIs)和持久标识符(Persistent Identifiers, PIDs)进行了对比分析,重点介绍了OKKAM项目为解决实体及其ID的绑定关系的持久性所构建的实体名称管理系统及当前的研究重点。
Spencer[ 39]介绍了“用于验证和评估格式识别工具和签名的基干语料库创建”,通过创建并维护数字对象的一个测试语料库,用已知的来源和特征去测试各种文件格式识别和验证工具的识别和表征信息,以此为各种工具提供额外测试和验证的方法。
欧盟委员会联合研究中心(European Commission Joint Research Centre, JCR)能源和运输研究所(Institute for Energy & Transport, IET)的Austin[ 40]围绕工程材料数据的标准消息格式撰写了一份研究报告,建议通过工程材料数据的ICT标准提供一种通用语言以促进系统的互操作性。与此相关的两次研讨会中,ELSSI-EMD从技术可行性、业务案例、标准化等方面审查了从标准文档中提取ICT标准进行材料测试的可行性;SERES展示了具有技术可行性的标准数据格式,目的是开发ICT标准并演示基于该标准的工程材料试验数据的报告格式。
科学与技术设施理事会(Science and Technology Facilities Council, STFC)的Bicarregui等[ 41]从大科学的特点出发,讨论了大数据管理的基础设施及关键问题,重点介绍了MRD-GW项目及CCSDS 650.0-OASI参考模型的框架,包括CCSDS 650在政策框架、保存目标、技术、认证、实用性、数据发布、软件保护等几个方面的具体内容。最后对大小科学的边界进行了讨论,指出大科学不是简单的规模问题,大科学的数据采集面临重大的技术挑战,下一代数据管理尚未解决技术保护问题,解决技术难题后,“大科学”的资源库将成为“小科学”的资源库。
荷兰马克斯普朗克研究所的Wittenberg[ 42]以EUDAT项目为例介绍了新的跨学科的科学数据基础设施。EUDAT项目由欧盟资助,其目标是提供一个协作式数据基础设施(Collaborative Data Infrastructure,CDI),通过灵活的、可持续的方式,跨越地理区域和学科界限,满足研究人员对数据存储容量和能力的需要。EUDAT原型服务建设正在进行中。报告重点介绍了在安全的数据复制、HPC Pipes(使用HPC机器计算存储的数据)、整合的元数据域、研究人员的简单存储等几个方面的进展情况。报告中对多个学科的数据场景进行了具体的分析,对项目面临的现实问题的调研结果进行了介绍和分析,此外还列举了RDA当前的工作重点,认为RDA对跨学科企业将有很大的影响(它是自底向上驱动的“数据实施者”,重点是能通过共享和互操作的方式消除固有的屏障),并希望RDA也会影响社区组织的数据。
荷兰内梅亨大学的van den Heuvel[ 43]介绍了CLARIN-NL数据中心的保管服务,该中心主要保管由个人研究者和研究团队所拥有的资源并提供咨询;报告分析了研究项目数据保管的理想状态以及可行性、知识产权状况、如何实现多种数据类型的互操作以及标准数据格式,并通过CMDI元数据实现了从数据到目录数据的语义化连接,同时通过分配永久标识符使得数据可以被访问和引用。
英国创意艺术大学的Garrett等[ 44]对KAPTUR项目进行了介绍,它是VADS(Visual Arts Data Services)下的JISC基金项目,旨在加强人们对艺术领域研究数据管理系统相关工具和技术的认知和应用。作者详细介绍了项目在背景环境评估、用户需求汇总、技术审查和遴选三个阶段所使用的方法以及调研结果,展示了两轮软件选择的过程并推荐了DataStage (Part of the DataFlow Project)、Figshare、CKAN等系统,还介绍了成本估算模型及其所需要考虑的几个方面,全面系统地展示了如何识别和选择支持视觉艺术的研究数据的保管和保存所需要的基础设施。
DCC的Guy等[ 45]结合KAPTUR项目以及包括对研究人员开展的调查和访谈、数据管理规划、培训和推广等活动,探讨了面向创意艺术机构的“研究数据”的定义的问题。
伊利诺伊大学香槟分校的Yarmey等[ 46]以长期生态研究网络(Long Term Ecological Research Network,LTER)为例描述了用于科学元数据标准开发过程的一种参与框架,以鼓励多方参与来完善标准,LTER所建立的生态元数据语言(Ecological Metadata Language,EML)具有层次性和参与性两个特点,可以保证元数据标准能够不断被改进和完善。
DNAS的Hoogerwerf[ 47]聚焦于OpenAIRE及其面临的如何将不同学科的出版物、数据及语境信息进行有效关联的挑战。OpenAIRE是第七框架下致力于构建服务于研究人员、档案人员的基础设施以提供对开放获取设备及科研产出的透明访问的项目,在项目二期中,要实现将出版物与相关数据及其他语境信息进行关联。各个学科独自为营构建这种关联关系时,会面临利益相关者、概念及工作流程等多种多样的问题,缺乏统一的底层支持。OpenAIRE通过关注不同学科实例间的共性,提出了一个角色、责任和服务明确的通用解决方案以桥接不同学科的实践。
STFC的Callaghan等[ 48]认为数据对于科学极其重要,互联网时代人们虽然能够轻松快捷地共享和发布数据,但是在数据持久性、数据及元数据质量等方面仍然存在比较严重的问题。作者以英国莱斯特大学的“地质科学研究数据的公开评审和同行认证(Peer Review for Publication & Accreditation of Research Data in the Earth Sciences, PREPARDE)”项目为例,介绍了地质研究数据发布机制,列举了研究人员发布数据文件所需的典型流程,对传统的联机期刊出版模式和数据出版的重叠式期刊模式进行了对比,同时还讨论了数据论文及数据集的关联以及仓储库的可信度及审计问题。
荷兰数据存档与网络服务(Data Archiving and Networked Services, DANS)的Doorn等[ 49]针对近年多起数据造假案,探讨了科学界在数据造假管理控制上存在的问题,他认为数据共享不能防止数据造假,但它增加了研究的透明度,因此可以减少欺诈的风险。他描述了当前数据控制的机制及其现状,并重点介绍了数据认证标准(Data Seal of Approval, DSA)。
随着大数据时代的来临,数据在社会中扮演着无可替代的角色,大规模、快速的、各式各样的数据给商业带来了巨大的利益,但同时也存在各种隐患,给管理和应用带来了更多的挑战。
这里的数据不只包括传统意义上的实验室数据或野外观测数据,还包括视频游戏和虚拟世界等,而无论是艺术、人文科学、社会科学还是实验科学信息,所面临的问题都是跨学科的。数据保管人员需要在数据的整个生命周期对数据进行保持、维护并增加其价值,减少对其长期价值的威胁,减轻因数字陈旧带来的风险,并提高所有目的的重用潜力。
正如DCC的负责人Hein等[ 50]在闭幕致辞中所述:IDCC是一条通向智慧之路,是专家们分享经验的盛会。这里汇集了众多的数据创建者、管理者、使用者以及研发人员,共同应对各方面的问题和挑战,分享研究数据保管的最佳实践和工具技术,展望数据保存的未来发展,激发更多的机构和个人关注研究数据的管理和应用。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|
[32] |
|
[33] |
|
[34] |
|
[35] |
|
[36] |
|
[37] |
|
[38] |
|
[39] |
|
[40] |
|
[41] |
|
[42] |
|
[43] |
|
[44] |
|
[45] |
|
[46] |
|
[47] |
|
[48] |
|
[49] |
|
[50] |
|