跨领域数据审编(Curation)流程研究*——以环境健康数据为例
杨林, 李姣, 侯丽, 钱庆
中国医学科学院医学信息研究所 北京 100020
钱庆, ORCID: 0000-0002-9072-586X, E-mail: qian.qing@imicams.ac.cn

作者贡献声明:杨林: 研究框架设计与实现, 论文撰写; 李姣: 审编流程设计与结果分析, 论文修改; 侯丽: 环境健康数据的收集与整理; 钱庆: 研究的总体设计与研究结果讨论。

摘要
目的顺应环境健康跨领域科学数据管理需求, 探索跨领域数据的审编工作流程, 为推进相关领域数据管理工作提供可行性方案。方法基于环境健康领域研究, 在DCC审编生命周期模型指导下, 构建环境健康数据审编工作流程, 明确各审编模块的内容以及人工审编、自动化审编的边界。结果应用构建的工作流审编气象环境数据与医院就诊数据, 可支撑医药卫生知识服务系统中环境健康数据部分的审编工作, 结果显示环境健康数据审编工作流程具有一定的可操作性。【局限】由于需求的多样性, 流程在实际操作时需要在数据模型、数据规范化等方面进一步细化。结论环境健康数据审编流程能够有效地组织不同专业背景的审编人员, 兼顾数据质量和数据规模两方面的考量, 在解决跨领域数据审编方面具有一定的可操作性。
关键词: 审编流程; 跨领域数据; 环境健康
中图分类号:TP311 X18
Cross-disciplinary Data Curation Workflow: A Case Study of Environmental Health Data
Yang Lin, Li Jiao, Hou Li, Qian Qing
Institute of Medical Information, Chinese Academy of Medical Sciences, Beijing 100020, China
Abstract

[Objective] This study aims at designing an appropriate curation process to deal with cross-disciplinary data management in environmental health field in a stable and sustainable manner. [Methods] Referring to Digital Curation Center (DCC) Curation Lifecycle Model, the authors formulate environmental health data processing procedure in a standardized workflow and make the contents of each module with rigorous definition. [Results] The workflow is applied to curate climate data and hosptial registry data, that provides backend support for the environmental health part of the medical knowledge service system. The result shows it could practically help manage cross-disciplinary data. [Limitations] Due to the diversity of demand, the workflow needs further specification in data model, data standardization, etc. [Conclusions] The workflow could effectively incorporate curators with different backgrounds, take into account both the data quality and data size, and help curate cross-disciplinary data.

Keyword: Curation workflow; Cross-disciplinary data; Environmental health
1 引言

随着开放科学(Open Science)、开放政府(Open Government)的发展, 科研人员越来越依赖开放数据[1], 同时数据开放共享又进一步促进学科之间的交叉融合, 推进跨领域的科学研究发现[2]。如何将这些异构的、分布的跨领域数据收集整理成统一规范的高质量数据, 有效地管理并开放共享给科研人员以支持领域研究, 是需要解决的问题。

“ Curation” 为解决这一问题提供了一种可行思路。这一术语在2001年首次被提出[3], 强调对数据积极、持续地管理, 达到数据增值、再利用的目的[4, 5, 6]。不同领域的研究人员从多种角度对“ Curation” 进行解读, 产生了多样化的中文翻译, 包括“ 监护” [7]、“ 管护” [8]等。其中在生物信息领域, “ Curation” 特指准确并全面地表示知识, 为科学家提供便捷的数据访问, 为计算分析提供基础[9], 并在第8届国际生物审编会议(The 8th International Biocuration Conference)上将其中文翻译为“ 审编” [10]。该领域由专职审编人员(Curator)开展数据管理、关联揭示工作, 专业性强, 数据质量高, 并且这种揭示深入到了内容层面, 发掘潜在关联[11], 能满足科研人员对科学数据的需求。因此, 本研究采用“ 审编” 作为“ Curation” 的中文翻译, 并沿用其内涵。

本文选取环境健康跨领域数据审编为切入点。气象环境变化对人体健康的影响, 尤其是空气污染物给人们带来的健康危害, 引起了科学家的高度关注, 积极收集数据开展环境健康关联分析研究, 探索环境健康要素与疾病高发之间的关联关系[12, 13, 14]。但这些数据通常以不同的数据格式、数据标准分布在不同的服务器或系统中, 同时跨学科的数据特点使得数据在处理和关联上比单一领域数据更具挑战性。有研究指出, 缺乏时间与空间相适应的数据是该领域的瓶颈之一[15]。本文在审编生命周期模型指导下, 围绕环境健康科研人员需求, 探索跨领域数据的审编工作流程, 为推进相关领域数据管理工作提供解决方案。

2 相关研究
2.1 数据审编及其工作流程

数据审编(Data Curation)不同于数据归档(Data Archiving)和数据保存(Data Preservation)[16], 其本质是以规范化的表达方式, 准确、全面地表示数据和知识。审编人员获取原始数据和元数据, 并确保数据的完整性和语法互操作; 围绕数据检索相关文献、提取相关知识; 应用本体或受控词表将非结构化知识进行结构化; 通过不同数据库之间标识符、术语映射等方式标注新数据, 实现不同数据之间的关联[11]。为了确保审编工作的科学性、严谨性, 通常遵循一定的工作流程, 即明确入口数据对象、获取方式、数据筛选标准, 厘清中间处理环节、具体操作步骤、操作人员、出口数据格式与内容, 以及数据处理工作流程控制和质量控制。工作流通常面向具体应用, 可以是关注某类、某几类数据(如基因数据、蛋白数据), 也可以是某种、某几种关联关系(如治疗关系、隶属关系)。

为了规范工作流的构建, 不同的组织和机构从不同角度描述数据从产生、收集、描述、存储、发现、分析到再利用的整个生命周期, 产生了若干数据审编模型, 包括数字审编中心(Digital Curation Centre, DCC)的审编生命周期模型(Curation LifeCycle Model)[17]、数据文档倡议(Data Documentation Initiative, DDI)的组合生命周期模型(Combined Life Cycle Model)[18]、英国数据仓储(UK Data Archive, UKDA)的生命周期模型[19]等。这些模型在应用的时候需要根据应用场景、实际条件等情况进行适应性调整才能确保数据审编活动顺利、有序地进行[20]

由于审编工作对数据理解、管理、关联揭示等的专业性要求, 使得审编人员具有不可替代性, 并逐步发展成为一种职业[21]。随着大数据时代的出现, 不断增长的数据规模与有限的人工这一矛盾凸显[22]。一种有效的解决方案就是在审编工作流程中嵌入自动化手段, 形成自动审编与人工审编相结合的策略。例如UniProt将数据库分为UniProtKB/TrEMBL和UniProtKB/ Swiss-Prot两个部分, 前者用于存放自动审编数据, 后者存储基于自动审编结果生成的人工审编数据, 应用C4.5决策树算法自动发现标注规则, 并与人工发现的规则进行校验[23]

2.2 环境健康数据审编过程标准化的可行性

环境健康领域相关的科学研究, 不论是分析大气污染物与健康效应之间的关联关系还是探讨极端天气对健康的影响, 在研究数据和分析处理流程方面均存在一定的潜在模式。

(1) 在数据对象方面, 通常涉及气象环境和医学两个学科领域的数据。其中, 气象环境数据主要包括气温、湿度、风速、日照等气象要素数据, 以及PM2.5、PM10、SO2、NO2等空气污染物监测数据, 具有时效性强的特点。医学数据通常是事件性数据(Health Events)[24, 25], 并且面向具体疾病, 如呼吸系统疾病、心脑血管疾病等。

(2) 在数据收集方面, 研究人员主要从监测站、气象局、环保部门等数据所有者处获取气象环境数据, 通过医院、诊所、卫生部门[26]、医疗信息系统等途径获得健康数据。数据评估主要涵盖质量控制[27, 28, 29]、数据代表性[30]、噪音数据清理[31]以及隐私处理[24]等4方面。

(3) 在数据分析与挖掘方面, 依据不同的研究目的(面向特定疾病、面向特定年龄段、面向特定地区等)需要不同的目标数据集, 研究人员通常需要对数据采样[32], 基于病因、地区、时间、年龄等维度进行分类或分组, 或构建整合数据集等, 再应用描述性统计(Descriptive Statistics)、相关性分析、时间序列分析、敏感性分析(Sensitivity Analysis)等方法探索数据。在分析过程中常使用不同统计模型[33], 并且研究人员往往会借助R、SAS[34]、面向特定需求定制开发的软件等自动化工具辅助分析。

(4) 在数据开放共享方面, 典型代表是美国政府数据开放平台(data.gov)的气象主题平台(Climate.data. gov)。该平台于2015年4月推出了健康(Human Health)子主题[35], 用于发布气候变化对公众健康影响的相关数据和工具。这些数据和工具的结构化描述和组织遵循data.gov统一的数据模型。

环境健康领域的数据特点, 以及数据在采集、处理、分析等环节的潜在模式、方法和技术, 使得构建标准化的跨领域数据审编流程成为可能。

3 环境健康数据审编流程构建

数据审编模型中具有代表性、并被广泛接受的是DCC的审编生命周期模型。该模型包含8个核心环节, 即概念化(Conceptualize)、创建或接收(Create or Receive)、评估和选择(Appraise and Select)、接纳(Ingest)、长期保存行为(Preservation Action)、存储(Store)、获取使用和再利用(Access, Use and Reuse)、以及转换(Transform)[17]。笔者以此为指导, 探索环境健康跨领域数据审编的流程。

3.1 审编流程构建方法

(1) 从研究文献出发, 选取与环境健康相关的、具有代表性的研究文献, 从数据来源和分析处理方法两个角度进行分析与归纳, 了解领域科研人员的数据需求, 提取数据特点、数据处理各环节的共同点。

(2) 选取DCC生命周期模型为指导框架, 将环境健康数据处理的关键步骤进行碎片化, 与DCC模型核心环节的功能模块进行映射, 明确各环节的业务内容和边界, 初步构建审编流程。

(3) 结合应用环境和技术能力, 在工作流程中嵌入自动化手段, 明确审编人员的职责和自动审编的适用范围, 形成人工审编与自动化审编相结合的工作流程, 以适应大数据环境和对有限人工的挑战。

3.2 审编流程

环境健康数据审编工作流程如图1所示, 包括数据采集、数据接纳、数据处理、数据组织描述、数据存储、数据再利用等6个关键环节。每个环节均涉及审编人员和自动化工具, 各环节可根据需要由不同学科背景或专长的审编人员参与, 以适应跨学科的应用, 并在相互协作下形成有机整体, 实现自动审编与人工审编相结合的工作流程。

图1 环境健康数据审编流程

审编人员对数据质量的把控, 是从数据采集后的质量控制、数据处理后的校验、数据发布前的审核等三个环节开展。管理人员可以通过对该工作流程各个环节及其负责人的监管, 实现对整个数据审编工作的管理, 确保工作的有效进行。

3.3 具体审编模块

(1) 数据采集

气象环境数据的数字化采集, 尤其是大气污染物监测数据的实时发布, 以及医疗机构的信息化建设, 便利了应用气象环境数据采集器和健康数据采集器获取原始流数据。采集器根据数据源特性, 可以是爬虫系统、ETL工具、数据提交工具等, 也可以是多种采集器的组合, 主要负责从不同数据源获取数据, 转换为统一的数据模型, 完成数据去重、完整性评估、缺失值处理等内容, 并将数据存储在临时数据库中。审编人员在此过程中负责维护全局Schema、缺失值等数据问题处理规则, 确保数据采集器的正常运转。

(2) 数据接纳

审编人员定期对数据进行质量评估, 经校验后分配数据唯一标识符并上载至数据仓储中, 供进一步分析处理。

(3) 数据处理

审编人员从数据仓储中抽取目标数据, 应用各类自动化工具开展多样化的数据处理分析工作, 形成各类派生数据。

①数据选择: 抽取目标数据集, 评估数据的代表性、准确性等, 决定哪些数据有审编价值;

②数据处理: 在对数据充分理解的基础上, 应用工具完成数据标准化、噪音数据清洗、数据匿名化、数据分类、数据采样、构建整合数据集等工作, 过程中可能涉及发病、死亡人数计算, 区域数据地理编码, 构建特定地区的时间序列数据等内容, 也可能为了满足数据的机器可读, 对各数据项及其枚举值进行编码等结构化处理;

③数据统计分析: 对目标数据进行描述性统计分析, 如计算逐时大气污染物数据的24小时或8小时平均浓度或滑动平均, 分析各气象环境要素与健康效应之间的关联关系, 使用不同的滞后结构(Lag Structure)进行敏感性分析等, 从而形成不同层面的派生数据集, 为科研人员获取多元化的数据服务奠定基础。

为了正确理解数据, 审编人员可能需要研读相关数据说明文档, 了解数据内涵; 为了合理地分析、处理数据, 可能需要检索相关研究文献, 了解最新的研究进展、研究需求、研究方法等。同时, 审编团队内部可以以不同方式进行分工协作, 不同人员可以负责不同区域, 如人员A负责北京地区所有数据, 人员B负责上海地区所有数据等; 可以负责不同学科领域, 如人员A负责所有气象数据, 人员B负责所有健康效应数据, 人员C负责跨领域数据等。

在这一环节中, 自动化工具着重在各种数据操作, 包括数据合并、删除、编辑、计算、编码、保存等, 并内置各种统计分析模型; 审编人员关注数据选择、处理方法的选择与执行, 结果评价与解读等。

(4) 数据组织描述

审编人员依据元数据模型, 描述派生数据的上下文信息, 包括标识信息、内容信息、文件信息、引用

信息等。同时, 为了方便领域科学家发现、追溯相关数据集, 还需要关联派生数据与原始数据、不同层面的整合数据等。这一环节需要元数据标准以及知识组织体系来支撑。为了便于审编人员组织描述这些数据, 可以应用一定的数据加工系统完成, 系统内置元数据模型和各种受控词体系。

(5) 数据存储

派生数据经过第三人校验后, 应用自动化工具将数据及其元数据转换为长期保存格式进行存储, 便于数据再利用。

(6) 数据再利用

审编人员决定数据集的哪些信息可以提供给领域研究人员, 以什么方式呈现更为合理, 不同用户的访问权限是什么等, 在通过第三人把关后, 通过在线系统开放共享数据, 提供数据检索、浏览、下载等服务。同时, 围绕整合数据, 可以研发相关应用服务, 将审编人员在数据分析中形成的结果数据以可视化的、整合式的分析服务提供给领域科研人员, 从而促进知识的转化。

4 环境健康数据审编流程应用验证
4.1 数据来源

气象环境数据来源于环保部门的逐时数据, 包括一氧化碳(CO)、二氧化硫(SO2)、二氧化氮(NO2)、臭氧(O3)、可吸入颗粒物(PM10)等大气污染物数据, 以及来源于气象部门的逐日地面气象观测数据, 包括观测日期、平均气温、最高温度、最低温度、平均气压、最大气压、最小气压、水汽压相对湿度、降水量、平均风速、最大风速、极大风速、日照时间等数据内容, 样例数据如图2所示:

图2 气象环境原始样例数据

健康数据来源于2009年1月1日至2011年12月31日北京市三家三甲医院急诊科的逐日就诊数据, 包括病人唯一标识、年龄、性别、就诊日期、诊断描述等内容, 样例数据如表1所示。

表1 医院就诊样例数据
4.2 审编流程实现

将本文构建的环境健康数据审编流程应用于中国工程科技知识中心-医药卫生分中心的科学数据管理工作, 以支撑医药卫生知识服务系统环境健康数据的审编。

在工作机制上, 所有相关审编人员编制成一个工作组, 设有组长一名, 负责监督审核审编工作, 定期组织小组讨论、解答审编过程中遇到的问题等, 确保整个审编工作的一致性与有效性。

在审编人员构成中, 包括公共卫生、医学信息、图书情报、计算机等不同专业背景, 分别负责数据解读与质量控制、数据处理与分析挖掘、数据规范

化表达与组织, 以及相关自动化工具、平台的研发等工作。

审编环节的实现如下:

(1) 数据采集。逐时大气污染物流数据, 通过研发的数据采集器定时从网上抓取, 采集频率为1次/半小时, 数据范围涵盖中国190个城市, 945个监测点。采集器依据内置规则对重复值、空值、缺失值等进行识别和处理, 其中污染物浓度缺失值是使用计算平均值替代。所有原始流数据存储于临时数据库中。逐日气象数据从气象部门定期获取并存储。医院就诊数据从各医院一次性获取, 共计193 663条数据记录, 在进行数据项命名统一化等处理后统一存储。

(2) 数据接纳。在确保数据质量后, 审编人员将数据上载至审编数据库中待进一步处理与分析。

(3) 数据处理

①气象环境数据处理。抽取与就诊数据相对应的北京地区气象环境数据, 即2009年1月1日至2011年12月31日的大气污染物逐时数据和气象逐日数据; 以天为采样单位, 计算北京地区各大气污染物的日均值; 在数据中添加必要的字段描述、计量单位等信息, 形成当日地区气象环境数据集(如图3所示), 数据规模为1 095条。

图3 规范化后的气象环境样例数据

②就诊数据处理。抽取2009年1月1日至2011年12月31日北京市三家三甲医院急诊科的逐日就诊数据, 依据国家统计局2013年1月发布的《最新县及县以上行政区划代码》编码就诊数据的地理信息, 如使用“ 110000” 编码“ 北京市” , 形成面向行政区域划分的就诊数据集。针对疾病诊断描述信息术语体系不一致的情况(如“ 上呼吸道感染” 和“ 上感” ), 构建国际疾病分类法(International Classification of Diseases, ICD)与疾病别名的映射表, 将各医院就诊数据中的诊断描述统一为ICD-10编码。由于应用需求关注气象环境与呼吸系统疾病的关联, 在数据处理时过滤了非ICD-10 J00-J99的数据记录(如患卵巢癌就诊数据), 并在此基础上去除患者标识等隐私信息, 在数据中添加必要的字段描述等信息, 形成当日地区病案样本数据, 数据规模为135 008条。

③数据整合和关联分析。按地区、日期、呼吸系统疾病类型等不同维度关联各气象环境要素与就诊数据, 形成各类整合数据集, 以满足不同需求的用户群。

在数据分析挖掘部分, 应用描述性统计(Descriptive Statistics)发现呼吸系统疾病发病人数的人口学特征, 包括性别分布、年龄构成等(描述性统计结果的样例数据见表2), 以及疾病分布情况, 即发病人数在急性上呼吸道感染(J00-J06)、流行性感冒和肺炎(J09-J18)、慢性下呼吸道感染(J40-J47)等疾病的分布。结果显示急性上呼吸道感染的发病人数占总发病人数的87.74%, 流行性感冒和肺炎等其他类型占12.26%, 存在数据不平衡的问题。为了解决这一问题, 应用SMOTE (Synthetic Minority Over-sampling Technique)算法[36]以提升少数类样本数目, 使数据集分类趋于平衡。

表2 发病人群性别和年龄分布样例数据

为了识别呼吸系统疾病发病的气象环境危险因素, 将样本数据集依据年龄、性别划分为8组子集和全集共9个组别, 分别应用C4.5决策树方法计算气压、温度、湿度、SO2等因素的影响程度(样例数据见表3), 从而识别不同年龄、性别组别病人的呼吸系统疾病发病危险因素。

表3 不同组别危险因素影响程度样例数据

同时, 统计计算了9个组别在不同疾病类型上的发病人数分布情况, 样例数据如表4所示:

表4 9个组别在急性上呼吸道感染上的发病人数分布

在分析挖掘结果基础上, 形成不同分析维度、分析结果数据和结果解读说明记录, 便于通过在线平台提供该数据集的整合分析服务。

(4) 数据组织描述。分配数据集唯一标识“ D” +流水号; 应用元数据模型将审编后的数据集、数据分析结果、分析应用等整合起来, 元数据模型包含标识信息、内容信息、数据文件信息、溯源信息、应用信息等内容。

(5) 数据存储。将形成的各类派生数据以XML格式统一表示; 数据审编人员在确认数据无误后入库。

(6) 数据再利用。通过医药卫生知识服务系统提供数据检索、元数据浏览、样例数据浏览、数据下载(如图4所示)、数据分析应用等服务, 供环境健康领域的数据科学家、科研人员等获取数据、开展整合式分析工作, 从而促进知识的转换。

图4 环境健康数据下载服务

4.3 结果验证

为了验证环境健康数据审编工作的有效性, 笔者从已有研究中选取基于相同数据集的、不同团队的研究成果进行比较。

图5是医药卫生知识服务系统提供的北京市气温变化对呼吸系统疾病发病影响的可视化结果, 显示急诊人数与气温变化在季节分布上个呈现显著相关性, 这与相关研究发现的, 昼夜温差对老年群体呼吸系统疾病发病的影响在春、秋、冬三季呈现显著相关[37]是一致的。

图5 北京市温度变化对呼吸系统疾病发病的影响

应用结果说明, 环境健康数据审编工作流程具有一定的可操作性。它能将不同专业背景的人员有效地组织起来, 根据不同的职能定位在不同的审编环节发挥特长, 避免对数据的错误理解与误操作, 确保审编数据的质量, 提高工作效率; 能规范环境健康处理流程, 避免审编过程的不透明或模糊性带来的数据可信性问题; 疾病分类等数据标准的引入, 规范了环境健康数据在语法、语义层面的表达, 便于数据理解、计算、再利用; 自动审编与人工审编相结合的策略, 能有效缓解不断增长的数据规模与有限的人工这一矛盾, 尤其是在气象环境数据越来越开放的应用环境下, 实现数据的自动采集与校验, 能使审编人员将更多的精力用于数据知识关联与揭示等方面。

5 结语

环境健康数据审编流程, 是从跨领域研究特点出发, 在DCC审编生命周期模型的指导下构建而成。工作流融入了人工审编和自动化审编, 能有效地组织不同专业背景的审编人员, 兼顾了数据质量和数据规模两方面的考量, 具有一定的可操作性, 在实际操作时, 仍需进一步细化。

(1) 数据模型的本地化

不同国家、地区的气象数据、环境数据、健康数据的数据模型均有所差异, 能为环境健康研究提供的数据信息也不同。如何在已有数据模型中抽取出共有字段, 形成统一的全局数据模型, 并能满足领域人员的科研需求是需要深入思考的。

(2) 术语的规范化

在健康数据中, 尤其是医院就诊数据, 通常会涉及到诊断信息术语不统一的问题。如支气管扩张和支扩同属一个疾病, 但是表述不同, 或是不同医院使用不同版本的国际疾病分类法。如何应用一定的规则或自然语言处理算法, 自动识别并关联为规范化的受控词体系是需要解决的问题。

(3) 元数据模型的可扩展性

数据在整个审编过程中涉及原始数据、中间处理数据、结果数据、知识转化数据等, 同时在语义层面上还相互关联, 元数据模型应该如何构建, 能满足不同层面、不同角度的关联发现是需要重点关注的。

(4) 跨领域数据的整合方式

跨领域数据的审编与单一领域数据审编的区别在于跨界数据的融合。从科研人员的角度, 数据集层面、数据应用层面、元数据层面、数据内容层面等不同整合层面, 区域、时间、要素等不同整合角度, 哪些整合方法能满足应用需求是需要进行深入分析的。

此外, 不同计量单位下的数据统一, 数据采集、处理、加工等环节自动化工具的研发及其与审编工作的适应性等问题都值得进一步探索。

参考文献
[1] Boulton R, Campbell P, Collins B, et al. Science as an Open Enterprise [R]. London: Royal Society, 2012. [本文引用:1]
[2] eScience--A Transformed Scientific Method [EB/OL]. [2015- 06-02]. http://research.microsoft.com/en-us/um/people/gray/talks/NRC-CSTB_eScience.ppt. [本文引用:1]
[3] Beagrie N, Pothen P. Digital Curation: Digital Archives, Libraries and e-Science Seminar [J/OL]. Ariadne, 2002(30): 98-102. [2015-06-04]. http://www.ariadne.ac.uk/issue30/digital-curation. [本文引用:1]
[4] Specialization in Data Curation [EB/OL]. [2015-06-20]. http://www.lis.illinois.edu/academics/degrees/specializations/data_curation. [本文引用:1]
[5] e-Science Data Curation [EB/OL]. [2015-06-20]. http://www.jisc.ac.uk/publications/generalpublications/2004/pub_escience.aspx. [本文引用:1]
[6] What is Digital Curation? [EB/OL]. [2015-06-20]. http://www.dcc.ac.uk/digital-curation/what-digital-curation. [本文引用:1]
[7] 杨鹤林. 数据监护: 美国高校图书馆的新探索[J]. 大学图书馆学报, 2011, 29(2): 18-21.
(Yang Helin. Data Curation: A New Development of University Libraries in the U. S. [J]. Journal of Academic Libraries, 2011, 29(2): 18-21, 41. ) [本文引用:1]
[8] 王芳, 慎金花. 国外数据管护(Data Curation)研究与实践进展[J]. 中国图书馆学报, 2014, 40(4): 116-128.
(Wang Fang, Shen Jinhua. Advances in Data Curation Abroad: Research and Practice[J]. Journal of Library Science in China, 2014, 40(4): 116-128. ) [本文引用:1]
[9] What is Biocuration? [EB/OL]. [2015-06-10]. http://www.biocurator.org/what.shtml. [本文引用:1]
[10] The 8th International Biocuration Conference [EB/OL]. [2015-06-02]. http://biocuration2015.big.ac.cn/. [本文引用:1]
[11] Zhang Z, Zhu W M, Luo J C. Bringing Biocuration to China[J]. Genomics, Proteomics & Bioinformatics, 2014, 12(4): 153-155. [本文引用:2]
[12] Atkinson R W, Kang S, Anderson H R, et al. Epidemiological Time Series Studies of PM2. 5 and Daily Mortality and Hospital Admissions: A Systematic Review and Meta-analysis[J]. Thorax, 2014, 69(7): 660-665. [本文引用:1]
[13] Franchini M, Guida A, Tufano A, et al. Air Pollution, Vascular Disease and Thrombosis: Linking Clinical Data and Pathogenic Mechanisms[J]. Journal of Thrombosis and Haemostasis, 2012, 10(12): 2438-2451. [本文引用:1]
[14] Shang Y, Sun Z, Cao J, et al. Systematic Review of Chinese Studies of Short-term Exposure to Air Pollution and Daily Mortality[J]. Environment International, 2013, 54(4): 100-111. [本文引用:1]
[15] Trtanj J M, Houston T G. Climate Variability and Change Data and Information for Global Public Health [A]. // Global Climate Change and Public Health[M]. Springer New York, 2014: 21-30. [本文引用:1]
[16] 张智雄, 吴振新, 刘建华, . Digital Curation和Digital Preservation之概念辨析[J]. 现代图书情报技术, 2014(1): 4-13.
(Zhang Zhixiong, Wu Zhenxin, Liu Jianhua, et al. Analysis of the Difference Between Digital Curation and Digital Preservation[J]. New Technology of Library and Information Service, 2014(1): 4-13. ) [本文引用:1]
[17] DCC Curation Lifecycle Model [EB/OL]. [2015-06-10]. http://www.dcc.ac.uk/resources/curation-lifecycle-model. [本文引用:2]
[18] Data Documentation Initiative [EB/OL]. [2015-06-10]. http://www.ddialliance.org/. [本文引用:1]
[19] Create & Manage Data Research Data Lifecycle [EB/OL]. [2015-06-11]. http://www.data-archive.ac.uk/create-manage/life-cycle. [本文引用:1]
[20] Johnston L. A Workflow Model for Curating Research Data in the University of Minnesota Libraries: Report from the 2013 Data Curation Pilot [R/OL]. [2015-06-10]. University of Minnesota Digital Conservancy. http://hdl.handle.net/11299/162338. [本文引用:1]
[21] Salimi N, Vita R. The Biocurator: Connecting and Enhancing Scientific Data[J]. PLoS Computational Biology, 2006, 2(10): e125. [本文引用:1]
[22] Howe D, Costanzo M, Fey P, et al. Big Data: The Future of Biocuration[J]. Nature, 2008, 455(7209): 47-50. [本文引用:1]
[23] Biocuration in UniProt [EB/OL]. [2015-06-10]. http://www.uniprot.org/help/biocuration. [本文引用:1]
[24] Stieb D M, Szyszkowicz M, Rowe B H, et al. Air Pollution and Emergency Department Visits for Cardiac and Respiratory Conditions: A Multi-city Time-series Analysis[J]. Environmental Health: A Global Access Science Source, 2009, 8(13): 1841-1860. [本文引用:2]
[25] Dominici F, Peng R D, Bell M L, et al. Fine Particulate Air Pollution and Hospital Admission for Cardiovascular and Respiratory Diseases[J]. JAMA, 2006, 295(10): 1127-1134. [本文引用:1]
[26] Zhang Y, Feng C, Ma C, et al. The Impact of Temperature and Humidity Measures on Influenza A (H7N9) Outbreaks— Evidence from China[J]. International Journal of Infectious Diseases, 2015, 30: 122-124. [本文引用:1]
[27] Kan H, Wong C M, Vichit-Vadakan N, et al. Short-term Association Between Sulfur Dioxide and Daily Mortality: The Public Health and Air Pollution in Asia (PAPA) Study[J]. Environmental Research, 2010, 110(3): 258-264. [本文引用:1]
[28] Katsouyanni K, Touloumi G, Samoli E, et al. Confounding and Effect Modification in the Short-term Effects of Ambient Particles on Total Mortality: Results from 29 European Cities within the APHEA2 Project[J]. Epidemiology, 2001, 12(5): 521-531. [本文引用:1]
[29] Wang T, Li G X, Sun J, et al. Association Between Ambient Particulate Matter and Daily Cause-specific Mortality in Tanggu, Tianjin Binhai New Area, China[J]. International Journal of Environmental Health Research, 2013, 23(3): 205-214. [本文引用:1]
[30] Almeida S M, Silva A V, Sarmento S. Effects of Exposure to Particles and Ozone on Hospital Admissions for Cardiorespiratory Diseases in SetúBal, Portugal[J]. Journal of Toxicology & Environmental Health Part A, 2014, 77(14-16): 837-848. [本文引用:1]
[31] Cox L A Jr, Popken D A, Ricci P F. Warmer is Healthier: Effects on Mortality Rates of Changes in Average Fine Particulate Matter (PM2. 5) Concentrations and Temperatures in 10US Cities[J]. Regulatory Toxicology and Pharmacology, 2013, 66(3): 336-346. [本文引用:1]
[32] Zanobetti A, Dominici F, Wang Y, et al. A National Case-crossover Analysis of the Short-term Effect of PM2. 5 on Hospitalizations and Mortality in Subjects with Diabetes and Neurological Disorders[J]. Environmental Health, 2014, 13(1): 38. [本文引用:1]
[33] Stafoggia M, Samoli E, Alessand rini E, et al. Short-term Associations Between Fine and Coarse Particulate Matter and Hospitalizations in Southern Europe: Results from the MED-PARTICLES Project[J]. Environmental Health Perspectives, 2013, 121(9): 1026-l033. [本文引用:1]
[34] Sinclair A H, Edgerton E S, Wyzga R, et al. A Two-time- period Comparison of the Effects of Ambient Air Pollution on Outpatient Visits for Acute Respiratory Illnesses[J]. Journal of the Air & Waste Management Association, 2010, 60(2): 163-175. [本文引用:1]
[35] Launch of Health Theme of Climate. Data. Gov [EB/OL]. [2015-06-09]. https: //www. data. gov/climate/humanhealth/ highlights. [本文引用:1]
[36] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: Synthetic Minority Over-sampling Technique[J]. Journal of Artificial Intelligence Research, 2002, 16(1): 321-357. [本文引用:1]
[37] Wang M Z, Zheng S, He S L, et al. The Association Between Diurnal Temperature Range and Emergency Room Admissions for Cardiovascular, Respiratory, Digestive and Genitourinary Disease among the Elderly: A Time Series Study [J]. Science of the Total Environment, 2013, 456-457: 370-375. [本文引用:1]