数据分析与知识发现  2018 , 2 (5): 88-93 https://doi.org/10.11925/infotech.2096-3467.2017.1321

应用论文

基于CDISC标准的多源临床研究数据整合关键技术与实现*

齐惠颖, 郭建光

北京大学医学部公共教学部 北京 100191

Integrating Multi-Source Clinical Research Data Based on CDISC Standard

Qi Huiying, Guo Jianguang

School of Foundational Education, Peking University Health Science Center, Beijing 100191, China

中图分类号:  G350

通讯作者:  通讯作者:齐惠颖, ORCID: 0000-0003-4075-3720, E-mail:qhy@bjmu.edu.cn

收稿日期: 2017-12-26

修回日期:  2018-01-24

网络出版日期:  2018-05-25

版权声明:  2018 《数据分析与知识发现》编辑部 《数据分析与知识发现》编辑部

基金资助:  *本文系北京大学医学部-密歇根大学医学院转化医学与临床研究联合研究所资助合作研究项目“基于REDCap的临床研究数据库构建”(项目编号: 2213-89900-77814-008)的研究成果之一

展开

摘要

【目的】 探索基于CDISC标准整合多源临床研究数据的方法。【应用背景】 基于CDISC整合临床研究数据, 简化研究者向药监部门递交数据的程序, 加速新药投入市场的过程, 同时也有利于不同研究之间数据的共享。【方法】 基于CDISC的CDASH数据标准设计CRF, 通过ODM标准将电子病历数据映射到CRF中并和临床实验数据统一整合到EDC系统, 最终转换为标准SDTM格式的数据库。【结果】 将位于不用系统中的临床研究数据统一整合成符合CDISC标准的数据库。【结论】 解决电子病历数据和临床实验数据的整合问题, 避免数据的重复录入, 提高临床研究的效率。

关键词: CDISC ; 数据整合 ; EDC ; CRF ; CDASH

Abstract

[Objective] This study explores new ways to integrate multi-source clinical research data based on CDISC standard. [Context] The proposed method simplifies the procedures of submitting research data to the drug regulatory department and speeds up the listing of new drugs. It also promotes the sharing of data from different studies. [Methods] First, we designed a CRF based on the CDISC CDASH standard. Then, we mapped the electronic medical records to the CRF in accordance with the ODM standard. Third, we integrated the medical records with the clinical experimental data in the EDC system. Finally, all data were stored in the standard SDTM format database. [Results] We successfully integrated data from different systems into a CDISC database. [Conclusions] The proposed method effectively integrates electronic medical records and clinical experimental data. It helps us avoid entering duplicated data and improves the efficiency of clinical research.

Keywords: CDISC ; Data Integration ; EDC ; CRF ; CDASH

0

PDF (1157KB) 元数据 多维度评价 相关文章 收藏文章

本文引用格式 导出 EndNote Ris Bibtex

齐惠颖, 郭建光. 基于CDISC标准的多源临床研究数据整合关键技术与实现*[J]. 数据分析与知识发现, 2018, 2(5): 88-93 https://doi.org/10.11925/infotech.2096-3467.2017.1321

Qi Huiying, Guo Jianguang. Integrating Multi-Source Clinical Research Data Based on CDISC Standard[J]. Data Analysis and Knowledge Discovery, 2018, 2(5): 88-93 https://doi.org/10.11925/infotech.2096-3467.2017.1321

1 引 言

临床研究包括研究疾病发生的机制、疾病临床知识、疾病发生发展过程、药物的疗效和安全性以及卫生保健效果评价等一系列研究。在各种类型的临床研究中, 高质量的数据是临床研究成功完成的重要保证。基于不同的研究需要, 将不同来源的数据有效整合是临床研究顺利开展的首要前提, 临床研究数据整合包括电子病历系统数据与临床实验数据整合、国际跨中心合作研究数据整合、不同医院合作研究数据整合、甚至同一医院不同部门合作研究数据整合多种方式。随着信息技术的快速发展, 电子化临床试验数据管理系统(Electronic Data Capture System, EDC)在临床研究广泛使用, 不仅极大地提高临床研究效率, 节省时间和成本, 而且更好地保证数据的真实性、准确性和完整性, 为临床研究提供高质量的数据。但是和欧美规范的数据管理相比较, 目前我国临床研究缺乏数据采集、交换和提交的统一标准, 临床研究多源数据之间的融合存在技术瓶颈。

数据标准化是临床研究数据整合的前提, 面对种类繁多的异构临床医学数据, 迫切需要一套可以描述各种数据源异构特征, 并与之建立准确映射关系的临床医学数据标准, 用以数据整合与规范表达。同时需要一套映射方法, 以快速、准确地实现异构临床医学数据的映射, 提高数据整合效率。本研究通过对多源临床研究数据整合相关问题进行研究, 探索电子病历数据与临床实验数据的整合方法, 并通过实践验证其可行性。

2 相关研究

2.1 基于模型的方法

基于模型的方法首先根据需求确定数据收集的标准, 然后根据相关标准或协议构建数据整合标准模型。例如, Carlson等基于HL7的CDA创建一个高血压项目的数据整合模型[1]。美国卫生信息传输标准(Health Level Seven, HL7)是开发和研制医院数据信息的传输协议及标准, HL7的内容包括临床文档结构(Clinical Document Architecture, CDA)。CDA以交换文档为目的, 是一种指定结构和语意的文档标记标准, 用XML语言描述标记CDA[2]。但是CDA仅规定数据的交换标准, 交换内容以外的临床数据结构不在规范以内[3], Carlson等使用语义描述语言(The Web Ontology Language, OWL)描述数据元素, 通过互补技术完成数据整合工作[4]。Kunz等通过使用通用数据元素(Common Data Element, CDE)知识库实现不同生物医学数据库的整合, 以此构建领域模型[5]

2.2 基于元数据的方法

基于元数据的方法通过编写控制词表、元数据语义描述标准和元数据语义化映射方法实现不同系统间数据的融合。Stausberg等基于ISO/IEC 11179定义一个元数据知识库, 知识库的内容包括病例报告表中的数据元素和临床系统表单中的数据元素, 以及元数据和数据元素之间的映射关系。元数据知识库提供元数据的导入和导出, 支持电子病历数据和临床实验数据间的数据元素融合[6]。Jiang等使用维基百科的数据元素实现医院电子病历系统数据与临床研究数据的融合, 从维基百科约有38万条术语中抽取约9万多条术语作为元数据词库, 提出标准化的临床研究数据元素表示和融合的框架[7]

基于模型的方法有利于实现系统间的互操作, 适用于多系统之间大规模数据元素转换的情况。基于元数据的方法更多关注数据元素之间的语义关系, 建立的词表对今后特定领域的信息资源共享和交换具有指导意义, 但是通用性差, 构建成本高。与上述两种研究有所不同, 本研究不是依据协议、标准或数据描述方法构建数据整合模型, 也不是定义数据整合的元数据, 而是研究如何将分布在不同系统中的不同类型非标准化数据在保证数据一致性的前提下利用标准化技术直接实现数据的整合。

3 CDISC标准的应用

临床数据交换标准协会(Clinical Data Interchange Standards Consortium, CDISC) 是一个全球性、开放、多学科、非盈利性的组织, 其使命是发展和支持建立全球性的临床研究数据标准平台, 使信息系统能够互相交流, 从而促进医药研究和相关卫生保健领域研究的发展。CDISC通过建立标准来支持采集、交换、递交和储存临床研究数据与元数据[8]。CDISC部分标准如表1所示。

表1   CDISC部分标准介绍

   

标准名称英文名称简称功能
研究数据表格模型Study Data Tabulation ModelSDTM包括全部CDISC模型/标准所涉及的标准词汇和编码集
临床数据采集标准Clinical Data Acquisition Standards
Harmonization
CDASH用于病例报告表中基础数据收集字段的内容标准
操作数据模型Operational Data ModelODM基于XML, 用于获取、交换、报告或递交以及对基于病例报告表的临床研究数据归档的内容和格式标准
CDISC术语词典用于解释与临床研究信息电子获取、交换、报告相关的术语及其定义

新窗口打开

CDISC目前主要应用在系统互操作方面, 例如: Huser等利用ODM建立公共数据模型实现临床研究数据直接抽取[9]。Breil等建立一个网络医疗数据门户, 提供多语言的基于ODM数据模型的数据, 数据涵盖8 000个项目的250多个表格, 研究者可以利用该平台交换多语种的数据[10]。门户网站medical-data- models.org提供超过5 300个CDISC ODM格式的UMLS注释表单, 以支持互操作性[11]

目前中文临床研究数据没有统一的标准体系, CDISC建立一系列临床研究数据标准, 本研究基于CDISC标准整合多种电子病历数据与临床研究数据, 实现流程如图1所示。临床研究数据的收集是通过CRF来实现的, 本研究中CRF数据来源部分是在临床实验过程中通过EDC系统收集的临床实验数据, 部分数据来源于医院电子病历系统中提取的数据, 这就需要将不同来源的数据整合在一个数据库中, 设计标准化的CRF是多源数据整合的前提。

图1   基于CDISC标准的数据融合流程

   

(1) 临床数据获取协调标准CDASH标识出从临床、科研以及监管角度所需的基本数据采集字段。它定义一组基本的“强烈推荐和推荐/有条件”的数据采集字段, 而这些字段很多会出现在CRF需要采集的信息上。基于CDASH标准设计CRF字段, 保持数据标准的统一和数据的可追溯性, 可以直接从CRF中抽取出大量符合SDTM的数据集, 减少后期繁杂的映射转换。

(2) 使用ODM标准实现电子病历中的基础数据、随访数据和化验数据到CRF格式的转换, 将转换后的CRF数据通过EDC系统提供的外部数据导入的API导入到EDC系统中。

(3) 将EDC系统中的数据转化为标准化的SDTM格式, 很多国家的药审中心要求新药研究数据使用CDSIC标准的STDM格式提交, 同时标准化的格式也有助于临床研究数据的共享。但是STDM标准格式是一种垂直型的数据结构, 是以人次为单位, 每个观察通过一系列变量描述, 不符合人们的操作习惯, 直接采用垂直型结构设计界面会导致数据录入复杂化, 用户界面不友好。临床数据采集使用CDASH标准的水平型数据结构, 符合人们使用习惯, 每个受试者对应一条记录, 每个数据对应一个变量, 后期通过数据映射方式转换为STDM格式。

4 关键技术

4.1 CRF的标准化

受试者病历报告表(Case Report Forms, CRF)字段直接采用CDASH数据标准定义, 研究数据列表模型SDTM定义数据递交的标准, 采用CDASH数据采集字段(或变量)有助于直接到SDTM结构的映射。本研究中受试者基本信息如姓名、年龄、性别、出生日期的定义参考CDASH数据标准中的人口统计学资料(Demographics, DM)域和受试者特征(Subject Characteristics, SC)域, 知情同意过程信息参考处置(Disposition, DS)域, 研究分组参考试验分组(Trial Arms, TA)域, 不良事件参考AE事件域[12]。以不良事件采集字段为例, 部分字段和CDASH、SDTM变量对应关系如表2所示。

表2   不良事件部分字段和CDASH、SDTM变量对应关系

   

收集数据CDASH变量名SDTM变量说明
不良事件编号aespidAESPID记录受试者每个不良事件的唯一标识符。
不良事件名称aetermAETERM不良事件的名称。
不良事件开始日期aestdatAESTDTC不良事件开始时间。
不良事件结束日期aeendatAEENDTC不良事件被解决的时间。
不良事件的严重程度aesevAESEV描述不良事件的严重程度。
不良事件是否与先天性异常或
出生缺陷有关?
aescongAESCONG记录“严重”不良事件是否与先天性异常或出生缺陷有关。
不良事件是否与研究治疗有关?aerelAEREL临床医生/研究者判断研究治疗与不良事件之间是否存在因果
关系。
不良事件的结局?aeoutAEOUT描述与不良事件相关的受试者的状况。

新窗口打开

其他未能在SDTM或CDASH标准中找到合适域对应的数据表字段, 其设计也参照SDTM标准执行。另外在数据字典设计中, 参考CDISC的控制术语(CDISC Terminology, CT)标准[13], 例如性别设为男和女, 设盲模式为单盲、双盲和非盲。

4.2 电子病历到CRF的映射

建立符合CDISC标准的CRF之后, 由于医院的信息管理系统是基于不同的需求构建, 所采用的技术不同, 标准化程度低, 不能直接从系统中获取数据, 需要将存放在不同系统的电子病历数据元与CDISC标准的变量之间相互映射, 对电子病历中的数据元名称重新进行标准化命名。CDISC ODM是一种基于XML的格式, 它定义了数据交换的标准[14]

在ODM框架中, 一个临床研究在ODM中使用一个Study表示, 由于一个临床研究要收集的数据存放在不同的CRF中, 在ODM中一个FormDef对应一个CRF; 一个CRF包含若干个条目名称, 一个条目在ODM中用一个ItemDef定义, 所以一个FormDef对应若干个ItemDef。这些ItemDef对应电子病历数据库中不同表的字段信息。ItemDef条目定义一种数据元素的标准规范, 其子条目Question/Name、@DataType和@Length分别对应电子病历表中相应字段的变量名、数据类型和数据格式。

数据的映射关系在ODM中的ClinicalData部分完成。ClinicalData包含每个条目名称ItemDef的数据值, 数据值存储在ItemData元素的Value属性中, 其中SubjectKey属性作为患者标识符。使用ODM框架建立的数据映射关系可以完成电子病历数据到CDISC标准的CRF的转换。

通过建立ODM和电子病历数据表的映射可以将不同数据库中的病历数据整合为符合CDISC标准的CRF格式, 其元数据的结构映射关系如图2所示。

图2   电子病历表和CDISC ODM的映射模型流程

   

电子病历数据库中的表和CRF的对应关系存放在映射表TableMap中, 其结构如表3所示。图3是从化验数据库中提取的尿检数据基于TableMap表的映射关系转换为标准CRF格式的XML格式的ODM框架文件。

表3   电子病历数据库中的表和CRF的对应关系

   

字段名字段类型字段说明
ID自动编号主键字段
TableNameVarchar(20)电子病历数据库中表名
FormDefVarchar(20)电子病历数据库中表对应的CRF
NameVarchar(20)电子病历数据库表中字段名对应CRF一个条目
ItemDefVarchar(20)CRF中的一个条目的ID号
DataTypeVarchar(20)CRF中的一个条目的数据类型
LengthVarchar(20)CRF中的一个条目的长度

新窗口打开

图3   通过ODM转换的化验数据库中的尿检信息的条目定义和对应数据

   

4.3 CRF到SDTM的映射

采用CDASH数据定义的CRF字段名称可以直接映射到SDTM变量, 但是CRF字段一般采用水平型数据结构, 每个受试者对应一条记录, 每个项目对应一个变量。而SDTM 域则采用垂直型数据结构, 以人次为单位, 每一事件/观察通过一系列的变量描述, 每个项目对应一条记录。水平型CRF字段还必须经过提取、转换和加载(ETL)处理过程才能完成SDTM数据转换。例如电子病历系统数据中的受试者基本信息数据的CRF表换成SDTM变量的方式, 如图4所示。

图4   将受试者生命体征数据映射到SDTM实例

   

VSTESTCD变量用来采集检查名称, 而另一个变量VSORRES则用来采集检查结果(每个检查有一条记录, 而不是每个检查都有一个变量)。

5 实现效果

REDCap(Research Electronic Data Capture)由美国范德堡大学(Vanderbilt University)开发, 现已形成庞大的国际协作联盟, 并由国际协作联盟共同合作支持。拥有来自117个国家、2 669个研究机构的合

作用户, 是迄今为止全球最大的临床与转化医学研究试验数据库管理系统。笔者单位是REDCap的合作用户, CRF的设计采用REDCap系统实现[15]

数据整合实现的整体思路是首先设计CRF, CRF的字段直接采用CDASH数据标准定义。在REDCap系统中设计好CRF, 临床研究实验数据直接通过REDCap系统采集。整合电子病历系统的数据通过基于CDISC ODM的XML文件编写映射规则导入到REDCap系统, 电子病历信息包括就诊患者基本信息、门诊随访和化验结果三个数据库信息。基于ODM的映射可以将不同数据库中的病历数据整合为符合CDISC标准的CRF格式。执行电子病历数据转换的XML映射规则的解析使用R编程实现。REDCap提供了多种语言的 API接口, 通过API将整合后的电子病历数据导入到REDCap系统中, 通过转换后字段的对应关系如图5所示。

图5   电子病历信息映射到CRF的结果

   

将不同来源的数据整合在REDCap系统后, 由于数据字段定义符合CDASH标准, 基于CDASH定义的CRF通过REDCap的Field Annotation中的信息映射到SDTM, 并执行数据字段格式转换。对于水平型数据结构的CRF字段, 通过R程序动态解析映射信息旋转转换为垂直型数据结构, 自动生成所需的XML文件, 并导出SDTM格式的数据。在REDCap中将映射表达式写到字段的Annotation中, 根据XML中ItemDef元素的OID属性, 自动将CRF的字段和SDTM变量生成一对一的匹配关系。映射表达式的写法如图6所示。

图6   在REDCap的注释字段框中使用“OID Attribute”输入SDTM的映射信息

   

6 结 语

本研究将位于不同系统中的临床研究需要的数据统一整合成符合CDISC标准的数据库, 是多源临床数据整合的一次尝试。本研究有效地解决了电子病历数据和临床实验数据的整合问题, 避免数据的重复录入, 提高临床研究的效率。整合成符合SDTM标准的数据集, 可以简化研究者向管理部门递交数据的程序, 加速研究药物投入市场的进程。同时整合库也方便不同的研究之间数据可以非常容易匹配与组合, 减少数据二次使用时的转化工作, 有利于科学研究数据的共享。

作者贡献声明

齐惠颖: 提出研究思路, 设计研究方案, 论文起草及最终版本修订;

郭建光: 准备实验环境, 采集、清洗数据, 实施实验。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: qhy@bjmu.edu.cn。

[1] 齐惠颖. BreastCancer.MYD. 整合数据库.

[2] 齐惠颖. odm2sdtm.xml. ODM到SDTM的转换规则.

[3] 齐惠颖. cdash2sdtm.xml. CDASH到SDTM的转换规则.


参考文献

[1] Carlson D, Farkash A, Timm J T.

A Model-driven Approach for Biomedical Data Integration

[J]. Studies in Health Technology and Informatics, 2010, 160(2): 1164-1168.

[本文引用: 1]     

[2] Health Level Seven International.

Introduction to HL7 Standards

[EB/OL]. [2018-01-05]. .

URL      [本文引用: 1]     

[3] Jc C R, Staubert S, Lobe M, et al.

Automated Import of Clinical Data from HL7 Messages into OpenClinica and tranSMART Using Mirth Connect

[J]. Studies in Health Technology and Informatics , 2016, 228: 317-321.

[本文引用: 1]     

[4] The World Wide Web Consortium. OWL [EB/OL].[2018-01-05]. .

URL      [本文引用: 1]     

[5] Kunz I, Lin M, Frey L J, et al.

Metadata Mapping and Reuse in caBIG

[J]. BMC Bioinformatics, 2009, 10(2): 1-11.

[本文引用: 1]     

[6] Stausberg J, Lobe M, Verplancke P, et al.

Foundations of a Metadata Repository for Databases of Registers and Trials

[J]. Studies in Health Technology and Informatics, 2009, 150: 409-413.

[本文引用: 1]     

[7] Jiang G, Solbrig H R, Iberson-Hurst D, et al.

A Collaborative Framework for Representation and Harmonization of Clinical Study Data Elements Using Semantic Media Wiki

[C]// Proceedings of AMIA Joint Summits on Translational Science. 2010: 11-15.

[本文引用: 1]     

[8] Clinical Data Interchange Standards Consortium.

CDISC. Mission & Principles

[EB/OL]. [2018-01-05]. .

URL      [本文引用: 1]     

[9] Huser V, Sastry C, Breymaier M, et al.

Standardizing Data Exchange for Clinical Research Protocols and Case Report Forms: An Assessment of the Suitability of the Clinical Data Interchange Standards Consortium (CDISC) Operational Data Model (ODM)

[J]. Journal of Biomedical Informatics, 2015, 57: 88-99.

https://doi.org/10.1016/j.jbi.2015.06.023      URL      [本文引用: 1]     

[10] Breil B, Kenneweg J, Fritz F, et al.

Multilingual Medical Data Models in ODM Format: A Novel Form-based Approach to Semantic Interoperability Between Routine Healthcare and Clinical Research

[J]. Applied Clinical Informatics, 2012, 3(3): 276-289.

https://doi.org/10.4338/ACI-2012-03-RA-0011      URL      [本文引用: 1]     

[11] Doods J, Neuhaus P, Dugas M, et al.

Converting ODM Metadata to FHIR Questionnaire Resources

[J]. Studies in Health Technology and Informatics, 2016, 228: 456-460.

[本文引用: 1]     

[12] Clinical Data Interchange Standards Consortium. CDASH v1.1 [EB/OL]. [2018-01-05]. .

URL      [本文引用: 1]     

[13] Clinical Data Interchange Standards Consortium.

Controlled Terminology

[EB/OL].[2018-01-05]. .

URL      [本文引用: 1]     

[14] Dugas M.

ODM2CDA and CDA2ODM: Tools to Convert Documentation Forms Between EDC and EHR Systems

[J]. BMC Medical Informatics and Decision Making, 2015, 15(1): 40.

https://doi.org/10.1186/s12911-015-0163-5      URL      [本文引用: 1]     

[15] REDCap [EB/OL]. [2018-01-05] .

URL      [本文引用: 1]     

/