Advanced Search

数据分析与知识发现, 2019, 3(8): 88-93 doi: 10.11925/infotech.2096-3467.2019.0021

研究论文

基于多组学数据融合构建乳腺癌生存预测模型 *

齐惠颖,,1, 江雨荷2

1北京大学医学人文学院 北京 100191

2北京大学医学部 北京 100191

Predicting Breast Cancer Survival Length with Multi-Omics Data Fusion

Qi Huiying,,1, Jiang Yuhe2

1School of Health Humanities, Peking University, Beijing 100191, China

2Health Science Center, Peking University, Beijing 100191, China

通讯作者: 齐惠颖, ORCID: 0000-0003-4075-3720, E-mail:qhy@bjmu.edu.cn

收稿日期: 2019-01-7   修回日期: 2019-04-1   网络出版日期: 2019-08-25

基金资助: *本文系国家自然科学基金项目“基于组学大数据的免疫细胞及其亚群的标志分析系统分析与鉴定”的研究成果之一.  31670947

Received: 2019-01-7   Revised: 2019-04-1   Online: 2019-08-25

摘要

【目的】更好地预测乳腺癌生存期, 探索融合多种组学数据利用机器学习方法构建乳腺癌生存预测模型。【方法】通过对TCGA数据库中乳腺癌的基因表达、拷贝数变异、DNA甲基化和蛋白质表达4种组学数据的融合, 使用随机森林算法建立预测模型。【结果】在测试数据集上该模型对乳腺癌分类预测的精确率为97.22%,召回率为98.13%。通过AUC值对比不同类型组合组学数据的预测性能, 融合多组学数据的AUC值为0.8393, 性能最好。【局限】由于样本数量的限制, 模型普适性还有待进一步验证。【结论】融合多种组学数据构建乳腺癌预测模型是一种有效提高预测性能的方法。

关键词: 组学数据融合 ; 随机森林 ; 乳腺癌生存预测

Abstract

[Objective] This paper proposes a model using machine learning techniques and various omics data, aiming to better predict the survival length of breast cancer patients. [Methods] The prediction model was established with random forest algorithm. It merged four types of omics data, including gene expression, copy number variation, DNA methylation and protein expression of breast cancer cases from TCGA database. [Results] On the test data set, the model’s prediction precision reached 97.22%, and the recall was 98.13%. Compared with the exisiting models, the AUC value of our new algorithm was the highest (0.8393). [Limitations] The sample size needs to be expanded. [Conclusions] The proposed method is an effective way to predict breast cancer patients’ survival length.

Keywords: Omics Data Fusion ; Random Forest ; Breast Cancer Survival Prediction

PDF (493KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

齐惠颖, 江雨荷. 基于多组学数据融合构建乳腺癌生存预测模型 *. 数据分析与知识发现[J], 2019, 3(8): 88-93 doi:10.11925/infotech.2096-3467.2019.0021

Qi Huiying. Predicting Breast Cancer Survival Length with Multi-Omics Data Fusion. Data Analysis and Knowledge Discovery[J], 2019, 3(8): 88-93 doi:10.11925/infotech.2096-3467.2019.0021

1 引 言

乳腺癌是女性最常见的恶性肿瘤之一。世界卫生组织国际癌症研究中心2018年公布的报告提到本世纪末癌症将成为全球头号“杀手”。统计显示, 2012年全球有170万妇女被诊断患有乳腺癌, 52万人因患乳腺癌死亡, 世界卫生组织预测, 到2025年癌症确诊病例将超过1 900万例[1]。《国家癌症中心: 2017最新中国肿瘤现状和趋势》报告显示乳腺癌发病率位列中国女性恶性肿瘤之首[2]。由于乳腺癌是一种容易引起转移的疾病, 随着乳腺癌的发病率逐渐升高, 乳腺癌生存预测已成为当前乳腺癌研究所面对的首要问题。

基因组测序技术可以检测基因组上的多种异常现象, 微阵列技术的数据可以反映转录组层面的基因表达情况, 甲基化的变化通常与疾病基因的表达异常相关, 这些由高通量实验技术产生的海量数据统称为组学数据[3]。组学数据反映了癌症的多种生物过程, 为细胞的分子机制提供了详细描述, 不同层次组学数据在全基因组的分布状态与癌症的发生、发展、预后之间存在关联关系, 因此基于组学数据对癌症生存预测有助于形成对乳腺癌更加系统全面的认识, 将大大提高乳腺癌生存预测的准确性。

2 相关研究

基于组学数据的癌症生存预测分析通常的研究策略是使用单一组学数据研究与乳腺癌相关的基因标志物, 例如, Van De Vijver等在295个乳腺癌患者的基因表达数据中, 采用多变量分析方法找出包含70个与乳腺癌生存期相关的基因标志物[4]。贾晓晨等利用mRNA数据使用回归模型建立八基因预测模型[5]。组学数据是一种高维数据, 人工很难精确估计统计模型的参数, 计算性能低。Xu等使用基于支持向量机的特征选择方法发现基因特征、预测乳腺癌生存率。该方法采用特征选择算法处理高维的特征集合, 分析乳腺癌预测的重要特征, 结果表明基于机器学习的特征选择方法比传统的人工选择方法在准确性、敏感性和特异性方面具有更优越的预测性能[6]。由于单一组学数据并不能提供完整的基因信息, 因此单组学数据的分析往往只能体现疾病某一个层面的变化, 而癌症的发生是一个复杂的过程, 涉及到多种分子水平的生物机制, 利用单一组学数据分析很难全面理解癌症发生过程, 因此在生存预测方面有很大的局限性。

每种数据源所表现的基因功能信息是不一样的, 综合多组学数据预测可以获取基因更完整的功能, 提高预测准确率。目前整合多组学数据的研究有基于图的数据融合方法, 例如, Kim等利用基于图的数据融合方法将多个组学数据看作异质性网络中不同节点, 用于卵巢癌患者的分期、分级和生存期等临床术后预测, 该方法中图的节点表示患者, 边缘显示他们之间的关系, 如果两个患者之间的关系比其他患者更密切, 则两个患者的临床结果更可能相似, 患者之间基于多组基因组谱的相似性来预测临床结果[7]。基于图的方法属于半监督机器学习方法, 图中节点之间的权重可以采用不同方式计算, 如欧式距离、核空间距离等, 不同距离公式反映的样本之间的相似性不同, 该方法不具有普适性。此后, Kim等又利用代谢通路整合组学数据对卵巢癌术后预测, 使用P值对多组数据的差异基因进行分析, P值代表显著性, -log(P)越大, 表明显著性差异越大[8], 该方法的缺点是没有考虑不同组学数据之间的异质性。

目前尽管已经有一些利用多组学数据对癌症生存预测的研究, 但是方法还不成熟, 尤其是基于多组学数据的机器学习预测分析应用研究较少。

3 模型构建

3.1 乳腺癌组学数据特征分析

癌症基因组图谱(The Cancer Genome Atlas, TCGA)是目前全球最大的开放获取癌症基因组信息数据库, 该数据库存储了病人的临床数据与使用最新测序技术生成的多组学数据, 为研究癌症的复杂机制提供了丰富数据源。TCGA储存了20多种癌症的基因组数据, 收录了比较全面的癌症基因组数据, 包括突变、拷贝数变异、mRNA表达、miRNA表达和甲基化数据, 是癌症研究的重要数据来源。本研究以TCGA数据库为数据源进行乳腺癌生存预测(数据下载时间为2018年12月), 使用的数据类型信息如表1所示。

表1   TCGA数据库中数据种类的功能说明

数据种类数量说明
临床数据1 098去除了识别标志的临床数据和人口统计数据, 包括病人基本信息、诊治情况、TNM分期、肿瘤病历、生存情况等, 这些数据以XML和Biotab格式保存。
基因表达数据1 092细胞在生命过程中, 把储存在DNA顺序中的遗传信息经过转录和翻译, 转变为具有生物活性的蛋白质分子, 研究表达模式有助于癌症的诊断。
蛋白质表达数据1 098蛋白质表达在癌症的发生和预后表现出明显的差异性。
拷贝数变异数据1 098是一种亚显微水平下的基因组结构变异, 在肿瘤遗传变异中起重要作用。
甲基化数据1 095DNA甲基化程序的变化会引起基因表达失调, 当抑癌基因发生异常甲基化时会引起表达失调进而使得癌细胞的繁殖失去控制以及转移扩散。

新窗口打开| 下载CSV


为探索多组学数据对乳腺癌生存预测的作用, 需要分析影响预测结果的组学数据特征, 上述数据的特征主要表现如下。

(1) 噪声大

不同组学数据获取方法不同, 如基因表达数据使用微阵列和RNA测序获取, 表观遗传变异通过甲基化阵列获取, 蛋白质变异用于代谢组或蛋白组测定等, 由于观测工具分辨率、观察尺度的不同, 使得需要融合的数据有很强的噪声。同时针对一种疾病类型, 大量的特征是不相关、冗余的, 这些也都是噪声信息, 为消除噪声信息, 需要将数据进行标准化处理。

(2) 样本量小, 维数高

受限于生物实验的成本和收集患者样本的困难, 每种病种的样本数量比较少, 而组学数据通常具有高维特性, 例如拷贝数变异数据的原始特征将近25 000维。若数据维度为N, 则特征子集搜索空间范围为2N, 当特征个数成千上万时就会导致特征选择算法无法在合理范围内完成。组学数据的高维小样本特性会导致特征选择算法所选的特征子集产生偏差, 因此针对组学数据高维特征, 如何对组学数据进行降维处理, 从高维特征基因中提取特征子集是多维数据融合的一个核心问题。

3.2 模型构建

癌症的发生与发展涉及基因变异、表观遗传改变、基因表达异常以及信号通路紊乱等诸多层次的复杂调控机制。例如利用基因组学数据研究生殖细胞和体细胞的点突变、结构变异和重排突变等[5], 通过转录组学数据发现了非编码RNA在前列腺癌、肺癌等疾病中的重要作用[6,7], 通过表观遗传数据发现和癌症发生直接相关的甲基化标志物[8], 可见组学数据之间既相互关联又各有侧重。鉴于此, 在融合多组学数据的基础上, 提出乳腺癌生存预测模型, 其主要原理如图1所示。

图1

图1   生存预测模型构建原理


使用标准分数对几种组学数据进行归一化处理, 使用偏最小二乘法进行特征选择, 在此基础上将多组数据融合, 最后采用随机森林的机器学习方法预测生存率。

(1) 归一化处理

为融合不同类型的数据进行统一分析, 需要把几组数据的取值范围规范到同一尺度内, 归一化的目的是让不同维度之间的特征在数值上有一定可比性, 以提高数据分析的精度。本研究采取标准分数(Z-score)标准化基因表达数据[9]。Z-score的计算方法如公式(1)所示。

$x=\frac{(x-\mu )}{\sigma }$

其中, μ为所有样本数据的均值, σ为所有样本数据的标准差。

在Z-score标准化(0均值标准化)中, 新的数据由于对方差进行了归一化, 每个维度的量纲已经等价, 每个维度都服从均值为0、方差为1的正态分布。

(2) 特征选择

数据归一化预处理后, 各个组学数据的特征维度依然很大, 直接利用分类器进行分析往往无法得到预期效果, 甚至会产生过拟合现象。例如拷贝数变异数据的维度是24 000多维, 需要利用特征选择算法进行降维处理, 选出每组数据的最优特征数。

使用主成分分析法实现降维处理, 主成分分析技术的一大好处是对数据进行降维处理的同时最大程度地保持原有数据的信息, 该方法通过对新求出的“主元”向量重要性进行排序, 根据需要提取前面最重要的部分, 将后面的维数省去, 可以达到降维目的, 从而简化预测模型[10]。主成分分析法的另一个优点是最后的结果只与数据相关, 与用户是独立的。

(3) 多组学数据融合策略

多组学数据融合通常有两种方式: 一种方式是输出结果的融合, 该方法将不同种类的组学数据分别建立模型, 各自的预测结果汇总起来进行权值分配, 缺点是难以对分类模型进行解释, 没有考虑到不同种类组学数据间的相关性[11,12,13]。另一种是原始数据的融合, 该方法将多组学数据使用算法融合成一个单一的网络, 再对数据建立模型, 缺点是由于不同数据类型有不同的维度, 原始数据融合面临模型参数难以选择的问题, 而且也不可避免地丢失一些原始信息。本文采用原始数据融合的方式, 对于该方式的缺点采取的处理策略是对不同数据分别进行预处理和特征选择后再统一到一个目标函数完成融合。

(4) 分类策略

根据已有研究可以发现从机器学习的方向出发评价癌症预后预测和统计学方法相比有较高的准确性, 由于乳腺癌生存预测模型是典型的分类问题, 随机森林是通过集成学习的思想将多棵树集成的一种算法。随机森林是基于决策树的节点, 先从一个节点的属性集合中选择一个包括k个属性的子集, 再从这个子集中选择一个最优属性。由于随机森林算法在处理高维特征低维文本问题中的优势, 该方法经常用于基因数据的相关分类问题中, 所以本研究选择随机森林作为分类器预测乳腺癌病人转移复发的可能性。

4 实证研究

4.1 数据预处理

乳腺癌组学数据从TCGA数据库(①https://portal.gdc.cancer.gov/.)获得, 共下载 1 098例乳腺癌病人的组学数据(截止到2018年12月), 使用该数据集的基因表达数据、DNA甲基化数据、拷贝数变异数据和蛋白质表达数据及临床信息作为研究数据。

在基因芯片制备过程中, 由于制备方法与实验因素的影响, 基因表达数据往往存在数据缺失, 将缺失值大于10%的变量去除, 由于分析方法是建立在完整数据集的基础之上, 所以将剩余数据中的缺失数进行填补, 采用最近邻填充算法填充缺失值, 使用Z-score标准化基因表达数据, 将每个表达值离散化到三个值: -1为低表达, 0为正常表达, 1为高表达。对DNA甲基化和蛋白质表达数据也都归一化到(-1,1), 由于拷贝变异数据原始的5个离散值-2, -1, 0, 1, 2分别表示5种状态, 也需要将这5个数归一化到(-1, 1)。经过数据预处理后, 几组组学数据的取值范围都统一到同一尺度内。数据预处理后最终得到1 075条数据。

4.2 特征提取

使用主成分分析法进行多源数据的降维处理, 主成分分析法采用Python中sklearn.decomposition工具包的PCA实现, 该类基本不需要调参数, 只需要对n_components参数指定到需要降的维度, 或者指定降维后的主成分方差和占原始维度所有特征方差和的比例阈值。将参数设置为“mle”, 此时PCA类会用mle算法根据特征的方差分布情况选择一定数量的主成分特征来降维, 在主成分分析法的计算过程中完全不需要人为设定参数或根据任何经验模型对计算进行干预。组学数据降维处理后的数目如 表2所示。

表2   组学数据特征提取后维数变化

数据类型原始特征数目最优特征数目
拷贝数变异24 77620
蛋白质表达21550
基因表达15 97235
DNA甲基化16 47430

新窗口打开| 下载CSV


4.3 模型实现

随机森林算法采用Python的scikit-learn工具包RandomForestClassifier类实现, n_estimators参数和oob_score参数的设置如下, 其他参数使用默认值。

(1) n_estimators参数

随机森林框架参数n_estimators若值太小, 容易欠拟合, 若值太大, 则计算量太大, 同时n_estimators增到一定数量后, 算法性能提升很小, 所以设置一个适中的数值100。

(2) oob_score参数

参数oob_score反映一个模型拟合后的泛化能力, 设置为Ture。

4.4 实验结果

使用5年作为划分两类患者的阈值, 生存期小于5年为短生存期样本, 大于5年为长生存期样本, 短生存期样本分类标签设为0, 长生存期样本分类标签设为1。从1 075条数据中选取80%作为训练集, 其余20%作为测试集。实验结果预测混淆矩阵如表3所示。

表3   预测混淆矩阵

样本实际值预测值预测是否正确预测结果
PositivePositiveTRUEPositive(TP)
NegativePositiveFALSEPositive(FP)
PositiveNegativeFALSENegative(FN)
NegativeNegativeTRUENegative(TN)

新窗口打开| 下载CSV


其中, TP表示样本为正, 预测结果为正; FP表示样本为负, 预测结果为正; TN表示样本为负, 预测结果为负; FN表示样本为正, 预测结果为负。

评估公式分别使用精确率(Precision)、召回率(Recall)和F1值(F1-Score)表示, 计算方法如公式(2)-公式(4)所示。F1值是统计学中用来衡量二分类模型精确度的一种指标, 该分数同时兼顾分类模型的精确率和召回率。

$Precision=\frac{TP}{TP+FP}$
$Recall=\frac{TP}{TP+FN}$
$F{{1}_{score}}=\frac{2\times Precision\times Recall}{Precision+Recall}$

模型在测试数据集上的实验结果如表4所示, 该方法对乳腺癌分类预测的精确率为97.22%, 检测的召回率为98.13%, 实验结果较好, 有效地证明了该模型的实用性。

表4   测试数据集的实验结果

TPFPTNFN精确率召回率F1值
105310520.97220.98130.9767

新窗口打开| 下载CSV


4.5 性能评估与比较

为探索融合多组学数据对乳腺癌生存预测性能提高的大小, 依次从多组学数据中移除一组数据, 使用AUC(Area Under roc Curve)预测得到不同的性能, 对比结果如表5所示。可见, 移除任何一组数据, 模型的整体性能都有所下降, 说明每组数据对乳腺癌生存预测都有贡献。在这几组数据中当移除除蛋白质表达数据时, AUC值从0.8393下降到0.7913, 模型性能下降幅度最大, 说明蛋白质表达数据的贡献最大。通过几组数据的比较可以看出, 融合多种组学数据可以有效提高乳腺癌生存预测模型的性能。

表5   不同类型组合的组学数据AUC值比较

组学数据AUC值
拷贝数变异+蛋白质表达+基因表达+DNA甲基化0.8393
拷贝数变异+蛋白质表达+基因表达0.8174
拷贝数变异+蛋白质表达+DNA甲基化0.8066
拷贝数变异+基因表达+DNA甲基化0.7913
蛋白质表达+基因表达+DNA甲基化0.8303

新窗口打开| 下载CSV


5 结 语

乳腺癌生存期作为评价乳腺癌患者预后的重要指标, 对于指导临床医生制定合适的治疗方案有重要意义。本文提出一种融合多种组学数据的随机森林乳腺癌生存期预测方法, 该方法融合TCGA数据库中的乳腺癌基因表达、拷贝数变异、DNA甲基化和蛋白质表达4种组学数据, 在对原始数据进行归一化和特征降维处理后使用随机森林机器学习算法建立预测模型, 并验证模型的实用性, 同时也通过实验证明了多种组学数据融合可以有效地提高模型的预测性能。本文方法为现有乳腺癌生存期预测研究提供了一种新思路, 并为相关研究提供一定的理论指导。尽管本研究取得了不错的预测性能, 但仍然还有提升空间。由于乳腺癌的生存期受多种因素影响, 因此如何融合更多类型的相关数据, 进一步提高生存期预测的性能, 是下一步的主要工作。

作者贡献声明

齐惠颖: 提出研究思路, 分析实验数据, 实现算法, 撰写论文;

江雨荷: 整理文献和实验数据。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: qhy@bjmu.edu.cn。

[1] 齐惠颖. BreastCancer.sql. 乳腺癌病人的组学数据.

[2] 齐惠颖. Result.xlsx, capability.xlsx. 实验结果混淆矩阵和性能评估数据.

参考文献

世卫组织: 2018 年全球最新癌症报告

[EB/OL]. [2019-01-02].

URL     [本文引用: 1]

(

WHO: Global Latest Cancer Report 2018

[EB/OL].[ 2019-01-02]. )

URL     [本文引用: 1]

国家癌症中心: 2017最新中国肿瘤现状和趋势

[EB/OL]. [ 2019- 01- 02].

URL     [本文引用: 1]

(

National Cancer Center: The Latest Cancer Status and Trends in China in 2017

[EB/OL]. [ 2019- 01- 02].

URL     [本文引用: 1]

Hidalgo S J T, Ma S .

Clustering Multilayer Omics Data Using MuNCut

[J]. BMC Genomics, 2018,19(1):198.

[本文引用: 1]

Van De Vijver M J, He Y D, Van’t Veer L J , et al.

A Gene-Expression Signature as a Predictor of Survival in Breast Cancer

[J]. New England Journal of Medicine, 2002,347(25):1999-2009.

[本文引用: 1]

贾晓晨, 贾勇圣, 孟文静 , .

基于TCGA数据库建立的八基因预后模型在乳腺癌中的应用

[J]. 天津医药, 2018,46(8):856-861.

[本文引用: 2]

( Jia Xiaochen, Jia Yongsheng, Meng Wenjing , et al.

Identification of Prognostic Eight-Gene Signature Model in Breast Cancer Using Integrated TCGA Database

[J]. Tianjin Medical Journal, 2018,46(8):856-861.)

[本文引用: 2]

Xu X, Zhang Y, Zou L, et al.

A Gene Signature for Breast Cancer Prognosis Using Support Vector Machine

[C]// Proceedings of the 5th International Conference on BioMedical Engineering and Informatics. IEEE, 2013: 928-931.

[本文引用: 2]

Kim D, Joung J G, Sohn K A , et al.

Knowledge Boosting: A Graph-Based Integration Approach with Multi-Omics Data and Genomic Knowledge for Cancer Clinical Outcome Prediction

[J]. Journal of the American Medical Informatics Association, 2015,22(1):109-120.

[本文引用: 2]

Kim D, Li R, Lucas A , et al.

Using Knowledge-Driven Genomic Interactions for Multi-Omics Data Analysis: Meta Dimensional Models for Predicting Clinical Outcomes in Ovarian Carcinoma

[J]. Journal of the American Medical Informatics Association, 2016,24(3):577-587.

[本文引用: 2]

Satagopan J M, Venkatraman E S, Begg C B .

Two-Stage Designs for Gene-Disease Association Studies with Sample Size Constraints

[J]. Biometrics, 2004,60(3):589-597.

[本文引用: 1]

Wold S, Esbensen K, Geladi P .

Principal Component Analysis

[J]. Chemometrics & Intelligent Laboratory Systems, 1987,2(1-3):37-52.

[本文引用: 1]

Gao J, Liang F, Fan W , et al.

A Graph-Based Consensus Maximization Approach for Combing Multiple Supervised and Unsupervised Models

[J]. IEEE Transactions on Knowledge and Data Engineering, 2013,25(1):15-28.

[本文引用: 1]

Yu G, Zhu H, Domeniconi C , et al.

Integrating Multiple Networks for Protein Function Prediction

[J]. BMC Systems Biology, 2015, 9(S1): Article No. S3.

[本文引用: 1]

Guo X, Gao L, Liao Q , et al.

Long Non-Coding RNAs Function Annotation: A Global Prediction Method Based on Bi-Colored Networks

[J]. Nucleic Acids Research, 2013,41(2):e35.

[本文引用: 1]

/

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn