基于多组学数据融合构建乳腺癌生存预测模型 *
齐惠颖,江雨荷

Predicting Breast Cancer Survival Length with Multi-Omics Data Fusion
Huiying Qi,Yuhe Jiang
表1 TCGA数据库中数据种类的功能说明
数据种类 数量 说明
临床数据 1 098 去除了识别标志的临床数据和人口统计数据, 包括病人基本信息、诊治情况、TNM分期、肿瘤病历、生存情况等, 这些数据以XML和Biotab格式保存。
基因表达数据 1 092 细胞在生命过程中, 把储存在DNA顺序中的遗传信息经过转录和翻译, 转变为具有生物活性的蛋白质分子, 研究表达模式有助于癌症的诊断。
蛋白质表达数据 1 098 蛋白质表达在癌症的发生和预后表现出明显的差异性。
拷贝数变异数据 1 098 是一种亚显微水平下的基因组结构变异, 在肿瘤遗传变异中起重要作用。
甲基化数据 1 095 DNA甲基化程序的变化会引起基因表达失调, 当抑癌基因发生异常甲基化时会引起表达失调进而使得癌细胞的繁殖失去控制以及转移扩散。