Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (8): 88-93     https://doi.org/10.11925/infotech.2096-3467.2019.0021
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于多组学数据融合构建乳腺癌生存预测模型 *
齐惠颖1(),江雨荷2
1北京大学医学人文学院 北京 100191
2北京大学医学部 北京 100191
Predicting Breast Cancer Survival Length with Multi-Omics Data Fusion
Huiying Qi1(),Yuhe Jiang2
1School of Health Humanities, Peking University, Beijing 100191, China
2Health Science Center, Peking University, Beijing 100191, China
全文: PDF (493 KB)   HTML ( 12
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】更好地预测乳腺癌生存期, 探索融合多种组学数据利用机器学习方法构建乳腺癌生存预测模型。【方法】通过对TCGA数据库中乳腺癌的基因表达、拷贝数变异、DNA甲基化和蛋白质表达4种组学数据的融合, 使用随机森林算法建立预测模型。【结果】在测试数据集上该模型对乳腺癌分类预测的精确率为97.22%,召回率为98.13%。通过AUC值对比不同类型组合组学数据的预测性能, 融合多组学数据的AUC值为0.8393, 性能最好。【局限】由于样本数量的限制, 模型普适性还有待进一步验证。【结论】融合多种组学数据构建乳腺癌预测模型是一种有效提高预测性能的方法。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
齐惠颖
江雨荷
关键词 组学数据融合随机森林乳腺癌生存预测    
Abstract

[Objective] This paper proposes a model using machine learning techniques and various omics data, aiming to better predict the survival length of breast cancer patients. [Methods] The prediction model was established with random forest algorithm. It merged four types of omics data, including gene expression, copy number variation, DNA methylation and protein expression of breast cancer cases from TCGA database. [Results] On the test data set, the model’s prediction precision reached 97.22%, and the recall was 98.13%. Compared with the exisiting models, the AUC value of our new algorithm was the highest (0.8393). [Limitations] The sample size needs to be expanded. [Conclusions] The proposed method is an effective way to predict breast cancer patients’ survival length.

Key wordsOmics Data Fusion    Random Forest    Breast Cancer Survival Prediction
收稿日期: 2019-01-07      出版日期: 2019-09-29
ZTFLH:  TP391 G35  
基金资助:*本文系国家自然科学基金项目“基于组学大数据的免疫细胞及其亚群的标志分析系统分析与鉴定”的研究成果之一(31670947)
通讯作者: 齐惠颖     E-mail: qhy@bjmu.edu.cn
引用本文:   
齐惠颖,江雨荷. 基于多组学数据融合构建乳腺癌生存预测模型 *[J]. 数据分析与知识发现, 2019, 3(8): 88-93.
Huiying Qi,Yuhe Jiang. Predicting Breast Cancer Survival Length with Multi-Omics Data Fusion. Data Analysis and Knowledge Discovery, 2019, 3(8): 88-93.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0021      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2019/V3/I8/88
数据种类 数量 说明
临床数据 1 098 去除了识别标志的临床数据和人口统计数据, 包括病人基本信息、诊治情况、TNM分期、肿瘤病历、生存情况等, 这些数据以XML和Biotab格式保存。
基因表达数据 1 092 细胞在生命过程中, 把储存在DNA顺序中的遗传信息经过转录和翻译, 转变为具有生物活性的蛋白质分子, 研究表达模式有助于癌症的诊断。
蛋白质表达数据 1 098 蛋白质表达在癌症的发生和预后表现出明显的差异性。
拷贝数变异数据 1 098 是一种亚显微水平下的基因组结构变异, 在肿瘤遗传变异中起重要作用。
甲基化数据 1 095 DNA甲基化程序的变化会引起基因表达失调, 当抑癌基因发生异常甲基化时会引起表达失调进而使得癌细胞的繁殖失去控制以及转移扩散。
  TCGA数据库中数据种类的功能说明
  生存预测模型构建原理
数据类型 原始特征数目 最优特征数目
拷贝数变异 24 776 20
蛋白质表达 215 50
基因表达 15 972 35
DNA甲基化 16 474 30
  组学数据特征提取后维数变化
样本实际值 预测值 预测是否正确 预测结果
Positive Positive TRUE Positive(TP)
Negative Positive FALSE Positive(FP)
Positive Negative FALSE Negative(FN)
Negative Negative TRUE Negative(TN)
  预测混淆矩阵
TP FP TN FN 精确率 召回率 F1值
105 3 105 2 0.9722 0.9813 0.9767
  测试数据集的实验结果
组学数据 AUC值
拷贝数变异+蛋白质表达+基因表达+DNA甲基化 0.8393
拷贝数变异+蛋白质表达+基因表达 0.8174
拷贝数变异+蛋白质表达+DNA甲基化 0.8066
拷贝数变异+基因表达+DNA甲基化 0.7913
蛋白质表达+基因表达+DNA甲基化 0.8303
  不同类型组合的组学数据AUC值比较
[1] 世卫组织: 2018 年全球最新癌症报告[EB/OL]. [2019-01-02].
[1] ( WHO: Global Latest Cancer Report 2018[EB/OL].[ 2019-01-02]. )
[2] 国家癌症中心: 2017最新中国肿瘤现状和趋势[EB/OL]. [ 2019- 01- 02].
[2] ( National Cancer Center: The Latest Cancer Status and Trends in China in 2017[EB/OL]. [ 2019- 01- 02].
[3] Hidalgo S J T, Ma S . Clustering Multilayer Omics Data Using MuNCut[J]. BMC Genomics, 2018,19(1):198.
[4] Van De Vijver M J, He Y D, Van’t Veer L J , et al. A Gene-Expression Signature as a Predictor of Survival in Breast Cancer[J]. New England Journal of Medicine, 2002,347(25):1999-2009.
[5] 贾晓晨, 贾勇圣, 孟文静 , 等. 基于TCGA数据库建立的八基因预后模型在乳腺癌中的应用[J]. 天津医药, 2018,46(8):856-861.
[5] ( Jia Xiaochen, Jia Yongsheng, Meng Wenjing , et al. Identification of Prognostic Eight-Gene Signature Model in Breast Cancer Using Integrated TCGA Database[J]. Tianjin Medical Journal, 2018,46(8):856-861.)
[6] Xu X, Zhang Y, Zou L, et al. A Gene Signature for Breast Cancer Prognosis Using Support Vector Machine [C]// Proceedings of the 5th International Conference on BioMedical Engineering and Informatics. IEEE, 2013: 928-931.
[7] Kim D, Joung J G, Sohn K A , et al. Knowledge Boosting: A Graph-Based Integration Approach with Multi-Omics Data and Genomic Knowledge for Cancer Clinical Outcome Prediction[J]. Journal of the American Medical Informatics Association, 2015,22(1):109-120.
[8] Kim D, Li R, Lucas A , et al. Using Knowledge-Driven Genomic Interactions for Multi-Omics Data Analysis: Meta Dimensional Models for Predicting Clinical Outcomes in Ovarian Carcinoma[J]. Journal of the American Medical Informatics Association, 2016,24(3):577-587.
[9] Satagopan J M, Venkatraman E S, Begg C B . Two-Stage Designs for Gene-Disease Association Studies with Sample Size Constraints[J]. Biometrics, 2004,60(3):589-597.
[10] Wold S, Esbensen K, Geladi P . Principal Component Analysis[J]. Chemometrics & Intelligent Laboratory Systems, 1987,2(1-3):37-52.
[11] Gao J, Liang F, Fan W , et al. A Graph-Based Consensus Maximization Approach for Combing Multiple Supervised and Unsupervised Models[J]. IEEE Transactions on Knowledge and Data Engineering, 2013,25(1):15-28.
[12] Yu G, Zhu H, Domeniconi C , et al. Integrating Multiple Networks for Protein Function Prediction[J]. BMC Systems Biology, 2015, 9(S1): Article No. S3.
[13] Guo X, Gao L, Liao Q , et al. Long Non-Coding RNAs Function Annotation: A Global Prediction Method Based on Bi-Colored Networks[J]. Nucleic Acids Research, 2013,41(2):e35.
[1] 刘渊晨, 王昊, 高亚琪. 在线音乐歌单播放量预测及影响因素分析*[J]. 数据分析与知识发现, 2021, 5(8): 100-112.
[2] 余本功,曹雨蒙,陈杨楠,杨颖. 基于nLD-SVM-RF的短文本分类研究*[J]. 数据分析与知识发现, 2020, 4(1): 111-120.
[3] 陈万成,戴浩然,金映含. 基于数据挖掘方法的HEDONIC房屋价格评估模型——以美国城市西雅图为例[J]. 数据分析与知识发现, 2019, 3(5): 19-26.
[4] 周成, 魏红芹. 基于随机森林属性约简的众包竞赛参与者识别体系研究*[J]. 数据分析与知识发现, 2018, 2(7): 46-54.
[5] 陈远, 王超群, 胡忠义, 吴江. 基于主成分分析和随机森林的恶意网站评估与识别*[J]. 数据分析与知识发现, 2018, 2(4): 71-80.
[6] 张李义, 李一然, 文璇. 新消费者重复购买意向预测研究*[J]. 数据分析与知识发现, 2018, 2(11): 10-18.
[7] 吕伟民, 王小梅, 韩涛. 结合链路预测和ET机器学习的科研合作推荐方法研究*[J]. 数据分析与知识发现, 2017, 1(4): 38-45.
[8] 原欣伟, 杨少华, 王超超, 杜占河. 基于用户特征抽取和随机森林分类的用户创新社区领先用户识别研究*[J]. 数据分析与知识发现, 2017, 1(11): 62-74.
[9] 张李义, 张皎. 一种基于主成分分析和随机森林的刷客识别方法[J]. 现代图书情报技术, 2015, 31(10): 65-71.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn