Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (5): 73-79     https://doi.org/10.11925/infotech.1003-3513.2015.05.10
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
利用Hadoop/HBase的药物基因组数据云存储实践研究
范云满, 洪娜, 钱庆, 方安
中国医学科学院医学信息研究所 北京 100020
The Research Practices of DataBase Cloud Storage Using Hadoop/HBase for the Pharmacogenomics Data
Fan Yunman, Hong Na, Qian Qing, Fang An
Institute of Medical Information, Chinese Academy of Medical Sciences, Beijing 100020, China
全文: PDF (1016 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的]探索在导入、保存、检索、批量导出生物医学大数据方面的新思路和新方法, 积累第一手经验。[方法]分析生物医学大数据的特点, 从理论方面和数据查询对比实验两个方面, 对比分析以Oracle为代表的传统关系数据库和以HBase为代表的NoSQL数据库在解决大数据问题时各自采用的技术以及各自的优势与不足。以一个药物基因组数据存储系统为例, 进行云存储实践和初步的对比实验。[结果]HBase在处理大量数据的实际应用中, 比Oracle更具优势。[局限]没有对药物基因组学数据进行深入挖掘分析, 同时需要对Hadoop/HBase做深入的技术优化。[结论]HBase在本文实验的应用场景中能够满足生物医学大数据存储的要求。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
洪娜
钱庆
范云满
方安
关键词 生物医学大数据关系数据库NoSQLHadoopHBase    
Abstract

[Objective] To explore the new idea and method, accumulate first-hand experience from the aspects of importing, storaging, retrievaling and bulk exporting the large-scale biomedical data. [Methods] Analyze the characteristics of the large-scale biomedical data, and compare the technologies, the advantages and disadvantages for solving the big data problem of the traditional relational databases (the representative Oracle) and the NoSQL database (the representative HBase), from the aspects of theoretic and test results. Take a drug database of genomic data storage systems as an example, and make a test for the performances of Oracle and HBase. [Results] HBase in practical application has a large advantage over Oracle when process large data. [Limitations] Lacking the deep mining and analysing to the pharmacogenomics data, the future research needs an in-depth technical optimization for Hadoop/HBase. [Conclusions] In this experiment, HBase can meet storage requirements for the large-scale biomedical data.

Key wordsBiomedicine    Big data    RDBMS    NoSQL    Hadoop    Hbase
收稿日期: 2014-11-05      出版日期: 2015-06-11
:  G352  
基金资助:

本文系中央级公益性科研院所基本科研业务费专项资金项目“面向大数据的医学科研支撑环境建设初步研究”(项目编号:13R0102)和国家社会科学基金项目“关联数据中潜在知识关联的发现方法研究”(项目编号:11CTQ016)的研究成果之一。

通讯作者: 洪娜,ORCID:0000-0002-3814-0899,E-mail:hong.na@imicams.ac.cn。     E-mail: hong.na@imicams.ac.cn
作者简介: 作者贡献声明: 钱庆:提出Hadoop/HBase云存储的研究思路;方安:准备研究环境,设计研究思路;范云满,洪娜:实施实验,收集数据,起草论文;洪娜:论文修改及最终版本修订。
引用本文:   
范云满, 洪娜, 钱庆, 方安. 利用Hadoop/HBase的药物基因组数据云存储实践研究[J]. 现代图书情报技术, 2015, 31(5): 73-79.
Fan Yunman, Hong Na, Qian Qing, Fang An. The Research Practices of DataBase Cloud Storage Using Hadoop/HBase for the Pharmacogenomics Data. New Technology of Library and Information Service, 2015, 31(5): 73-79.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.05.10      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2015/V31/I5/73

[1] PubMed [EB/OL]. [2014-10-30]. http://www.ncbi.nlm.nih. gov/pubmed.
[2] Unified Medical Language System (UMLS) [EB/OL]. [2014-10-30]. http://www.nlm.nih.gov/research/umls/.
[3] UniProt [EB/OL]. [2014-10-30]. http://www.uniprot.org/.
[4] 王培建. 云计算环境下大规模数据存储技术研究[D]. 北京: 北京邮电大学, 2013. (Wang Peijian. The Research of Big Data Storage Technology in Cloud Computing [D]. Beijing: Beijing University of Posts and Telecommunications, 2013.)
[5] 李青. 基于NoSQL的大数据处理的研究[D]. 西安: 西安电子科技大学, 2014. (Li Qing. Processing of Big Data Based on NoSQL [D]. Xi'an: Xidian University, 2014.)
[6] 卓海艺. 基于HBase的海量数据实时查询系统设计与实现[D]. 北京: 北京邮电大学, 2013. (Zhuo Haiyi. The Design and Implementation of Real-time Query System for Mass Data Based on HBase [D]. Beijing: Beijing University of Posts and Telecommunications, 2013.)
[7] 潘洪志. 高性能NoSQL存储系统的研究与实现[D]. 长春: 吉林大学, 2014. (Pan Hongzhi. Research and Implementation of High-performance Storage Systems NoSQL [D]. Chang-chun: Jilin University, 2014.)
[8] 边耐政, 郑小裕. SQL与NoSQL数据库的统一查询模型的设计与实现 [C]. 见: 电子教育, 电子商务与信息管理国际会议, 上海, 中国. 2014. (Bian Naizheng, Zheng Xiaoyu. Design and Implementation of Relation Database and Non-Relation Database Unified Query Model [C]. In: Proceedings of the 2014 International Conference on E-Education, E-Business and Information Management, Shanghai, China. 2014.)
[9] Cattell R. Scalable SQL and NoSQL Data Stores [J]. ACM SIGMOD Record, 2010, 39(4): 12-27.
[10] Hadjigeorgiou C. RDBMS vs NoSQL: Performance and Scaling Comparison [EB/OL]. [2014-10-30]. http://static.ph. ed.ac.uk/dissertations/hpc-msc/2012-2013/RDBMS%20vs%20NoSQL%20-%20Performance%20and%20Scaling%20Comparison.pdf.
[11] Nance C, Losser T, Iype R, et al. NoSQL vs RDBMS-Why There is Room for Both [C]. In: Proceedings of the 2013 Southern Association for Information Systems. 2013.
[12] Moniruzzaman A B M, Hossain S A. NoSQL Database: New Era of Databases for Big Data Analytics-Classification, Characteristics and Comparison [OL]. arXiv, 2013. arXiv: 1307. 0191.
[13] Boicea A, Radulescu F, Agapin L I. MongoDB vs Oracle-Database Comparison [C]. In: Proceedings of the 3rd International Conference on Emerging Intelligent Data and Web Technologies, Bucharest, Romania. 2012.
[14] HBase [EB/OL]. [2014-10-30]. http://hbase.apache.org/.
[15] Chang F, Dean J, Ghemawat S, et al. Bigtable: A Distributed Storage System for Structured Data [J]. ACM Transactions on Computer Systems (TOCS), 2008, 26(2): Article No.4.
[16] Johnson J A. Pharmacogenetics: Potential for Individualized Drug Therapy Through Genetics [J]. Trends in Genet, 2003, 19(11): 660-666.

[1] 常志军,钱力,谢靖,吴振新,张鹄,于倩倩,王颖,王永吉. 基于分布式技术的科技文献大数据平台的建设研究*[J]. 数据分析与知识发现, 2021, 5(3): 69-77.
[2] 陈仕吉, 邱均平, 余波. 基于Overlay图谱的图情领域大数据主题分析*[J]. 数据分析与知识发现, 2021, 5(10): 51-59.
[3] 赵宇翔,练靖雯. 数字人文视域下文化遗产众包研究综述*[J]. 数据分析与知识发现, 2021, 5(1): 36-55.
[4] 邱尔丽,何鸿魏,易成岐,李慧颖. 基于字符级CNN技术的公共政策网民支持度研究 *[J]. 数据分析与知识发现, 2020, 4(7): 28-37.
[5] 王建冬,于施洋. 构建国家经济大脑的实践探索与初步设想 *[J]. 数据分析与知识发现, 2020, 4(7): 2-17.
[6] 王建冬. 大数据在经济监测预测研究中的应用进展*[J]. 数据分析与知识发现, 2020, 4(1): 12-26.
[7] 孔贝贝,谢靖,钱力,常志军,吴振新. 科技大数据增值丰富化方法研究与工具研发 *[J]. 数据分析与知识发现, 2019, 3(7): 113-122.
[8] 董晓舟,陈信康. 电子折扣券弹性与经济效益的关系研究 ——一个基于电商平台大数据的混合模型[J]. 数据分析与知识发现, 2019, 3(6): 42-49.
[9] 陆泉,朱安琪,张霁月,陈静. 中文网络健康社区中的用户信息需求挖掘研究*——以求医网肿瘤板块数据为例[J]. 数据分析与知识发现, 2019, 3(4): 22-32.
[10] 王颖,钱力,谢靖,常志军,孔贝贝. 科技大数据知识图谱构建模型与方法研究*[J]. 数据分析与知识发现, 2019, 3(1): 15-26.
[11] 钱力,谢靖,常志军,吴振新,张冬荣. 基于科技大数据的智能知识服务体系研究设计*[J]. 数据分析与知识发现, 2019, 3(1): 4-14.
[12] 胡吉颖,谢靖,钱力,付常雷. 基于知识图谱的科技大数据知识发现平台建设*[J]. 数据分析与知识发现, 2019, 3(1): 55-62.
[13] 谢靖,钱力,师洪波,孔贝贝,胡吉颖. 科研学术大数据的精准服务架构设计*[J]. 数据分析与知识发现, 2019, 3(1): 63-71.
[14] 张志强, 范少萍, 陈秀娟. 面向精准医学知识发现的生物医学信息学发展*[J]. 数据分析与知识发现, 2018, 2(1): 1-8.
[15] 沈志宏, 姚畅, 侯艳飞, 吴林寰, 李跃鹏. 关联大数据管理技术: 挑战、对策与实践*[J]. 数据分析与知识发现, 2018, 2(1): 9-20.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn