Please wait a minute...
Advanced Search
现代图书情报技术  2010, Vol. 26 Issue (10): 76-81     https://doi.org/10.11925/infotech.1003-3513.2010.10.13
  应用实践 本期目录 | 过刊浏览 | 高级检索 |
搭建基于云计算的开源海量数据挖掘平台
赵华茗
中国科学院国家科学图书馆 北京 100190
Building the Open Source Mass Data Mining Platform Based on Cloud Computing
Zhao Huaming
National Science Library,Chinese Academy of Sciences,Beijing 100190,China
全文: PDF (661 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

通过分析亚马逊弹性MapReduce(EMR)平台构架,针对信息情报机构内部数据处理的迫切需求,提出通过开源技术Xen和Hadoop平台构建基于云计算的动态可伸缩的海量数据处理平台并给出实施方案、海量文本数据处理案例和开源EMR平台的优势分析。实施方案主要分为三部分:搭建动态虚拟的云计算环境、安装制作Hadoop虚拟服务器模板、配置运行Cloudera和Cloudera Desktop。通过开源EMR架构的应用,可以有效解决服务器蔓延问题,提高网络计算资源的利用效率和分布式数据挖掘服务的快速布署能力及灵活性。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
赵华茗
关键词 云计算海量数据挖掘虚拟技术分布式计算XenClouderaHadoop    
Abstract

Aiming to meet the internal data processing needs of information organizations, this paper, by analyzing the frameworks of Amazon Elastic Map/Reduce (EMR) platform, puts forward to build the dynamic and elastic open source mass data mining platform based on cloud computing, and provides a roadmap of successful implementation, an example of massive text data processing and the analysis of advantages of open source EMR platform. This implementation plan includes three parts: building dynamic virtual environment of cloud computing,creating the virtual server template of Hadoop, and deploying and running Cloudera and Cloudera Desktop. Through the application of open source EMR platform , the problem of server sprawl can be solved effectively,the utilization ratio of network computing resource is improved,and the rapid deployment capability and agility of distributed data processing services are enhanced.

Key wordsCloud    computing    Mass    data    mining    Virtualization    Distributed    computing    Xen    Cloudera    Hadoop
收稿日期: 2010-09-26      出版日期: 2011-01-04
: 

TP393

 
基金资助:

本文系“第二十四届全国计算机信息管理学术研讨会”论文。

引用本文:   
赵华茗. 搭建基于云计算的开源海量数据挖掘平台[J]. 现代图书情报技术, 2010, 26(10): 76-81.
Zhao Huaming. Building the Open Source Mass Data Mining Platform Based on Cloud Computing. New Technology of Library and Information Service, 2010, 26(10): 76-81.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2010.10.13      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2010/V26/I10/76


[1] 2010 Digital Universe Study . .http://gigaom.files.wordpress.com/2010/05/2010-digital-universe-iview_5-4-10.pdf.

[2] Amazon Introduces Elastic MapReduce (Hadoop Framework) Service . . http://www.byteonic.com/2009/amazon-introduces-elastic-mapreduce-Hadoop-framework-service/.

[3] Amazon Elastic MapReduce . .http://aws.amazon.com/elasticmapreduce/.

[4] Cloudera Enterprise . .http://www.Cloudera.com/products-services/enterprise/.

[5] Hadoop中国2009云计算大会 . .http://Linux.chinaunix.net/news/2009/11/15/1144192.shtml.

[6] Developing Applications for HUE . .http://www.Cloudera.com/blog/2010/07/developing-applications-for-hue/.

[7] Pratt I, Fraser K, Hand S,et al.Xen 3.0 and the Art of Virtualization . .http://www.Linuxsymposium.org/2005/Linuxsymposium_procv2.pdf.

[8] Technical and Commercial Comparison of Citrix XenServer and VMware . . http://www.citrix.com/site/resources/dynamic/salesdocs/XS_vs_VMware_comparison.pdf.

[9] VMware vSphere . .http://www.vmware.com/products/esx/.

[10] XenServer Installation Guide . . http://support.citrix.com/servlet/KbServlet/download/18052-102-19049/installation.pdf.

[11] Hadoop Cluster Setup . . http://hadoop.apache.org/common/docs/r0.20.0/cluster_setup.html.

[12] Hadoop 5_minute Quick Start . . http://nightly.cloudera.com/docs-backup/hadoop_5_minute_quick_start.html.

[13] Hadoop添加节点的方法 . . http://wenku.baidu.com/view/e57ffe3e0912a2161479291e.html.

[14] 赵华茗,李春旺,周强.基于XenServer的数字图书馆云服务平台实现研究
[J]. 电信科学 ,2010, 26(8A):33-38.

[15] Hadoop Map/Reduce Tutorial . .http://Hadoop.apache.org/common/docs/r0.18.2/mapred_tutorial.html.

[16] Amazon Elastic MapReduce Updates from Hadoop Summit 2010 . . http://www.infoq.com/news/2010/07/amazon-elastic-mapreduce-updates.

[1] 常志军,钱力,谢靖,吴振新,张鹄,于倩倩,王颖,王永吉. 基于分布式技术的科技文献大数据平台的建设研究*[J]. 数据分析与知识发现, 2021, 5(3): 69-77.
[2] 高长元, 于建萍, 何晓燕. 基于改进粒子群算法的云计算产业联盟知识搜索算法研究*[J]. 数据分析与知识发现, 2017, 1(3): 81-89.
[3] 杨爱东,刘东苏. 基于Hadoop的微博舆情监控系统模型研究[J]. 现代图书情报技术, 2016, 32(5): 56-63.
[4] 范云满, 洪娜, 钱庆, 方安. 利用Hadoop/HBase的药物基因组数据云存储实践研究[J]. 现代图书情报技术, 2015, 31(5): 73-79.
[5] 马宾, 殷立峰. 一种基于Hadoop平台的并行朴素贝叶斯网络舆情快速分类算法[J]. 现代图书情报技术, 2015, 31(2): 78-84.
[6] 赵华茗. 分布式环境下的文本聚类研究与实现[J]. 现代图书情报技术, 2015, 31(1): 82-88.
[7] 颜时彦, 王胜清, 罗云川, 黄浩军. 云环境下基于FCA的领域本体协作构建模式初探[J]. 现代图书情报技术, 2014, 30(3): 49-56.
[8] 肖强, 朱庆华, 郑华, 吴克文. Hadoop环境下的分布式协同过滤算法设计与实现[J]. 现代图书情报技术, 2013, 29(1): 83-89.
[9] 刘茜, 胡朝明. 图书馆私有云基础构架开源解决方案[J]. 现代图书情报技术, 2012, 28(7): 48-53.
[10] 亢丽芸, 王效岳, 白如江. MapReduce原理及其主要实现平台分析[J]. 现代图书情报技术, 2012, 28(2): 60-67.
[11] 王伟军, 姜毅, 刘蕤, Kari Smolander. 云计算环境下软件测试研究进展[J]. 现代图书情报技术, 2012, (11): 3-9.
[12] 姜毅, 曹丽, 王伟军, Ossi Taipale. “测试即服务”概念模型研究[J]. 现代图书情报技术, 2012, (11): 10-15.
[13] 张一弛, 熊湘文, 黄雅文, 王世雄. 云计算环境下测试数据的界定与管理[J]. 现代图书情报技术, 2012, (11): 16-21.
[14] Udhyan Timilsina, Leah Riungu-Kalliosaari, Ossi Taipale, Kari Smolander, 王伟军. 公有云应用中测试的安全问题[J]. 现代图书情报技术, 2012, (11): 22-33.
[15] 王家兵. 利用Arduino及Android终端的图书馆机房远程监控系统研发[J]. 现代图书情报技术, 2012, (10): 89-92.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn