Advanced Search
 
公 告
作者指南
行业动态
  首页 > 行业动态
谷歌研发出新技术Dremel轻松处理大数据

谷歌研发出新技术Dremel轻松处理大数据

 Dremel是一种分析数据的方法,它运行在上千台服务器上,能够对海量数据执行“查询”操作,例如网页文档集、数字图书馆甚至百万规模的垃圾信息等。这有点类似于在过去传统的数据库上执行SQL操作,过去几十年来,SQL(结构化查询语言)在软件领域得到了广泛的应用。Dremel是一个类似SQL风格的语言,能够在不编程的前提下轻松定义特定的查询或反复查询,只需要把查询命令输入命令行。但是与SQL的不同之处在于,Dremel以极快的速度处理大规模的数据。据Google的论文数据显示,能够在几秒钟之内查询多达数PB的数据(1PB等于100万GB)。
 Hadoop已经提供了相应的工具,能够在大数据集上运行类SQL查询,Hadoop的姊妹项目Pig & Hive就是专门为这个目的而建立的,但是Hadoop存在时间延迟,它是一个用来进行“批处理”的平台,制定一个任务,需要几分钟或几个小时来执行这个任务,之后才能得到结果,而Dremel则是专门为即时查询而生的。
 Google的论文中提到:“Dremel能够在大数据上同时执行多个查询操作,并且只需要极短的执行时间。在以前,则需要写一系列的MapReduce任务,执行时间也比Dremel要长很多。Dremel在一个PB级别的数据上完成查询只需要短短三秒钟的时间。专门研究数据中心级软件平台的加州大学伯克利分校计算机系教授Armando Fox表示,Dremel的表现是史无前例的”。
 他还说:“Hadoop是‘大数据’时代的核心,是用来构建分析超大规模信息的工具,但是和当前的大多数大数据工具一样,都存在一些缺点。我们不能指望在大数据工具上的查询能够达到传统数据库或商业智能工具的精度和速度,但是Dremel能做到这一点”。
 “Dremel既能进行大规模的分析,又能够深入地查看数据,这是我以前觉得不可能的事情,”Armando Fox指出,“Dremel能够处理的数据规模和处理数据的时间让人印象深刻。以前人们也开发过不同的大数据系统,但是在Dremel之前,还没有哪个系统能够像它这样如此快速地处理如此多的数据。一般来说,速度和规模只能二选其一。我们更注重速度就得以牺牲规模为代价,反之亦然,但是Dremel能过做到两者兼顾”。
 即使不是Google员工,也可以使用Dremel。Google现在提供了一个基于Dremel的网络服务BigQuery,可以通过在线API使用这个平台,基本上来说,只要将数据上传至Google,就可以利用Google的内部架构来执行查询。
 这是Google提供的越来越多的云服务的一部分。起初Google允许通过Google App Engine在Google的架构上编译、运行整个应用程序,而现在增加了包括BigQuery和Google Compute Engine(用于即时访问虚拟服务器)在内的各种其他工具,可以方便用户及时访问虚拟服务器。
 从Google的论文得知,早在2006年,这个系统就已经在Google内部使用,“数千个”Google员工用它来分析很多事情,从各种Google服务的软件崩溃报告到数据中心内部硬盘行为数据等。有时候,Dremel可以在数十台甚至数千台服务器上同时运行。
 虽然Hadoop的成功是毋庸置疑的,但与Google相比,Clodera 公司CEO Mike Olson觉得开发这个平台的公司和开发人员还是有些落后,并且在Dremel身上也看到了同样的情况。虽然Google早在2010年就发表了Dremel论文,但是要看到由第三方开发人员将整个平台研发出来,仍然还有很长的一段路要走。很显然,Google走在了世界前列,与此同时,它也在引领着世界上其他公司的进步。
 (编译自:http://www.gosimsoft.com/kills/2012/1029/53.html)

发布时间: 2013-02-25   浏览: 352
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn