Cloudera发布Impala实时查询引擎Impala 1.0 beta版,并声称这项革命性的技术能解决Hadoop批处理延迟问题。

大数据提速:Impala能否替代Hive(大数据 impala)  大数据 HIVE 第1张

近来,Cloudera发布Impala实时查询引擎Impala 1.0 beta版,并宣称这项革命性的技能能处理Hadoop批处理推迟问题(比本来依据MapReduce的Hive SQL查询速度进步3~30倍),开源的Impala还为Hadoop打开了通向联系型数据库和商业智能东西的大门。

Impala是运转于现有Hadoop基础设施上的实时互动SQL查询引擎,可以让Hdadoop DFS文件体系以及Apache HBase数据库中的数据支撑实时查询。这意味着Impala为Hadoop打开了通向联系型数据库和传统商业智能东西的大门(后两者依据SQL查询)。

此前,数据仓库架构Apache Hive可以让Hadoop某种程度上支撑结构化数据拜访,可是Hive选用的办法是将SQL查询转化成MapReduce使命,这导致Hive的功用很差。并且,Hive只能支撑不到30%的SQL剖析功用,而依据Cloudera的说法,Impala将比Hive超卓得多。

“从长远看,Impala将代替Hive,但现在Hive的装置基数很大,相关的运用许多,所以Impala不会很快代替Hive,”Coudera首席执行官Mike Olson说道:“由于支撑实时查询,Impala将会十分有吸引力。”

Impala实际上是两个产品。中心部分是Impala实时查询引擎,选用Apache开源授权方法,Hadoop用户可以独自运用这个引擎。一起,Impala项目也将以Cloudera Enterprise RTQ(Real-Time Query)为名进入CDH发行版。可以布置到出产环境的版别将到2013年一季度安排妥当。Cloudera Enterprise RTQ将作为Cloudera 办理操控台的一部分,担任办理Impala服务器。从这个办理操控台中IT人员可以看到查询的运转状况、运转时刻以及活泼用户数等。

学习Dremel

Impala可谓是Cloudera的秘密武器,在正式发布之前,Impala项目的开发高度保密,明显,Cloudera期望给大数据业界一个惊喜。Impala有望处理Hadoop体系的两个恶疾:批处理速度慢和数据可拜访性差(无法支撑分秒级的实时互动查询剖析)。Cloudera在官方博客中泄漏Impala是在Dremel的启发下开发的。Impala不再运用缓慢的 Hive+MapReduce批处理,而是经过与商用并行联系数据库中相似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或许HBase顶用SELECT、JOIN和计算函数查询数据,然后大大降低了推迟。其架构如下图所示。

大数据提速:Impala能否替代Hive(大数据 impala)  大数据 HIVE 第2张

Impala的架构

商业智能厂商的福音,但不会代替传统数据仓库

Impala关于商业智能厂商来说也许是个福音。曩昔,商业智能厂商只能选用耗时的手动方法将数据从Hadoop体系中转移出来,或许忍耐Hive的推迟和功用限制。在ad hoc查询剖析形式下,Impala可以让BI东西直接拜访Hadoop中的数据,但Olson表明,在出产环境,要害使命作业负载仍然将会由联系型数据库处理。“一些作业负载将会借Impala进入Hadoop体系,可是假如需求进行结构化数据的高速杂乱剖析,传统大型数据仓库仍然无可代替。传统数据仓库运转的OLAP引擎有许多专用界面,支撑数据汇总与聚合。这些都不是SQL语言和Impala可以处理的。(风趣的是,OLAP正遭到内存计算技能的要挟,所以人们不由会问,有朝一日OLAP是否也会被布置到Hadoop体系里)。

能否代替Hive,用户说了算

Cloudera还没有对Imala进行benchmark测验,可是Olson表明Impala未必能到达联系型数据库的功用,但可以必定的一点是,速度将比Hive快3-30倍,这足以让用户扔掉Hive挑选Impala。Cloudera的一些客户现在现已开端测验Impala,其间两家成果行将发布。其间一家公司Monsanto在全球规模内有许多研讨科学家协作剖析抗病-野草基因组,可是现在这些研讨数据涣散在许多数据孤岛中,Monsanto期望可以在Hadoop中整合一切数据,并用Impala供给高速SQL查询服务,Monsanto现在正在开发一个掩盖一切研讨中心的协作时互动环境。

Cloudera别的一家客户——在线旅行预定网站Expedia运用Cloudera产品办理者超越4PB的数据,现在正在测验经过Implala了解用户的预定内容,谁在预定,哪些航班、租车公司、酒店更受欢迎(或许丢失客户)。

Expedia全球商业智能和数据仓库总监Jeff Prather泄漏:“Impala让我们的Hadoop体系的推迟降低了50%,并且供给了许多前所谓有的事务剖析功用。”

Olson鼓舞Hadoop社区下载Cloudera Impala beta文档,(GitHub源码下载地址)由于越多人运用、测验,这项技能产品化的速度就会越快。

可是现在还清楚Impala是否可以比Hive更受欢迎,乃至代替Hive。Cloudera的竞争对手们,如Hortonworks和MapR也没有表态是否支撑Impala。可是在最大的Hadoop发行商Cloudera的支撑下,在如此很多的厂商和用户进步Hadoop的SQL查询速度的等待下,Impala的远景仍是一片光亮的。

【修改引荐】

  1. 大数据进行时:聚光灯后的四大推手
  2. 大数据事例剖析:电信业Hadoop运用剖析
  3. 处理大数据的开源东西
  4. 媒体都在鬼扯“大数据”,怎么开掘大数据的潜力?
  5. IBM BigInsights 大数据运用开发实践
转载请说明出处
知优网 » 大数据提速:Impala能否替代Hive(大数据 impala)

发表评论

您需要后才能发表评论