最初,Hive用于建立大规模的成批计算,这在数据报告、数据挖掘以及数据准备等应用场景很有效。这些应用场景很重要,但是Hadoop的需求十分广阔,企业用户越来越需要Hadooop具备更高的实时性和交互性。在Hortonworks,我们相信开源社区的创新力要超过任何一个专有的提供商,Stinger initiative再次证明了这一点,我们会联合(社区)伙伴一起提升Hive的性能。

自从2007年Facebook提出Apache Hive和HiveQL后,他们现已成为事实上的Hadoop上的SQL接口。现在,各种类型的大公司或小公司都在运用Hive这中非常遍及的办法来访问Hadoop数据,然后给公司或许用户带来更多的价值。一同,还有许多公司经过很多已存的BI东西生态体系来到达相同的意图,这些BI东西相同运用Hive作为接口。

开始,Hive用于树立大规模的成批核算,这在数据陈述、数据发掘以及数据预备等使用场景很有用。这些使用场景很重要,可是Hadoop的需求非常宽广,企业用户越来越需求Hadooop具有更高的实时性和交互性。在Hortonworks,咱们信任开源社区的创新力要超越任何一个专有的供给商,Stinger Initiative再次证明了这一点,咱们会联合(社区)同伴一同提高Hive的功用。

什么是Stinger Initiative?

能让Hive答复问题的速度满意普通人(例如一个问题的回来时刻在5-30秒),如大数据探究、可视化、参数化陈述等场景,并且并不依靠其它东西,并分发到用户社区,能够很好的保护企业原有的出资和开发者的Hive技术。

Stinger Initiative:让Hive提速100倍  hadoop 大数据 HortonworksStinger Initiative 第1张

图:Stinger Initiative的roadmap

为此,咱们发布了Stinger Initiative,并进入社区进行共享,为的是让Hive支撑更多SQL,并完成更好的功用。一直以来,HiveQL都没有什么改变,而这次HiveQL将变得更强壮。一同,与现有的东西保持一致构成***的互补。

首要,咱们让Hive与人们在Hadoop上想要的查询想匹配。这包含添加相似OVER子句的剖析功用,支撑WHERE子查询,以及调整Hive的款式体系更多的契合规范的SQL模型。

其次,咱们优化了Hive的恳求履行计划,咱们内部某些测验效果显现,优化后的恳求时刻削减了90%。咱们也着眼于在Hive履行引擎中添加一些改动,咱们坚信这能够添加单一Hive task每秒钟处理记载的数量。

第三,咱们在Hive社区中引入了新的列式文件格局(如ORC文件),供给一种更现代、高效和高功用的方法来贮存Hive数据。

***,咱们引入了一种新的runtime结构—— Tez,它的方针是消除Hive的推迟以及吞吐量约束。Tez经过消除不必要的task、妨碍同步和对HDFS的读写作业来优化Hive job。这将优化Hadoop内部的履行链,完全加快Hive负载处理。

所有这些对Hive的调整仍在揭露的进行中,内部预览版将在本年三月举办的由Hortonworks主办的Hadoop大会上揭露。

拥抱社区和Hive

许多不同的团队在Hive社区奉献着他们效果。来自SAP的Harish Butani的团队担任为Hive添加一个剖析和数据窗口函数。这个函数将添加到OVER子句中用于现已存在的集合函数,就像RAND、NTILE和LEAD、LAG等函数相同, 这儿能够看到具体的阐明。Facebook的Namit Jain现已花了很多时刻来优化Hive的查需履行计划,这让Join等操作变的更高效,并削减来自用户的提示。Hortonworks现已参加到这些项目中。

Owen O’Malley,Hortonworks联合创始人,前期的Hadoop的开发者,现已在Facebook为ORC文件格局进行了很多作业,这项作业将协助提高Hive读、写、处理数据的功用,在 这儿能够看到概况。咱们还在为一些更久远的方针作业,如重写Hive的运算符来处理上千的记载,其功率和现在比较将有大幅提高。

为什么要重新造轮子呢?

转载请说明出处
知优网 » Stinger Initiative:让Hive提速100倍

发表评论

您需要后才能发表评论