Stinger Initiative：让Hive提速100倍-云计算-知优网

最初，Hive用于建立大规模的成批计算，这在数据报告、数据挖掘以及数据准备等应用场景很有效。这些应用场景很重要，但是Hadoop的需求十分广阔，企业用户越来越需要Hadooop具备更高的实时性和交互性。在Hortonworks，我们相信开源社区的创新力要超过任何一个专有的提供商，Stinger initiative再次证明了这一点，我们会联合(社区)伙伴一起提升Hive的性能。

自从2007年Facebook提出Apache Hive和HiveQL后，他们现已成为事实上的Hadoop上的SQL接口。现在，各种类型的大公司或小公司都在运用Hive这中非常遍及的办法来访问Hadoop数据，然后给公司或许用户带来更多的价值。一同，还有许多公司经过很多已存的BI东西生态体系来到达相同的意图，这些BI东西相同运用Hive作为接口。

开始，Hive用于树立大规模的成批核算，这在数据陈述、数据发掘以及数据预备等使用场景很有用。这些使用场景很重要，可是Hadoop的需求非常宽广，企业用户越来越需求Hadooop具有更高的实时性和交互性。在Hortonworks，咱们信任开源社区的创新力要超越任何一个专有的供给商，Stinger Initiative再次证明了这一点，咱们会联合(社区)同伴一同提高Hive的功用。

什么是Stinger Initiative?

能让Hive答复问题的速度满意普通人(例如一个问题的回来时刻在5-30秒)，如大数据探究、可视化、参数化陈述等场景，并且并不依靠其它东西，并分发到用户社区，能够很好的保护企业原有的出资和开发者的Hive技术。

Stinger Initiative：让Hive提速100倍 hadoop 大数据 HortonworksStinger Initiative 第1张

图：Stinger Initiative的roadmap

为此，咱们发布了Stinger Initiative，并进入社区进行共享，为的是让Hive支撑更多SQL，并完成更好的功用。一直以来，HiveQL都没有什么改变，而这次HiveQL将变得更强壮。一同，与现有的东西保持一致构成***的互补。

首要，咱们让Hive与人们在Hadoop上想要的查询想匹配。这包含添加相似OVER子句的剖析功用，支撑WHERE子查询，以及调整Hive的款式体系更多的契合规范的SQL模型。

其次，咱们优化了Hive的恳求履行计划，咱们内部某些测验效果显现，优化后的恳求时刻削减了90%。咱们也着眼于在Hive履行引擎中添加一些改动，咱们坚信这能够添加单一Hive task每秒钟处理记载的数量。

第三，咱们在Hive社区中引入了新的列式文件格局(如ORC文件)，供给一种更现代、高效和高功用的方法来贮存Hive数据。

***，咱们引入了一种新的runtime结构—— Tez，它的方针是消除Hive的推迟以及吞吐量约束。Tez经过消除不必要的task、妨碍同步和对HDFS的读写作业来优化Hive job。这将优化Hadoop内部的履行链，完全加快Hive负载处理。

所有这些对Hive的调整仍在揭露的进行中，内部预览版将在本年三月举办的由Hortonworks主办的Hadoop大会上揭露。

拥抱社区和Hive

许多不同的团队在Hive社区奉献着他们效果。来自SAP的Harish Butani的团队担任为Hive添加一个剖析和数据窗口函数。这个函数将添加到OVER子句中用于现已存在的集合函数，就像RAND、NTILE和LEAD、LAG等函数相同，这儿能够看到具体的阐明。Facebook的Namit Jain现已花了很多时刻来优化Hive的查需履行计划，这让Join等操作变的更高效，并削减来自用户的提示。Hortonworks现已参加到这些项目中。

Owen O’Malley，Hortonworks联合创始人，前期的Hadoop的开发者，现已在Facebook为ORC文件格局进行了很多作业，这项作业将协助提高Hive读、写、处理数据的功用，在这儿能够看到概况。咱们还在为一些更久远的方针作业，如重写Hive的运算符来处理上千的记载，其功率和现在比较将有大幅提高。

为什么要重新造轮子呢?