MapReduce已经不再像以往那么重要,就像一个古老的蒸汽引擎被迫让位于更时尚的柴油机车一样。用一位发言人的话说,“摆脱MapReduce,尽快和尽可能多地摆脱。”

不幸的MapReduce,直到2013年底,都是Hadoop体系中的要害一环,在这个开源大数据处理结构中,它既是集群的资源办理器,又作为首要编程手法和处理环境存在。但现在看来,状况正在发生变化。

MapReduce危在旦夕的江湖位置(MapReduce任务)  MapReduce Hadoop HDFS 第1张

Apache Software Foundation的Hadoop 2版别添加了一个名叫YARN的新技能,代替了MapReduce的资源办理人物,并将Hadoop开展成了逾越MapReduce批处理作业的应用程序。现在有许多厂商推出了SQL-on-Hadoop东西,让用户编写针对Hadoop数据剖析查询的规范SQL,以代替MapReduce。Spark 处理引擎也应运而生,其支撑者宣称它运转批处理作业的速度比MapReduce快100多倍,而且支撑时下盛行的高档编程言语,如Java和Python 等。

跟着上述新式技能的呈现,MapReduce现已不再像以往那么重要,就像一个陈旧的蒸汽引擎被逼让坐落更时髦的柴油机车相同。这个现真实纽约 Strata + Hadoop World 2015 会议后更为凸显,在此次会议中,与会者广泛评论了脱节MapReduce的议题。用一位发言人的话说,“脱节MapReduce,赶快和尽或许多地脱节。”

MapReduce Geospatial 的呈现,将这一“去MapReduce化”的心情面向了高峰,它是一个开源东西包,用于处理卫星图画和其他大型的栅格数据集。它促进开发者改变原有被称为 MrGeo的开发技能,从MapReduce转而运用Spark。这样做的结果是获得了更高的功能,且代码库容量减少了25%,卫星成像剖析公司(DigitalGlobe)的剖析主管Smith 供认,是时分为东西包起一个新的姓名了。

不仅仅是MapReduce, HDFS (Hadoop分布式文件体系)——Hadoop的其他中心组成部分的代表,也有或许被代替。在Strata 会议上,Hadoop供给分销商的领头羊Cloudera发布了一种名为Kudu的柱状数据存储,作为HDFS在实时流数据剖析方面的一个潜在代替技能。 Hortonworks,另一个Hadoop供给商,推出了一个独自的软件来办理不同体系之间的数据流,HDFS的方位受到了要挟。

MapReduce和HDFS很快就会消失。虽然现在有许多应用程序根据二者构建,很多的Hadoop用户仍会运用它们来完结一些大数据处理的需求。但今后布置Hadoop体系将不再需求这两种技能的状况将不可避免。

他们真的还会是Hadoop集群吗?这是一个生死攸关的问题。但Hadoop的进化,或许身份危机也许是大数据年代带来的易变性数据办理环境所引发革新的一个缩影。各种联系数据库和SQL鹤立鸡群的年代一去不返了。咱们生活在一个多元的国际,这个国际存在各种技能,满意着不同的数据处理和剖析的需求。当然联系型软件也在其间,此外还包含由Hadoop,Spark,NoSQL数据库以及其他大数据东西组成的巨大且不断扩张的生态体系。Hadoop处于这个生态体系的中心方位,但这个方位并不是***的,很或许在将来的某一天被其他技能所代替。

转载请说明出处
知优网 » MapReduce危在旦夕的江湖位置(MapReduce任务)

发表评论

您需要后才能发表评论