今天主要给大家介绍Apache Hadoop 3.0.0-alpha1主要改进。

1、Minimum required Java version increased from Java 7 to Java 8

一切的Hadoop JARs针对运转时版别的Java 8被编译。仍在运用Java 7或更低版别的用户有必要晋级至Java 8。

2、Support for erasure encoding in HDFS

HDFS支撑纠删码。与副本比较纠删码是一种更节约空间的数据耐久化存储办法。像Reed-Solomon这种规范编码用于1.4倍空间开支,而之前的HDFS副本比较则是3倍空间开支。

已然纠删码首要的额定开支是在重建和履行长途读,它习惯上用于存储冷数据,即不常常拜访的数据。当布置这个新特性时用户应该考虑纠删码的网络和CPU开支。

3、YARN Timeline Service v.2

引入了Yarn时刻抽服务v.2,应对两大应战:改进时刻轴服务的可伸缩性和可靠性,经过引入流和聚合增强可用性。

4、Shell script rewrite

shell脚本重写,处理了之前的许多长期存在的bug。

5、MapReduce task-level native optimization

MR使命级本地优化。MapReduce增加了Map输出collector的本地完成。关于shuffle密集型作业,这将会有30%以上的功用提高。

6、Support for more than 2 NameNodes.

答应用户运转多个Standby NN,更高的容错性。比方,经过装备3个NN和5个JournalNodes,集群能够忍受2个NN宕机而不是之前的一个。

7、Support for Microsoft Azure Data Lake filesystem connector

集成Microsoft Azure Data Lake

8、Intra-datanode balancer

数据节点内涵均衡器,之前单个数据节点是能够办理多个磁盘目录的。正常写入操作,各磁盘会被均匀填满。但是,当增加或替换磁盘时或许导致DataNode严峻内斜。

这种状况现有的HDFS balancer是无法处理的。这种状况是由新intra-DataNode平衡功用来处理。经过hdfs diskbalancer CLI来调用。

Apache Hadoop 3.0.0-alpha1首要改善(hadoop2.6.5)  Java 第1张

9、Reworked daemon and task heap management

Hadoop看护进程和MapReduce使命堆内存办理的一系列改变。

HADOOP-10950

介绍了装备看护集成heap巨细的新办法。主机内存巨细能够主动调整,HADOOP_HEAPSIZE已弃用。

MAPREDUCE-5785

map和reduce task堆巨细的装备办法,所需的堆巨细不再需求经过使命装备和Java选项完成。现已指定的现有装备不受此更改影响。

【本文为51CTO专栏作者“王森丰”的原创稿件,转载请注明出处】

转载请说明出处
知优网 » Apache Hadoop 3.0.0-alpha1首要改善(hadoop2.6.5)

发表评论

您需要后才能发表评论