今天主要给大家介绍Apache Hadoop 3.0.0-alpha1主要改进。
1、Minimum required Java version increased from Java 7 to Java 8
一切的Hadoop JARs针对运转时版别的Java 8被编译。仍在运用Java 7或更低版别的用户有必要晋级至Java 8。
2、Support for erasure encoding in HDFS
HDFS支撑纠删码。与副本比较纠删码是一种更节约空间的数据耐久化存储办法。像Reed-Solomon这种规范编码用于1.4倍空间开支,而之前的HDFS副本比较则是3倍空间开支。
已然纠删码首要的额定开支是在重建和履行长途读,它习惯上用于存储冷数据,即不常常拜访的数据。当布置这个新特性时用户应该考虑纠删码的网络和CPU开支。
3、YARN Timeline Service v.2
引入了Yarn时刻抽服务v.2,应对两大应战:改进时刻轴服务的可伸缩性和可靠性,经过引入流和聚合增强可用性。
4、Shell script rewrite
shell脚本重写,处理了之前的许多长期存在的bug。
5、MapReduce task-level native optimization
MR使命级本地优化。MapReduce增加了Map输出collector的本地完成。关于shuffle密集型作业,这将会有30%以上的功用提高。
6、Support for more than 2 NameNodes.
答应用户运转多个Standby NN,更高的容错性。比方,经过装备3个NN和5个JournalNodes,集群能够忍受2个NN宕机而不是之前的一个。
7、Support for Microsoft Azure Data Lake filesystem connector
集成Microsoft Azure Data Lake
8、Intra-datanode balancer
数据节点内涵均衡器,之前单个数据节点是能够办理多个磁盘目录的。正常写入操作,各磁盘会被均匀填满。但是,当增加或替换磁盘时或许导致DataNode严峻内斜。
这种状况现有的HDFS balancer是无法处理的。这种状况是由新intra-DataNode平衡功用来处理。经过hdfs diskbalancer CLI来调用。
9、Reworked daemon and task heap management
Hadoop看护进程和MapReduce使命堆内存办理的一系列改变。
HADOOP-10950
介绍了装备看护集成heap巨细的新办法。主机内存巨细能够主动调整,HADOOP_HEAPSIZE已弃用。
MAPREDUCE-5785
map和reduce task堆巨细的装备办法,所需的堆巨细不再需求经过使命装备和Java选项完成。现已指定的现有装备不受此更改影响。
【本文为51CTO专栏作者“王森丰”的原创稿件,转载请注明出处】