Apache Hadoop 3.0.0-alpha1首要改善（hadoop2.6.5）-大数据-知优网

今天主要给大家介绍Apache Hadoop 3.0.0-alpha1主要改进。

1、Minimum required Java version increased from Java 7 to Java 8

一切的Hadoop JARs针对运转时版别的Java 8被编译。仍在运用Java 7或更低版别的用户有必要晋级至Java 8。

2、Support for erasure encoding in HDFS

HDFS支撑纠删码。与副本比较纠删码是一种更节约空间的数据耐久化存储办法。像Reed-Solomon这种规范编码用于1.4倍空间开支，而之前的HDFS副本比较则是3倍空间开支。

已然纠删码首要的额定开支是在重建和履行长途读，它习惯上用于存储冷数据，即不常常拜访的数据。当布置这个新特性时用户应该考虑纠删码的网络和CPU开支。

3、YARN Timeline Service v.2

引入了Yarn时刻抽服务v.2，应对两大应战：改进时刻轴服务的可伸缩性和可靠性，经过引入流和聚合增强可用性。

4、Shell script rewrite

shell脚本重写，处理了之前的许多长期存在的bug。

5、MapReduce task-level native optimization

MR使命级本地优化。MapReduce增加了Map输出collector的本地完成。关于shuffle密集型作业，这将会有30%以上的功用提高。

6、Support for more than 2 NameNodes.

答应用户运转多个Standby NN，更高的容错性。比方，经过装备3个NN和5个JournalNodes，集群能够忍受2个NN宕机而不是之前的一个。

7、Support for Microsoft Azure Data Lake filesystem connector

集成Microsoft Azure Data Lake

8、Intra-datanode balancer

数据节点内涵均衡器，之前单个数据节点是能够办理多个磁盘目录的。正常写入操作，各磁盘会被均匀填满。但是，当增加或替换磁盘时或许导致DataNode严峻内斜。

这种状况现有的HDFS balancer是无法处理的。这种状况是由新intra-DataNode平衡功用来处理。经过hdfs diskbalancer CLI来调用。

9、Reworked daemon and task heap management

Hadoop看护进程和MapReduce使命堆内存办理的一系列改变。

HADOOP-10950

介绍了装备看护集成heap巨细的新办法。主机内存巨细能够主动调整，HADOOP_HEAPSIZE已弃用。

MAPREDUCE-5785

map和reduce task堆巨细的装备办法，所需的堆巨细不再需求经过使命装备和Java选项完成。现已指定的现有装备不受此更改影响。

【本文为51CTO专栏作者“王森丰”的原创稿件，转载请注明出处】

Java Hadoop

转载请说明出处
知优网 » Apache Hadoop 3.0.0-alpha1首要改善（hadoop2.6.5）

站长资讯网友投稿帖

分享到：

相关推荐

校园转转二手市场源码/Java二手交易市场整站源码（校园二手交易网站源码）

10道Hadoop面试真题及解题思路（hadoop面试题及答案）

Java数据结构与算法解析(八)——伸展树（java 树数据结构）

Apache Spark常见的三大误解（apache spark什么意思）

大数据前景分析：Hadoop将被Spark替代？（spark取代hadoop）

Hadoop技术之Hadoop HA 机制学习（hadoop的ha策略）

你需要了解关于Hadoop与大数据的12个事实（hadoop是大数据吗）

Hadoop面试，有它就够了（hadoop面试问题）

如何提高Spark姿势水平（spark如何入门）

Hadoop将死，图数据库成为新趋势？看数据库业内大佬如何回顾2017展望2018

发表评论