在学习hadoop之前,我就明确了要致力于大数据行业,成为优秀的大数据研发工程师的目标,有了大目标之后要分几步走,然后每一步不断细分,采用大事化小的方法去学习hadoop。下面开始叙述我是如何初学hadoop的。

初学hadoop的心路历程(怎么样学hadoop)  hadoop linux 大数据 第1张

在学习hadoop之前,我就清晰了要致力于大数据职业,成为优异的大数据研制工程师的方针,有了大方针之后要分几步走,然后每一步不断细分,选用大事化小的办法去学习hadoop。下面开端叙说我是怎么初学hadoop的。

Hadoop学习两步走:linux学习、hadoop学习。

在触摸hadoop之前我有java根底,为此我的方案是首要学习Linux,然后学习hadoop生态体系,为此学习hadoop***步方案便是学习linux了,然后linux又可以分为四个过程走。

linux使命***个方针便是要娴熟操作linux常用指令以及网络装备;

第二个方针便是了解用户以及权限办理操作;

第三个方针便是了解软件包以及体系指令办理,第四个便是要学习shell编程了。

Linux体系学习结束之后,紧接着便是第二个方案了学习Hadoop。

Hadoop阶段分两步走。

***阶段能娴熟建立伪分布式集群以及彻底分布式集群,我个人认为先建立hadoop环境然后再学习hadoop这样作用更好。就好像看他人代码相同,咱们先把他人代码能跑起来,然后再剖析代码,假如代码都跑不起来,何谈代码剖析,所以先让hadoop环境建立起来,能正常运转wordcount程序,咱们才干渐渐剖析整个Hadoop生态体系,这样咱们能对hadoop有个全体上的知道。

Hadoop第二阶段便是根据***阶段的根底上,再细分几大阶段:

首要***阶段全体上知道hadoop生态体系,了解MapReduce分布式核算结构、Yarn集群资源办理和调度渠道、hdfs分布式文件体系、hive数据仓库、HBase实时分布式数据库、Flume日志搜集东西、sqoop数据库ETL东西、zookeeper分布式协作服务、Mahout数据发掘库;

第二阶段学习MapReduce,MapReduce作为hadoop中心内容,要先易后难,首要了解Mapper、Reducer、Configuration、job等这些类,了解MapReduce流程图,然后写简略的单词核算代码,全体上对MapReduce知道,之后学习MapReduce运转机制,娴熟把握,MapReduce输入格局,MapReduce输出格局,以及MapReduce优化;

第三阶段学习hadoop另一个中心内容HDFS,首要理解什么是hdfs,然后再剖析hdfs的长处,然后再了解Hdfs的缺陷有哪些,HDFS是怎么存储数据的,选用什么样的架构,咱们怎么完成读取和写入HDFS中的文件,以及了解HDFS副本寄存战略,一起娴熟把握HDFS的shell拜访和java拜访。

第三阶段便是学习hadoop另一个中心内容:Yarn,首要咱们要了解Yarn是什么,为什么运用Yarn,Yarn的构架,Yarn的原理。我个人认为,hadoop初学者只需把握了供给海量数据存储的HDFS,分布式核算的MapReduce,以及集群资源办理和调度渠道的yarn,基本上也就把握了Hadoop最中心的东西,也为今后的hbase、hive学习打下了坚实的根底。

以上是我个人学习大数据的心路历程,期望可以帮到其他人。

转载请说明出处
知优网 » 初学hadoop的心路历程(怎么样学hadoop)

发表评论

您需要后才能发表评论