Hadoop从入门到精通系列之--0.Hadoop生态体系

ResourceManager：处理客户端的请求如job.waitForCompletion(true)；监控NodeManager，如所有的Node都要向ResourceManager报告自己的状态；启动和监控ApplicationMaster；资源的分配和调度。总的来说ResourceManager是大管家
NodeManager：管理单个节点的资源；处理来自ResourceManager的命令；处理来自ApplicationMaster的命令；总的来说NodeManager是当前这个服务器的小管家
ApplicationMaster：由ResourceManager创建；负责数据的切片；为job申请资源并分配资源；
Container：它是ResourceManager中提到的资源的抽象，它存储的是当前服务器的配置比如说内存，硬盘，cpu等，当ApplicationMaster向ResourceManager申请资源的时候，它负责分配。

MapReduce是分为两个阶段的，分别是Map阶段和Reduce阶段。

Map阶段：主要作用是并行处理输入的数据，比方说有1TB的数据，用一台电脑处理和1千个电脑处理就是不一样的，Map阶段就相当于使用一千个电脑处理数据
Reduce阶段：主要作用是汇总Map阶段的结果，上面说了Map阶段是并行的，所以有很多电脑处理，那么每个电脑处理的结果谁来汇总呢？Reduce阶段就是干的这个活

三 Hadoop生态体系

很多人都不知道Hadoop生态是什么？大数据仅仅依靠Hadoop框架是不够的，这个体系是庞大的，不仅仅包含Hadoop，它还有其它的框架，这个生态构成了现在的大数据生态。

本不该在这个地方介绍Hadoop目录结构的，但是也没有关系，看一看它长什么模样，不是更直观吗？在Linux上安装好Hadoop之后，可以查看一下它的目录结构。如下：

存放着对Hadoop相关服务（HDFS，YARN）进行操作的脚本。

普及一下Linux的基本知识，上图中行首那一串估计有很多人不懂，这里普及一下：

-rwxr-xr-x. 1 wanglei wanglei 11386 5月 22 2017 yarn.cmd

存放Hadoop的配置文件

存放Hadoop的本地库，对数据进行压缩和解压缩的功能库

存放启动和停止Hadoop服务的命令，与bin的区别在于bin中是具体操作的命令，而sbin目录是启动和停止服务的。

存放Hadoop的依赖jar包，官方文档，和官方的案例