MapReduce基础知识点详解

基础知识:

ResourceManager:整个集群的老大

负责处理客户端请求,监控NodeManager,启动和监控MRappMaster,集群资源的分配和调度。

NodeManager:单个节点上资源的老大,管理单个节点上的资源调度信息

MRappMaster:一个job资源调度的老大

负责数据的切分,为job申请资源,分配任务,任务的监控和容错。

Container:资源的抽象,封装了内存,CPU,磁盘,网络等

YarnChild: 管理当前节点的任务运行

MapTask的个数是根据切片的个数来开启的。

ReduceTask的个数是根据map阶段输出后的分区个数来决定开启多少个的。

MapReduce定义

Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。

Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。

一个完整的mapreduce程序在分布式运行时有三类实例进程:

1)MrAppMaster:负责整个程序的过程调度及状态协调。

2)MapTask:负责map阶段的整个数据处理流程。

3)ReduceTask:负责reduce阶段的整个数据处理流程。

猜你喜欢

转载自blog.csdn.net/weixin_43562705/article/details/89421919
今日推荐