Hadoop-Yarn-工作机制、job的提交流程

Hadoop-Yarn-工作机制、job的提交流程

Yarn基本概述

Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序

Yarn基本架构

YARN主要由ResourceManager、NodeManager(两个常驻进程)、ApplicationMaster和Container(临时进程,有job才会启动)等组件构成。
在这里插入图片描述

Yarn工作机制

在这里插入图片描述

job提交全过程

(1)job提交

第1步:Client 调用job.waitForCompletion()方法,向整个集群提交MapReducejob

第2步:Client 向ResourceManager申请一个jobId

第3步:ResourceManager给Client 返回该job资源的提交路径临时目录 + jobId生成的路径)。

第4步:Client 提交jar包切片信息配置文件到指定的资源提交路径。

第5步:Client 提交完资源后,向ResourceManager申请运行MrAppMaster

(2)作业初始化

第6步:当ResourceManager收到Client 的请求后,先将该job添加到容量调度器队列)中。

第7步:通知一个空闲的NodeManager领取到该Job

第8步:该NodeManager创建Container,并产生一个MrAppmaster

第9步:然后下载Client 提交的资源到本地。

(3)任务分配

第10步:MrAppMasterResourceManager申请运行多个MapTask任务资源。

第11步:ResourceManager将运行MapTask任务分配给另外两个NodeManager,然后分别领取任务并创建容器

(4)任务运行(此阶段为MapTask、shuffle、ReduceTask数据处理阶段)

第12步:MrAppMaster向两个接收到任务的NodeManager发送程序启动脚本,这两个NodeManager分别启动MapTask,然后MapTask对数据分区排序等操作。

第13步:MrAppMaster等待所有MapTask运行完毕后,向ResourceManager申请容器,运行ReduceTask

第14步:ReduceTask拷贝MapTask相应分区的数据,然后就行操作。

第15步:程序运行完毕后,MrAppMaster会向ResourceManager申请注销自己。

(5)进度和状态更新

YARN 中的任务,将其进度和状态(包括Container)返回给MrAppMaster, Client 每秒(通过mapreduce.client.progressmonitor.pollinterval设置)向MrAppMaster请求进度更新, 展示给用户。

(6)job完成

除了向MrAppMaster请求job进度外, Client 每5秒都会通过调用waitForCompletion()来检查job是否完成。时间间隔可以通过mapreduce.client.completion.pollinterval来设置。job完成之后, MrAppMasterContainer会清理工作状态。job的信息会被历史服务器存储,以备之后用户核查。

猜你喜欢

转载自blog.csdn.net/qq_32727095/article/details/107648244