经典MapReduce作业和Yarn上MapReduce作业运行机制

其他 2018-10-07 21:13:42 阅读次数: 0

一、经典MapReduce缺陷

二、经典MapReduce的作业运行机制

如下图是经典MapReduce作业的工作原理：

2.1 经典MapReduce作业的实体

经典MapReduce作业运行过程包含的实体：

客户端，提交MapReduce作业。
JobTracker，协调作业的运行。JobTracker是一个Java应用程序，它的主类是JobTracker。
TaskTracker，运行作业划分后的任务。TaskTracker是Java应用程序，它的主类是TaskTracker。
分布式文件系统（一般为HDFS），用来在其他实体间共享作业文件。

2.2 经典MapReduce作业的运行过程

1. 作业提交

客户端运行MapReduce作业（步骤1）
向JobTracker请求一个新的作业ID，通过调用JobTracker的getNewJobId()方法获取（步骤2）
将运行作业所需的资源（包括作业JAR文件、配置文件和计算所得的输入分片）复制到一个以ID命名的JobTracker的文件系统中（步骤3）
告知JobTracker作业准备执行，通过调用JobTracker的submitJob()方法实现（步骤4）

2. 作业初始化

JobTracker收到对其submitJob()方法的调用后，会把此调用放入一个内部队列中，交由作业调度器进行调度，并对其进行初始化（步骤5）。初始化包括创建一个表示正在运行作业的对象，用于封装任务和记录信息，以便跟踪任务的状态和进程。
作业调度器从共享文件系统中获取客户端已经计算好的输入分片（步骤6）。为每个分片创建一个map任务，创建的reduce任务由Job的mapred.reduce.tasks属性决定，以及新建作业创建和作业清理的任务。

3. 任务分配

TaskTracker定期向JobTracker发生“心跳（heartbeat）”，表名TaskTracker是否存活，同时保持两者之间的通信（步骤7）
JobTracker为TaskTracker分配任务，对于map任务，jobtracker会考虑tasktracker的网络位置，选取一个距离其输入分片文件最近的tasktracker，对于reduce任务，jobtracker会从reduce任务列表中选取下一个来执行。

4. 任务执行

从HDFS中把作业的JAR文件复制到TaskTracker所在的文件系统，实现JAR文件本地化，同时，TaskTracker将应用程序所需的全部文件从分布式缓存复制到本地磁盘（步骤8），并且为任务新建一个本地工作目录，把JAR文件中的内容解压到这个文件夹下，然后新建一个TaskRunner实例运行该任务。

5. 进度和状态更新

任务在运行时，对其进度（progress，即任务完成百分比）的保持跟踪。

6. 作业完成

将作业的状态设置为“成功”，并且清空JobTracker作业的工作状态，也指示TaskTracker清空作业的工作状态（如删除中间输出）。

三、Yarn上MapReduce作业运行机制

如图为Yarn中MapReduce作业的工作原理：

3.1 Yarn上的MapReduce作业的实体

主要包括以下几个实体：

提交MapReduce作业的客户端
ResourceManager，Yarn资源管理器，负责协调集群上计算资源的分配
NodeManager，Yarn节点管理器，负责启动和监视集群中机器上的计算容器（container）
MRAPPMaster，MapReduce应用程序MRAppMaster负责协调运行MapReduce作业的任务。它和MapReduce任务在容器中运行，这些容器由资源管理器分配并由节点管理器进行管理
分布式文件系统，一般为HDFS，用来与其他实体间共享作业文件

3.2 Yarn中MapReduce作业的运行过程

1. 作业提交

客户端运行MapReduce作业（步骤1）
客户端向ResourceManager请求新的作业ID，ResourceManager收到请求后，返回一个ApplicationID（步骤2）
客户端检查作业的的输出说明，计算输入分片，并将作业运行所需的资源（包括作业jar文件、配置文件和分片信息）复制到HDFS（步骤3）
告知ResourceManager作业准备执行，并调用ResourceManager上的submitApplication( )方法提交作业（步骤4）

2. 作业初始化

资源管理器收到应用提交请求后，便将请求传递给调度器Scheduler，调度器分配一个容器，然后ResourceManager在NodeManager的管理下在容器中启动应用程序的master进程（步骤5(a)和5(b)）
对作业进行初始化，创建对象以保持对作业进度的跟踪（步骤6）
MRAppMaster接受来自共享文件系统HDFS的在客户端计算的输入分片（步骤7）

3. 任务分配

MRAppMaster为作业中的所有map任务和reduce任务向ResourceManager请求容器（步骤8）

4. 任务执行

一旦ResourceManager的调度器为任务分配了容器，MRAppMaster就通过与NodeManager通信来启动容器（步骤9(a)和9(b)）
任务在运行之前，需要将任务所需的资源本地化，包括作业的配置、JAR文件和所有来自分布式缓存的文件（步骤10）
运行map任务或reduce任务（步骤11）

5. 进度和状态更新

任务每三秒钟通过umbilical接口向ApplicationMaster汇报自己的进度和状态（包含计数器），方便ApplicationMaster随时掌握各个任务的运行状态。

6. 作业完成

作业完成后，ApplicationMaster和任务容器清理其工作状态，ApplicationMaster向ResourceManager注销并关闭自己。

【参考链接】

[1] Asu_PC, MR1和MR2的工作原理.

[2] Tom Wbite, 《Hadoop权威指南》

猜你喜欢

转载自www.cnblogs.com/walker-/p/9751398.html

经典MapReduce作业和Yarn上MapReduce作业运行机制

MapReduce作业运行机制

剖析MapReduce作业运行机制

【Hadoop】20-剖析MapReduce作业运行机制

大数据技术 - MapReduce 作业的运行机制

hadoop MapReduce Yarn运行机制

mapreduce运行机制

hadoop MapReduce运行机制

MapReduce作业运行流程

运行MapReduce作业

MapReduce在YARN上的的工作机制

YARN上运行MapReduce程序

MapReduce 运行Yarn上详解

【Hadoop核心之MapReduce运行机制】

MapReduce运行机制-Reduce阶段

MapReduce运行机制-Map阶段

从WordCount了解MapReduce的运行机制

7.5 MapReduce程序的核心运行机制

Hadoop基础——HDFS、MapReduce、Yarn的运行原理和机制

MapReduce作业

Hadoop YARN上运行MapReduce程序

Yarn快速系列入门(3) | Yarn和MapReduce的作业提交全过程

YARN的运行机制

YARN运行机制

mapreduce运行原理及YARN

mapreduce运行平台YARN

MapReduce on Yarn运行原理

解决yarn上的MapReduce作业失败问题container XXXX is running beyond physical memory limits

handoop MapReduce作业job的机制与原理

浅谈Hadoop中MapReduce任务运行机制

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)