Spark之TaskScheduler内核解析 - 代码天地

Spark之TaskScheduler内核解析

其他 2019-02-13 03:09:56 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_34993631/article/details/87099315

TaskScheduler的大目标总共有两个。将DAGScheduler生成的TaskSet中的Task分配给Executor，然后通知Executor去执行启动Task。

以下是几个核心步骤：

每一个TaskScheduler会为每一个TaskSet分配一个TaskManager。这个TaskManager会负责这个TaskSet的监视与管理。然后这个TaskManager会进入调度池等待调度（也就是一个队列）。
主要的工作是由SparkDeploySchedulerBackend的父类CoarseGraindSchedulerBackend来完成。主要有两个核心的方法。

分配

resourceOffers()将task分配到executor上去

这里面的一个重要步骤就是资源的分配。在分配的过程中首先要对根据调度策略对资源TaskScheduler进行调度。然后对于一个Executor来说，每从TaskSet中拿出一个task来就会去按照一定的本地话级别去判断能否在当前的Executor上面分配。如果不能则降低本地化级别的要求。

这几种本地化级别分别是：

PROCESS_LOCAL，进程本地化，RDD的partition和task在一个Executor中效率是最高的。
NODE_LOCAL， RDD的partition和task不在同一个Executor中但是在一个Worker上。
NO_PREF，没有所谓的本地化级别。
RANK_LOCAL，机架本地化，至少RDD的partition和task在同一个机架上。
ANY，任意的本地化级别

通知启动

LaunchTask()发送LauntchTask消息到对应的executor启动并执行task。

具体的，首先将每个executor要执行的task进行序列化。然后找到LauntchTask，在Executor上面启动Task。

Executor层面的响应

在Executor反向注册到Driver的时候会发送一个RegisteredExecutor消息。这时候CoarseGrainedExecutorBackend会创建一个Executor对象，作为执行对象。对于每一个Task来说Executor对象会首先将它反序列化然后使用TaskRunner去封装这个Task。然后将这个TaskRunner放到一个ConcurrentHashMap中（也就是放入内存中），然后使用线程池中取出一个线程去执行对应的Task。

猜你喜欢

转载自blog.csdn.net/qq_34993631/article/details/87099315

Spark之TaskScheduler内核解析

Spark 之 TaskScheduler 原理剖析

Spark之BlockManager内核解析

Spark之SparkSQL内核解析

Spark之SparkContext内核解析

Spark之Task内核解析

Spark源码解读之TaskScheduler剖析

spark之任务调度DagScheduler&TaskScheduler

Spark1.6-----源码解读之TaskScheduler

大话Spark(9)-源码之TaskScheduler

Spark之Shuffle内核完全解析

[spark] TaskScheduler 任务提交与调度源码解析

Spark内核解析之(6)Spark Shuffle运行原理剖析

Spark内核解析之(3)Spark 通讯架构原理剖析

Spark内核解析之(8)Spark 核心组件深度剖析

Spark内核解析之(7)Spark 内存管理原理剖析

Spark1.6-----源码解读之TaskScheduler启动

Spark的TaskScheduler和DagScheduler

Spark TaskScheduler的源码图解

Spark 内核解析

Spark内核解析

【Spark 内核】 Spark 内核解析-下

【Spark 内核】 Spark 内核解析-上

Spark内核解析之(4)SparkContext原理分析

Spark内核解析之(1)核心原理概述

Spark学习之Spark内核

Spark调度管理【DAGScheduler，TaskScheduler】

Spark2.3.2源码解析： 7. SparkContext源码分析（二）：TaskScheduler

Spark 源码解析：彻底理解TaskScheduler的任务提交和task最佳位置算法

【大数据】Spark内核解析

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)