Spark2.11 任务划分以及执行流程 - 代码天地

Spark2.11 任务划分以及执行流程

编程语言 2018-06-19 20:24:41 阅读次数: 2

   1、spark Application中可以由不同的action触发job，也就是说一个Application里可以有很多的job，每个job是由一个或者多个stage构成的，后面的stage依赖前面的stage，只有前面依赖的stage计算完成后面的stage才会计算； 
 

   2、stage划分的就是根据宽依赖如：reduceByKey、groupByKey等前后就需要划分为两个stage； 
 

   3、由action（如collect）导致了SparkContext.runJob的执行，最终导致了DAGScheduler中的submitJob的执行向自己发送 
  JobSubmitted消息（解耦合）， 
 

当自己接收到JobSubmitted消息后出发handleJobSubmitted方法的执行，在其方法中会创建finalStage；

利用createResultStage方法找到parents

在寻找parents（List<Stage>）的过程中采用广度优先的算法。

计算好依赖链条后开始执行submitStage开始计算最左侧的stage（MissStage）

这里递归从后向前查找依赖stage，找到第一个stage后执行submitMissingTasks开始计算

submitMissingTasks里需要计算任务本地性，是根据rdd.getPreferedLocations来计算数据本地性，也说明在任务分配之前就已经确定了任务发往哪个executor了。

然后调用taskScheduleImplement的submitTasks方法

这里会创建taskSetManager加入调度器（先进先出、公平调度）中，然后开始调用CoarseGrainedSchedulerBackend的reviveOffers方法开始调度。

然后DAGScheduler开始调度任务执行。

CoarseGrainedSchedulerBackend的reviveOffers方法是给自己发送消息ReviveOffers，当接收到消息后会执行makeOffers方法执行launchTask发送任务给Executor.

当Executor接收到任务后会通过线程池复用的方式执行任务。

当executor执行到runTask时会有ShuffleMapTask和ResultTask，我们以ShuffleMapTask为例看看最后是怎样执行到RDD的compute方法的。

会执行rdd.iterator

如果存储基本不是NONE就执行getOrCompute

程序会根据运行时的RDD来执行对应的compute方法。

猜你喜欢

转载自blog.csdn.net/qq_22796957/article/details/80724496

Spark2.11 任务划分以及执行流程

Spark2.11 启动Driver以及Executor流程

Spark2.11 Executor的启动注册和执行任务的流程

spark2.11 资源调度流程（cluster模式下Driver、Executor的调度）

Spark2.11 Standalone模式下Driver、Executor启动流程源码概要

Spark2.11下连接星环Inceptor(hive2)连接不上

spark任务执行流程

Spark-任务执行流程

Spark集群的任务提交执行流程

Spark任务提交执行全流程详解

Spark 之环境搭建与任务执行流程

Spark任务提交方式和执行流程

Spark中任务划分

Spark的Stage任务划分

Spark WordCount执行流程以及相关源码

【Spark十二】Spark任务调度和作业执行流程初步

Spark代码执行流程、术语以及宽窄依赖

spark任务执行过程

Spark任务执行

【Spark】Spark任务执行原理

[spark] Task执行流程

spark的wordcount执行流程

spark_执行流程

Spark WordCount 执行流程

Spark 执行流程

spark sql 执行流程

Spark执行流程（详细）

spark笔记（一）之RDD任务划分

【Spark三十四】Standalone集群+Cluster部署模式下用户提交任务的执行流程

【Spark三十五】Standalone集群+Client部署模式下用户提交任务的执行流程

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)