spark中如何划分stage - 代码天地

spark中如何划分stage

其他 2018-10-26 12:11:10 阅读次数: 0

1.Spark Application中可以因为不同的Action触发众多的job，一个Application中可以有很多的job，每个job是由一个或者多个Stage构成的，后面的Stage依赖于前面的Stage，也就是说只有前面依赖的Stage计算完毕后，后面的Stage才会运行。
2.Stage划分的依据就是宽依赖，何时产生宽依赖，例如reduceByKey,groupByKey的算子，会导致宽依赖的产生。
3.由Action（例如collect）导致了SparkContext.runJob的执行，最终导致了DAGScheduler中的submitJob的执行，其核心是通过发送一个case class JobSubmitted对象给eventProcessLoop。eventProcessLoop是DAGSchedulerEventProcessLoop的具体实例，而DAGSchedulerEventProcessLoop是eventLoop的子类，具体实现EventLoop的onReceive方法，onReceive方法转过来回调doOnReceive
4.在doOnReceive中通过模式匹配的方法把执行路由到
5.在handleJobSubmitted中首先创建finalStage，创建finalStage时候会建立父Stage的依赖链条
总结：以来是从代码的逻辑层面上来展开说的，可以简单点说：写介绍什么是RDD中的宽窄依赖，然后在根据DAG有向无环图进行划分，从当前job的最后一个算子往前推，遇到宽依赖，那么当前在这个批次中的所有算子操作都划分成一个stage,然后继续按照这种方式在继续往前推，如在遇到宽依赖，又划分成一个stage,一直到最前面的一个算子。最后整个job会被划分成多个stage,而stage之间又存在依赖关系，后面的stage依赖于前面的stage。

猜你喜欢

转载自blog.csdn.net/Sunshine_2211468152/article/details/83049988

spark中如何划分stage

spark的stage是如何划分的

Spark—— DAG 如何划分stage？

spark 中划分stage的思路

spark中stage划分简单总结

Spark中的宽窄依赖和Stage的划分

Spark中RDD划分阶段Stage

Spark stage划分

Spark的Stage任务划分

Spark源码《三》Stage划分

Spark FinalStage处理(Stage划分)

Spark源码解析(四):WordCount的Stage划分

[Spark源码解析]DAGScheduler划分stage

Spark的stage划分算法源码分析

spark结合实例分析stage的划分

Spark源码浅析：Stage划分及提交Task

Spark 宽窄依赖和stage的划分

Spark RDD的stage划分和容错

spark --DAG的生成和划分Stage

Spark_DAG的生成和划分Stage

Spark_DAG的生成和划分Stage

理解Spark之一——stage划分

Spark(六)-Stage划分算法

Spark DAG Scheduler划分Stage的过程

Spark中saveAsTextFile至stage划分和job提交的源代码分析

Spark任务中Stage划分算法及Task任务本地性算法原理

spark源码学习（二）- DAGSchedular 划分job,提交stage的过程

Spark源码解读之Stage划分和提交

spark 源码分析之十九 -- DAG的生成和Stage的划分

Spark基础学习笔记19：RDD的依赖与Stage划分

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)