Spark之SparkCore:RDD-数据核心/API【DAG的生成和划分Stage】

其他 2021-03-20 22:37:20 阅读次数: 0

DAG

1、概念
2、DAG的生成
3、划分stage

1、概念

$\quad \quad$ DAG(Directed Acyclic Graph) 叫做有向无环图。

在这里插入图片描述

2、DAG的生成

$\quad \quad$ 原始的RDD通过一系列的转换操作就形成了DAG有向无环图，任务执行时，可以按照DAG的描述，执行真正的计算(数据被操作的一个过程)。
在这里插入图片描述
DAG的边界

开始:通过SparkContext创建的RDD
结束:触发Action，一旦触发Action就形成了一个完整的DAG

3、划分stage

在这里插入图片描述
为什么要划分Stage? --并行计算

$\quad \quad$ 一个复杂的业务逻辑如果有shuffle，那么就意味着前面阶段产生结果后，才能执行下一个阶段，即下一个阶段的计算要依赖上一个阶段的数据。那么我们按照shuffle进行划分(也就是按照宽依赖就行划分)，就可以将一个DAG划分成多个Stage/阶段，在同一个Stage中，会有多个算子操作，可以形成一个pipeline流水线，流水线内的多个平行的分区可以并行执行

如何划分DAG的stage?

$\quad \quad$ Spark会根据shuffle/宽依赖使用回溯算法来对DAG进行Stage划分，从后往前，遇到宽依赖就断开，将宽依赖前面的所有代码划分为一个stage；遇到窄依赖就把当前的RDD加入到当前的stage/阶段中

对于窄依赖，partition的转换处理在stage中完成计算，不划分(将窄依赖尽量放在在同一个stage中，可以实现流水线计算)
对于宽依赖，由于有shuffle（shuffle常见算子）的存在，只能在父RDD处理完成后，才能开始接下来的计算，也就是说需要要划分stage（出现宽依赖即拆分）

猜你喜欢

转载自blog.csdn.net/weixin_45666566/article/details/112553957

Spark之SparkCore:RDD-数据核心/API【DAG的生成和划分Stage】

Spark之SparkCore:RDD-数据核心/API【CheckPoint】

Spark之SparkCore:RDD-数据核心/API【缓存】

Spark之SparkCore:RDD-数据核心/API【算子】

SparkCore:RDD-DAG的生成和划分Stage

Spark之SparkCore:RDD-数据核心/API【任务切分、运行路径】

Spark之SparkCore:RDD-数据核心/API【依赖关系：宽窄依赖】

Spark之SparkCore:RDD-数据核心/API【概念、属性、特点】

Spark之SparkCore:RDD-数据核心/API【执行过程、编程模型：创建、转换、输出、运行过程】

spark 源码分析之十九 -- DAG的生成和Stage的划分

spark --DAG的生成和划分Stage

Spark_DAG的生成和划分Stage

Spark_DAG的生成和划分Stage

Spark深入解析（十三）： RDD依赖关系、DAG生成、划分Stage

spark 源码分析之十九 -- Stage的提交 spark 源码分析之十九 -- DAG的生成和Stage的划分 spark 源码分析之十九 -- DAG的生成和Stage的划分 spark 源码分析之三 -- LiveListenerBus介绍 spark 源码分析之十九 -- DAG的生成和Stage的划分 spark 源码分析之四 -- TaskScheduler的创建和启动过程

DAG的生成与Stage的划分

Spark RDD的stage划分和容错

Spark—— DAG 如何划分stage？

Spark DAG Scheduler划分Stage的过程

Spark RDD-运行

大数据计算引擎之Spark(2) SparkCore-RDD

Spark中RDD划分阶段Stage

【Spark】源码分析之RDD的生成及stage的切分

大数据学习之spark—RDD操作、DAG依赖 shuffle

Spark RDD-行动算子

Spark学习四：Spark架构设计和RDD的stage划分

Spark源码解读之Stage划分和提交

Spark基础学习笔记19：RDD的依赖与Stage划分

spark笔记之DAG的生成

Spark中的宽窄依赖和Stage的划分

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)