spark如何划分DAG视图 - 代码天地

spark如何划分DAG视图

其他 2019-12-16 15:34:09 阅读次数: 0

spark根据宽依赖进行DAG视图的划分。

1、窄依赖：每个父RDD的partition 最多被一个子RDD的 partition使用。

　　窄依赖分为两类：第一类是一对一的依赖关系，在Spark中用OneToOneDependency来表示父RDD与子RDD的依赖关系是一对一的依赖关系，如map、filter、join with inputs co-partitioned；第二类是范围依赖关系，在Spark中用RangeDependency表示，表示父RDD与子RDD的一对一的范围内依赖关系，如union。

2、宽依赖：每个父 RDD 的patition 都被多个子 RDD的 patition 使用。是一种会导致计算时产生 shuffle 操作的 RDD 操作。

3、DAG生成机制：

　　DAG在图论中指的是有向无环图，而在spark中，由于计算过程具有先后顺序，也就是说任务需要进行排队形成一个队列的任务集合，这个队列的任务集合就是DAG图。

　　DAG生成机制关键就是对stage的划分，划分stage的依据就是RDD的依赖关系，对于窄依赖，RDD之间的数据不需要进行shuffle，多个数据处理只需要在同一台机器的内存中就能完成计算，因此可以将其划分到同一个stage当中。而宽依赖，涉及到shuffle，必须等到父RDD完成计算，才能进行下一步计算，因此会在宽依赖处进行stage的切分。

　　在Spark中，DAG生成的流程关键在于回溯，在程序提交后，高层调度器将所有的RDD看成是一个Stage，然后对此Stage进行从后往前的回溯，遇到Shuffle就断开，遇到窄依赖，则归并到同一个Stage。等到所有的步骤回溯完成，便生成一个DAG图。

参考博客：https://blog.csdn.net/newchitu/article/details/92797090#一、窄依赖解析

猜你喜欢

转载自www.cnblogs.com/guoyu1/p/12049257.html

spark如何划分DAG视图

Spark—— DAG 如何划分stage？

Spark 解析 : DAGScheduler中的DAG划分与提交

spark --DAG的生成和划分Stage

Spark_DAG的生成和划分Stage

Spark_DAG的生成和划分Stage

Spark DAG Scheduler划分Stage的过程

Spark 源码解析 : DAGScheduler中的DAG划分与提交

spark 源码分析之十九 -- DAG的生成和Stage的划分

spark的stage是如何划分的

Spark之RDD依赖关系及DAG逻辑视图

Spark的DAG

Spark DAG

spark中如何划分stage

DAG的生成与Stage的划分

Spark深入解析（十三）： RDD依赖关系、DAG生成、划分Stage

Spark之SparkCore:RDD-数据核心/API【DAG的生成和划分Stage】

spark 源码分析之十九 -- Stage的提交 spark 源码分析之十九 -- DAG的生成和Stage的划分 spark 源码分析之十九 -- DAG的生成和Stage的划分 spark 源码分析之三 -- LiveListenerBus介绍 spark 源码分析之十九 -- DAG的生成和Stage的划分 spark 源码分析之四 -- TaskScheduler的创建和启动过程

Spark DAG优化的解读

spark笔记之DAG的生成

Spark的DAG的生成过程详解

Spark基础入门（二）--------DAG与RDD依赖

spark-DAG，宽窄依赖，Stage，Shuffle

Spark中任务划分

Spark的Stage任务划分

Spark stage划分

SparkCore:RDD-DAG的生成和划分Stage

DAG

spark 中划分stage的思路

Spark源码《三》Stage划分

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)