Spark(27)-RDD依赖关系和运行过程 - 代码天地

Spark(27)-RDD依赖关系和运行过程

其他 2023-07-11 18:20:20 阅读次数: 0

依赖关系的划分，是DAG图

窄依赖

父级RDD只出一条线，生了一个儿子

宽依赖

父级出了多条线，生了多个儿子

shuffle洗牌操作时会出现宽依赖，例如hadoop中的shuffle，3个map机器，4个reduce任务，map出的结果往reduce上仍，用轮转法仍，每一个map出来都有可能扔到4个reduce上。

宽依赖存在一个问题：一旦子RDD发生损坏，通常来讲要追溯很多父级RDD，代价较高

Stage的划分

DAG图拆分，形成stage阶段

Stage的划分

涉及到一个算法，对DAG图进行解析，阶段生成算法有一篇论文，很复杂

https://www2.eecs.berkeley.edu/Pubs/TechRpts/2011/EECS-2011-82.pdf

改论文摘要

We found it both sufficient and useful to classify dependencies into two types: narrow dependencies, where each partition of the child RDD depends on a constant number of partitions of the parent (not proportional to its size), and wide dependencies, where each partition of the child can depend on data from all partitions of the parent.

论文总体思想如下：（林子雨教授整理）

Stage阶段划分实例

遇到窄依赖往里加，遇到宽依赖断开，窄依赖转换过程不需要经过同步等待开销启动下一个阶段，流水线的操作使得他的执行速度优于MapReduce

RDD运行过程

RDD基本运行原理

猜你喜欢

转载自blog.csdn.net/qq_52128187/article/details/131107739

Spark(27)-RDD依赖关系和运行过程

Spark——RDD 依赖关系

Spark的RDD依赖关系

spark --RDD宽窄依赖关系

Spark03-Spark运行过程剖析（基本运行流程， DAG，Lineage(血缘关系) 宽依赖和窄依赖）

Spark系列——RDD的宽依赖和窄依赖，以及Spark的运行架构，运行流程，框架的特点

Spark Core快速入门系列(3) | RDD的依赖关系(宽依赖和窄依赖)

spark RDD 之间得依赖关系

spark笔记之RDD的依赖关系

Spark算子总结，RDD类型，依赖关系

Spark_RDD宽窄依赖关系

Spark_RDD宽窄依赖关系

Spark基础概念02-缓存机制、RDD血缘和依赖关系

Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化

spark（13）-RDD的依赖关系（corse22）

Spark之RDD依赖关系及DAG逻辑视图

Spark的RDD函数传递、依赖关系、缓存及CheckPoint

Spark Core快速入门系列(6) | RDD的依赖关系

spark rdd之间的宽依赖和窄依赖

【Spark】RDD的设计和运行原理

RDD的依赖关系

RDD依赖关系与DAG

RDD的依赖关系(重要)

（RDD）Lineage 血缘关系和 Dependence 依赖关系

Spark2.3.2源码解析： 5. RDD 依赖关系：宽依赖与窄依赖

Spark中RDD的宽窄依赖 & 图解RDD执行中Application、Job、Stage、Task的关系

Spark之【RDD编程】详细讲解(No5)——《RDD依赖关系》

【Spark】Spark九：深入Spark RDD第二部分RDD依赖与运行时

Spark RDD-运行

Spark之SparkCore:RDD-数据核心/API【依赖关系：宽窄依赖】

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)