Spark之SparkCore:RDD-数据核心/API【依赖关系：宽窄依赖】

其他 2021-03-20 22:37:30 阅读次数: 0

RDD 依赖关系

1、窄依赖（narrow dependency）
2、宽依赖（wide dependency）
3、作用

$\quad \quad$ RDD和它依赖的父RDD的关系有两种不同的类型，即窄依赖（narrow dependency）和宽依赖（wide dependency）。

在这里插入图片描述

1、窄依赖（narrow dependency）

窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用（一对一的关系）
总结·：窄依赖我们形象的比喻为独生子女
常见算子：map flatmap filter union sample 等等

2、宽依赖（wide dependency）

宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Partition (一对多的关系)
总结：宽依赖我们形象的比喻为超生
常见算子：groupByKey reduceByKey sortByKey join 等等

如何区分宽窄依赖?

窄依赖:父RDD的一个分区只会被子RDD的一个分区依赖
宽依赖:父RDD的一个分区会被子RDD的多个分区依赖(涉及到shuffle)

易出错之处：子RDD的一个分区依赖多个父RDD是宽依赖还是窄依赖？

不能确定,也就是宽窄依赖的划分依据是父RDD的一个分区是否被子RDD的多个分区所依赖,是,就是宽依赖,或者从shuffle的角度去判断,有shuffle就是宽依赖

3、作用

窄依赖：

Spark可以并行计算
如果有一个分区数据丢失，只需要从父RDD的对应1个分区重新计算即可，不需要重新计算整个任务，提高容错。

宽依赖：

是划分Stage的依据
容错（针对复杂业务逻辑，当执行到宽依赖的时候，进行适当的cache,担心任务异常结束，数据重跑）

猜你喜欢

转载自blog.csdn.net/weixin_45666566/article/details/112548192

Spark之SparkCore:RDD-数据核心/API【依赖关系：宽窄依赖】

Spark之SparkCore:RDD-数据核心/API【CheckPoint】

Spark之SparkCore:RDD-数据核心/API【算子】

Spark之SparkCore:RDD-数据核心/API【缓存】

spark --RDD宽窄依赖关系

Spark之SparkCore:RDD-数据核心/API【任务切分、运行路径】

Spark之SparkCore:RDD-数据核心/API【DAG的生成和划分Stage】

Spark之SparkCore:RDD-数据核心/API【概念、属性、特点】

SparkCore:RDD依赖关系（宽窄依赖）内含详细图解!!!!!!!

Spark_RDD宽窄依赖关系

Spark_RDD宽窄依赖关系

Spark之SparkCore:RDD-数据核心/API【执行过程、编程模型：创建、转换、输出、运行过程】

SparkCore之RDD依赖关系

大数据Spark04RDD宽窄依赖

Spark中RDD的宽窄依赖 & 图解RDD执行中Application、Job、Stage、Task的关系

SparkCore之RDD之间的依赖关系(血缘)详解

RDD 宽窄依赖

Spark——RDD 依赖关系

Spark的RDD依赖关系

spark笔记之RDD的依赖关系

Spark的宽窄依赖

关于spark RDD trans action算子、lineage、宽窄依赖详解

Spark之RDD依赖关系及DAG逻辑视图

spark RDD 之间得依赖关系

Spark算子总结，RDD类型，依赖关系

Spark RDD基本概念、宽窄依赖、转换行为操作

大数据学习之spark—RDD操作、DAG依赖 shuffle

Spark之【RDD编程】详细讲解(No5)——《RDD依赖关系》

Spark RDD-运行

spark task、job、partition之间的关系宽窄依赖 spark任务调度

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)