Spark大数据处理讲课笔记3.4 理解RDD依赖

企业开发 2023-08-12 19:16:25 阅读次数: 0

目录

零、本讲学习目标

一、RDD依赖

二、窄依赖

（一）map()与filter()算子

（二）union()算子

（三）join()算子

三、宽依赖

（一）groupBy()算子

（二）join()算子

（三）reduceByKey()算子

三、两种依赖的比较

零、本讲学习目标

理解RDD的窄依赖
理解RDD的宽依赖
了解两种依赖的区别

一、RDD依赖

在Spark中，对RDD的每一次转化操作都会生成一个新的RDD，由于RDD的懒加载特性，新的RDD会依赖原有RDD，因此RDD之间存在类似流水线的前后依赖关系。这种依赖关系分为两种：窄依赖和宽依赖。

二、窄依赖

窄依赖是指父RDD的每一个分区最多被一个子RDD的分区使用，即OneToOneDependencies。窄依赖的表现一般分为两类，第一类表现为一个父RDD的分区对应于一个子RDD的分区；第二类表现为多个父RDD的分区对应于一个子RDD的分区。一个父RDD的一个分区不可能对应一个子RDD的多个分区。为了便于理解，我们通常把窄依赖形象地比喻为独生子女。
RDD做map、filter和union算子操作时，是属于窄依赖的第一类表现；而RDD做join算子操作（对输入进行协同划分）时，是属于窄依赖表现的第二类。输入协同划分是指多个父RDD的某一个分区的所有Key，被划分到子RDD的同一分区。当子RDD做算子操作，因为某个分区操作失败导致数据丢失时，只需要重新对父RDD中对应的分区做算子操作即可恢复数据。

（一）map()与filter()算子

一对一的依赖

（二）union()算子

一对一的依赖

（三）join()算子

多对一的依赖
对于窄依赖的RDD，根据父RDD的分区进行流水线操作，即可计算出子RDD的分区数据，整个操作可以在集群的一个节点上执行。

三、宽依赖

宽依赖是指子RDD的每一个分区都会使用所有父RDD的所有分区或多个分区，即OneToManyDependecies。为了便于理解，我们通常把宽依赖形象的比喻为超生。
父RDD做groupByKey和join（输入未协同划分）算子操作时，子RDD的每一个分区都会依赖于所有父RDD的所有分区。当子RDD做算子操作，因为某个分区操作失败导致数据丢失时，则需要重新对父RDD中的所有分区进行算子操作才能恢复数据。
例如，groupByKey()、reduceByKey()、sortByKey()等操作都会产生宽依赖。

（一）groupBy()算子

多对多的依赖

（二）join()算子

多对多的依赖
join()操作的依赖关系分两种情况：RDD的一个分区仅和另一个RDD中已知个数的分区进行组合，这种类型的join()操作是窄依赖，其他情况则是宽依赖。
在宽依赖关系中，RDD会根据每条记录的key进行不同分区的数据聚集，数据聚集的过程称作Shuffle，类似MapReduce中的Shuffle过程。举个生活中的例子，4个人一起打牌，打完牌后需要进行洗牌，这4个人相当于4个分区，每个人手里的牌则相当于分区里的数据，洗牌的过程可以理解为Shuffle。因此，Shuffle其实就是不同分区之间的数据聚集或者说数据混洗。Shuffle是一项耗费资源的操作，因为它涉及磁盘I/O、数据序列化和网络I/O。

（三）reduceByKey()算子

对一个RDD进行reduceByKey()操作，RDD中相同key的所有记录将进行聚合，而key相同的所有记录可能不在同一个分区中，甚至不在同一个节点上，但是该操作必须将这些记录聚集到一起进行计算才能保证结果准确，因此reduceByKey()操作会产生Shuffle，也会产生宽依赖。

三、两种依赖的比较

在数据容错方面，窄依赖要优于宽依赖。当子RDD的某一个分区的数据丢失时，若是窄依赖，则只需重算和该分区对应的父RDD分区即可，而宽依赖需要重算父RDD的所有分区。在groupByKey()操作中，若RDD2的分区1丢失，则需要重新计算RDD1的所有分区（分区1、分区2、分区3）才能对其进行恢复。此外，宽依赖在进行Shuffle之前，需要计算好所有父分区的数据，若某个父分区的数据未计算完毕，则需要等待。

猜你喜欢

转载自blog.csdn.net/qq_61324603/article/details/130614062

Spark大数据处理讲课笔记3.4 理解RDD依赖

Spark大数据处理讲课笔记3.8 Spark RDD典型案例

Spark大数据处理讲课笔记3.2 掌握RDD算子

Spark大数据处理讲课笔记3.3 掌握RDD分区

Spark大数据处理讲课笔记3.6 RDD容错机制

Spark大数据处理讲课笔记3.5 RDD持久化机制

Spark——RDD 依赖关系

Spark的RDD依赖关系

Spark RDD 特征及其依赖

spark --RDD宽窄依赖关系

理解Spark的核心RDD

spark RDD的理解

Spark RDD理解

Spark中RDD的理解

Spark大数据处理讲课笔记4.1 Spark SQL概述、数据帧与数据集

Spark大数据处理讲课笔记4.2 Spark SQL数据源 - 基本操作

大数据Spark04RDD宽窄依赖

大数据学习之spark—RDD操作、DAG依赖 shuffle

spark笔记之RDD的依赖关系

Spark大数据处理讲课笔记4.8 Spark SQL典型案例

Spark大数据处理讲课笔记3.7 Spark任务调度

spark RDD 之间得依赖关系

Spark基础入门（二）--------DAG与RDD依赖

Spark源码解读之RDD依赖Dependency

Spark算子总结，RDD类型，依赖关系

Spark_RDD宽窄依赖关系

Spark_RDD宽窄依赖关系

spark rdd之间的宽依赖和窄依赖

Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化

Spark基础学习笔记19：RDD的依赖与Stage划分

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)