SparkCore之RDD之间的依赖关系(血缘)详解 - 代码天地

SparkCore之RDD之间的依赖关系(血缘)详解

其他 2021-01-22 13:32:05 阅读次数: 0

1-什么是依赖关系(血缘关系)
- 通过构建依赖关系可以实现RDD的容错
- 子RDD依赖于父RDD
2-为什么需要依赖关系
- 因为Spark是基于RDD的并行计算框架
- RDD不可变可分区可并行计算的集合
- 通过划分为宽依赖和窄依赖可以在窄依赖过程中实现RDD分区的并行计算
- 但是在宽依赖的部分需要从上一个RDD的不同分区拉取数据，在Shuffle阶段无法实现并行计算
3-依赖关系有几种？
- 窄依赖：NarrowDependency
- 宽依赖：ShuffleDependency
4-如何判断一个依赖是窄依赖还是宽依赖？
- 通过一个父RDD跟一个子RDD对应，窄依赖
- 通过一个父RDD跟多个子RDD对应，宽依赖

在这里插入图片描述

这里有一个面试题: 子RDD的一个分区依赖多个父RDD是宽依赖还是窄依赖？
1) 不能确定,也就是宽窄依赖的划分依据是父RDD的一个分区是否被子RDD的多个分区所依赖,是,就是宽依赖,或者从shuffle的角度去判断,有shuffle就是宽依赖,如Join

5-Spark设计依赖关系目的是什么？

为了能够Spark并行计算,是划分Stage的依据
为了构建血缘关系进行RDD的容错,一个分区数据丢失，只需要从父RDD的对应1个分区重新计算即可

猜你喜欢

转载自blog.csdn.net/m0_49834705/article/details/112647243

SparkCore之RDD之间的依赖关系(血缘)详解

SparkCore之RDD依赖关系

SparkCore之RDD详解

RDD血缘关系源码详解！

SparkCore之RDD的Checkpoint详解

Spark之SparkCore:RDD-数据核心/API【依赖关系：宽窄依赖】

（RDD）Lineage 血缘关系和 Dependence 依赖关系

SparkCore:RDD依赖关系（宽窄依赖）内含详细图解!!!!!!!

SparkCore之RDD中的函数传递详解

SparkCore之RDD的缓存

spark RDD 之间得依赖关系

Spark基础概念02-缓存机制、RDD血缘和依赖关系

SparkCore之键值对RDD数据分区器详解

SparkCore的RDD创建方式详解

SparkCore之RDD详细概述

SparkCore之RDD缓存与RDD CheckPoint

SparkCore之RDD编程模型与RDD的创建

spark笔记之RDD的依赖关系

SparkCore系列(二)rdd聚合操作,rdd之间聚合操作

sparkCore RDD解析、算子用法详解

RDD的依赖关系

RDD依赖关系与DAG

RDD的依赖关系(重要)

Spark——RDD 依赖关系

Spark的RDD依赖关系

spark封神之路(10)-RDD依赖和血缘

RDD之间的关系原理

RDD血缘关系的追溯和持久化、checkPoint语法

SparkCore之RDD的转换Value类型

2022数据血缘关系详解

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)