spark - 宽依赖和窄依赖 - 代码天地

spark - 宽依赖和窄依赖

企业开发 2018-05-09 12:48:20 阅读次数: 4

（1）血缘关系：

通过血缘关系，可以知道一个RDD是如何从父RDD计算过来的

A =map=> B =filter=> C

（2）窄依赖：一个父RDD的partition最多被子RDD中的partition使用一次（一父对应一子），窄依赖无shuffle

（3）宽依赖：

父RDD中的一个partition会被子RDD中的partition使用多次(一父多子)

宽依赖有shuffle，一个shuffle会拆成一个stage，2个shuffle拆成3个stage

以wordcount为例（reduceBykey是宽依赖，把stage拆为2个stage；stage序号从0开始，每个stage最后一个操作的名字作为整个stage的名字）：

sc.textFile("/in/1.txt").flatMap(_.split("\t")).map((_,1)).reduceByKey(_+_).collect

分析：

wordcount例子里，reduceByKey相当于把相同的key分到一个partition上去，然后在partition上做加和，

因为并不是同一个相同key都在一个partition里，可能在不同机器上，所以需要有shuffle过程，reduceByKey在shuffle前本地会做一个预聚合

（4）会引起shuffle的操作

（5）spark中的join是宽依赖还是窄依赖？

co-partitioned 是窄依赖，其他是宽依赖

猜你喜欢

转载自coderlxl201209164551.iteye.com/blog/2414174

spark - 宽依赖和窄依赖

Spark 中的宽依赖和窄依赖

spark窄依赖和宽依赖

Spark中的宽依赖和窄依赖

Spark：宽依赖和窄依赖

spark宽依赖与窄依赖

Spark - 宽依赖 & 窄依赖

spark学习系列——10 spark宽依赖和窄依赖

【Spark练习】宽、窄依赖

spark rdd之间的宽依赖和窄依赖

spark 中宽依赖和窄依赖的区别及优缺点

聊聊Spark中的宽依赖和窄依赖

Spark _08窄依赖和宽依赖&stage

Spark:宽依赖与窄依赖深度剖析

小记--------spark的宽依赖与窄依赖分析

Spark Core快速入门系列(3) | RDD的依赖关系(宽依赖和窄依赖)

Spark内核源码深度剖析（1） - Spark整体流程和宽依赖和窄依赖

Spark系列——RDD的宽依赖和窄依赖，以及Spark的运行架构，运行流程，框架的特点

SPARK 宽依赖和窄依赖 transfer action lazy策略之间的关系

Spark 什么是DAG（有向无环图）（窄依赖和宽依赖）

Spark宽依赖窄依赖 Job Stage Executor Task 总结

Spark03-Spark运行过程剖析（基本运行流程， DAG，Lineage(血缘关系) 宽依赖和窄依赖）

Spark_Spark 中的宽窄依赖每次进步一点点——Spark 中的宽依赖和窄依赖

Spark2.3.2源码解析： 5. RDD 依赖关系：宽依赖与窄依赖

spark任务提交流程与管依赖和窄依赖

跟我一起学Spark之——RDD Join中宽依赖与窄依赖的判断

Spark 的join 什么时候是宽依赖什么时候是窄依赖

宽依赖和窄依赖

窄依赖和宽依赖

Spark中窄依赖详细介绍

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)