Spark _08窄依赖和宽依赖&stage

其他 2019-10-26 11:17:31 阅读次数: 0

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/qq_41946557/article/details/102733713

专业术语：

窄依赖和宽依赖

RDD之间有一系列的依赖关系，依赖关系又分为窄依赖和宽依赖。

窄依赖

父RDD和子RDD partition之间的关系是一对一的。或者父RDD一个partition只对应一个子RDD的partition情况下的父RDD和子RDD partition关系是多对一的。不会有shuffle的产生。

宽依赖

父RDD与子RDD partition之间的关系是一对多。会有shuffle的产生。

宽窄依赖图理解

Stage

Spark任务会根据RDD之间的依赖关系，形成一个DAG有向无环图，DAG会提交给DAGScheduler，DAGScheduler会把DAG划分相互依赖的多个stage，划分stage的依据就是RDD之间的宽窄依赖。遇到宽依赖就划分stage,每个stage包含一个或多个task任务。然后将这些task以taskSet的形式提交给TaskScheduler运行。

stage是由一组并行的task组成。

stage切割规则

切割规则：从后往前，遇到宽依赖就切割stage。

stage计算模式

pipeline管道计算模式,pipeline只是一种计算思想，模式。

数据一直在管道里面什么时候数据会落地？

对RDD进行持久化。
shuffle write的时候。

Stage的task并行度是由stage的最后一个RDD的分区数来决定的。
如何改变RDD的分区数？

例如：reduceByKey(XXX,3),GroupByKey(4)

测试验证pipeline计算模式

    val conf = new SparkConf()
    conf.setMaster("local").setAppName("pipeline");
    val sc = new SparkContext(conf)
    val rdd = sc.parallelize(Array(1,2,3,4))
    val rdd1 = rdd.map { x => {
      println("map--------"+x)
      x
    }}
    val rdd2 = rdd1.filter { x => {
      println("fliter********"+x)
      true
    } }
    rdd2.collect()
    sc.stop()

猜你喜欢

转载自blog.csdn.net/qq_41946557/article/details/102733713

Spark _08窄依赖和宽依赖&stage

Spark宽依赖窄依赖 Job Stage Executor Task 总结

spark - 宽依赖和窄依赖

Spark 中的宽依赖和窄依赖

spark窄依赖和宽依赖

Spark中的宽依赖和窄依赖

Spark：宽依赖和窄依赖

spark宽依赖与窄依赖

Spark - 宽依赖 & 窄依赖

spark学习系列——10 spark宽依赖和窄依赖

【Spark练习】宽、窄依赖

spark rdd之间的宽依赖和窄依赖

spark 中宽依赖和窄依赖的区别及优缺点

聊聊Spark中的宽依赖和窄依赖

Spark:宽依赖与窄依赖深度剖析

小记--------spark的宽依赖与窄依赖分析

Spark内核源码深度剖析（1） - Spark整体流程和宽依赖和窄依赖

Spark Core快速入门系列(3) | RDD的依赖关系(宽依赖和窄依赖)

Spark系列——RDD的宽依赖和窄依赖，以及Spark的运行架构，运行流程，框架的特点

SPARK 宽依赖和窄依赖 transfer action lazy策略之间的关系

Spark 什么是DAG（有向无环图）（窄依赖和宽依赖）

Spark03-Spark运行过程剖析（基本运行流程， DAG，Lineage(血缘关系) 宽依赖和窄依赖）

Spark_Spark 中的宽窄依赖每次进步一点点——Spark 中的宽依赖和窄依赖

Spark2.3.2源码解析： 5. RDD 依赖关系：宽依赖与窄依赖

spark任务提交流程与管依赖和窄依赖

Spark中的宽窄依赖和Stage的划分

Spark 宽窄依赖和stage的划分

跟我一起学Spark之——RDD Join中宽依赖与窄依赖的判断

Spark 的join 什么时候是宽依赖什么时候是窄依赖

宽依赖和窄依赖

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)