理解Spark之一——stage划分 - 代码天地

理解Spark之一——stage划分

其他 2020-04-24 00:07:55 阅读次数: 0

我们首先知道Spark的基本执行流程，简化来说，当提交一个Spark程序，HDFS上的每个Block对应一个分区、一个Task任务，这个Task任务就是在跑我们开发是Spark程序，程序中是我们使用的一个个算子。

在算子中，又可以划分成为两种，一种是宽依赖、一种是窄依赖，它们和stage的关系就是宽依赖是划分stage的边界，窄依赖并不会划分stage。

那么为什么需要stage这个概念呢？因为在宽依赖的时候需要去shuffle，向磁盘读写数据，这个过程相比较来说很慢，所以在这里划分stage这个概念。

宽依赖为什么需要shuffle？宽依赖究竟是什么？

如图所示，在stage1中，map操作中一个子分区对应一个父分区，这种操作在自身的分区内能够完成，无需shuffle，所以它是一个窄依赖。而在后面groubykey操作的时候，每一个子分区依赖多个父分区，也就意味着子分区的结果需要多个父分区的集合，这就涉及到分区数据的合并，就需要shuffle，那么这里就是一个划分stage的边界。

落在地上的乐乐

发布了88 篇原创文章 · 获赞 28 · 访问量 3万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_35946969/article/details/90476228

理解Spark之一——stage划分

spark的stage是如何划分的

Spark的Stage任务划分

Spark stage划分

spark 中划分stage的思路

spark中如何划分stage

Spark FinalStage处理(Stage划分)

Spark源码《三》Stage划分

Spark—— DAG 如何划分stage？

spark stage 的理解

Spark源码解析(四):WordCount的Stage划分

[Spark源码解析]DAGScheduler划分stage

spark中stage划分简单总结

Spark中的宽窄依赖和Stage的划分

Spark的stage划分算法源码分析

spark结合实例分析stage的划分

Spark 宽窄依赖和stage的划分

Spark源码浅析：Stage划分及提交Task

Spark RDD的stage划分和容错

spark --DAG的生成和划分Stage

Spark_DAG的生成和划分Stage

Spark_DAG的生成和划分Stage

Spark DAG Scheduler划分Stage的过程

Spark(六)-Stage划分算法

Spark中RDD划分阶段Stage

深入理解spark Stage

大数据开发-Spark-一文理解Spark中的Stage,Executor,Driver...

spark源码学习（二）- DAGSchedular 划分job,提交stage的过程

Spark源码解读之Stage划分和提交

spark 源码分析之十九 -- DAG的生成和Stage的划分

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)