Spark Core快速入门系列(5) | Spark中job的划分 - 代码天地

Spark Core快速入门系列(5) | Spark中job的划分

其他 2020-09-08 19:48:47 阅读次数: 0

在这里插入图片描述
当遇到了宽依赖就会产生一个新的阶段

我们再多增加一条repartition(宽依赖)

再次查看多了一个stage

总结

job：
   一个应用中，每碰到一个action，就会起一个job
   一个应用可以有多个job
stage：
   阶段. 每碰到一个宽依赖就会在这个job内创建一个新的stage
   (如果遇到宽依赖的时候，用的分区器和当前一样，则不会起新的)
   一个job至少有一个阶段
   stage划分是从后向前划分，执行一定是从前往后
task
   体系了执行数据分析的并行度
   一个stage包含多个task
   task是一个线程，执行代码的最小单位
   线程的run方法内部会调用我们传递过去的那些匿名函数

拓展
DAG(Directed Acyclic Graph) 有向无环图
Spark 的顶层调度层使用 RDD 的依赖为每个 job 创建一个由 stages 组成的 DAG(有向无环图). 在 Spark API 中, 这被称作 DAG 调度器(DAG Scheduler).
我们已经注意到, 有些错误, 比如: 连接集群的错误, 配置参数错误, 启动一个 Spark job 的错误, 这些错误必须处理, 并且都表现为 DAG Scheduler 错误. 这是因为一个 Spark job 的执行是被 DAG 来处理.
DAG 为每个 job 构建一个 stages 组成的图表, 从而确定运行每个 task 的位置, 然后传递这些信息给 TaskSheduler. TaskSheduler 负责在集群中运行任务.

猜你喜欢

转载自blog.csdn.net/qq_46548855/article/details/108090103

Spark Core快速入门系列(5) | Spark中job的划分

Spark Core快速入门系列(7) | Spark Job 的划分

Spark Core快速入门系列(5) | RDD 中函数的传递

Spark Core快速入门系列(6) | Spark序列化

Spark Core快速入门系列(2) | Spark Core中编程模型的理解与RDD的创建

Spark Core快速入门系列(3) | ＜Transformation＞转换算子

Spark Core快速入门系列(6) | RDD的依赖关系

Spark Core快速入门系列(8) | RDD 的持久化

Spark Core快速入门系列(4) | RDD的转换(transformation)

Spark Core快速入门系列(8) | HashPartitioner和RangePartitioner

Spark Core快速入门系列(1) | 运行模式-4种

Spark Core快速入门系列(1) | 什么是RDD?一文带你快速了解Spark中RDD的概念!

Spark Core（十三）Job触发流程原理与源码、Stage划分与提交原理分析

Spark Core快速入门系列(9) | Spark读取文件的切片规则

Spark Core快速入门系列(2) | Spark对集合的切片原理

Spark中任务划分

Spark Core快速入门系列(11) | 文件中数据的读取和保存

Spark Streaming快速入门系列(5) | foreachRDD输出

【Spark】(二) Spark Core

Spark快速入门系列(5) | Spark环境搭建—standalone(2) 配置历史日志服务器

Spark : Spark入门

【Spark】(一) Spark入门

Spark Core快速入门系列(12) | 变量与累加器问题

Spark Core快速入门系列(4) | ＜Action＞行动算子转换算子

Spark Core快速入门系列(7) | RDD的持久化和检查点

Spark Core快速入门系列(9) | RDD缓存和设置检查点

Spark Core快速入门系列(10) | Key-Value 类型 RDD 的数据分区器

Spark Core快速入门系列(10) | 累加器+广播变量

Spark Core快速入门系列(3) | RDD的依赖关系(宽依赖和窄依赖)

Spark SQL 快速入门系列(1) | Spark SQL 的简单介绍！

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)