Spark之SparkCore:RDD-数据核心/API【任务切分、运行路径】

其他 2021-03-20 22:37:16 阅读次数: 0

RDD如何运行

1、RDD到底做什么？
2、任务切分
3、RDD运行规划图

1、RDD到底做什么？

RDD 是一个应用层面的逻辑概念。一个 RDD 多个分片。RDD 就是一个元数据记录集，记录了 RDD 内存所有的关系数据。

2、任务切分

在这里插入图片描述
$\quad \quad$ 在Spark中，一个应用（Application）由一个任务控制节点（Driver）和若干个作业（Job）构成，一个作业由多个阶段（Stage）构成，一个阶段由多个任务（Task）组成.

Application：一个能够打成 jar 包的 Spark 程序就是一个应用。里面应该有一个 SparkContext。
Job：一个应用中每一个 Action 操作所涉及到的所有转换叫一个 Job。
Stage：一个 Job 根据 RDD 之间的宽窄依赖关系划分为多个 Stage，Stage 之间是根据依赖关系来逐个执行的。
Task: 一个 Stage 运行的时候，RDD 的每一个分区都会被一个 Task 去处理，也可以认为是并行度。

3、RDD运行规划图

写代码时我们都是从前往后写，但是划分 Stage 是从后往前划分。
划分过程如下：
1、首先先把所有代码划分成为一个 Stage，然后该 Stage 入栈。
2、从最后的代码往前走，如果发现 RDD 之间的依赖关系是宽依赖，那么将宽依赖前面的所有代码划分为第二个 Stage，然后该 Stage 入栈。
3、根据 2 规则继续往前走，直到代码开头。

在这里插入图片描述

1、一个Spark应用中可以有一到多个DAG，取决于触发了多少次Action

2.一个DAG中会有不同的阶段/stage，划分阶段/stage的依据就是宽依赖

3.一个阶段/stage中可以有多个Task，一个分区对应一个Task

参考资料：

https://blog.csdn.net/student__software/article/details/82454609

猜你喜欢

转载自blog.csdn.net/weixin_45666566/article/details/112555316

Spark之SparkCore:RDD-数据核心/API【任务切分、运行路径】

Spark之SparkCore:RDD-数据核心/API【CheckPoint】

Spark之SparkCore:RDD-数据核心/API【缓存】

Spark之SparkCore:RDD-数据核心/API【算子】

Spark之SparkCore:RDD-数据核心/API【执行过程、编程模型：创建、转换、输出、运行过程】

Spark之SparkCore:RDD-数据核心/API【DAG的生成和划分Stage】

Spark之SparkCore:RDD-数据核心/API【依赖关系：宽窄依赖】

Spark之SparkCore:RDD-数据核心/API【概念、属性、特点】

Spark RDD-运行

【Spark】源码分析之RDD的生成及stage的切分

大数据计算引擎之Spark(2) SparkCore-RDD

Spark RDD-行动算子

数据切分

Spark 如何对源端数据做切分？

Spark如何对源端数据做切分？

Spark深入解析（五）：SparkCore之RDD编程模型

Spark深入解析（四）：SparkCore之RDD概述

【spark】第二章——SparkCore之运行架构及核心编程

SparkCore之RDD的缓存

SparkCore之RDD详解

大数据Spark YarnCluster模式源码分析——提交任务2+切分任务（手把手看源码）

MySQL数据切分

【MySQL】数据切分

数据切分算法

数据切分——原理

数据集切分

python-纯路径切分

机器学习之数据集切分

数据库切分之垂直切分

SparkCore之键值对RDD数据分区器详解

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)