Spark学习笔记：二、Spark运行架构 - 代码天地

Spark学习笔记：二、Spark运行架构

编程语言 2018-08-18 22:32:52 阅读次数: 0

一、几个重要的概念：

1、RDD：是弹性分布式数据集（Resilient Distributed Dataset）的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型；
2、DAG：是Directed Acyclic Graph（有向无环图）的简称，反映RDD之间的依赖关系；
3、Executor：是运行在工作节点（Worker Node）上的一个进程，负责运行任务，并为应用程序存储数据；
4、应用：用户编写的Spark应用程序；
5、任务：运行在Executor上的工作单元；
6、作业：一个作业包含多个RDD及作用于相应RDD上的各种操作；
7、阶段：是作业的基本调度单位，一个作业会分为多组任务，每组任务被称为“阶段”，或者也被称为“任务集”。

二、Spark运行基本流程：

1、当一个Spark应用被提交时，首先需要为这个应用构建起基本的运行环境，即由任务控制节点（Driver）创建一个SparkContext，由SparkContext负责和资源管理器（Cluster Manager）的通信以及进行资源的申请、任务的分配和监控等。SparkContext会向资源管理器注册并申请运行Executor的资源；

2、资源管理器为Executor分配资源，并启动Executor进程，Executor运行情况将随着“心跳”发送到资源管理器上；

3、SparkContext根据RDD的依赖关系构建DAG图，DAG图提交给DAG调度器（DAGScheduler）进行解析，将DAG图分解成多个“阶段”（每个阶段都是一个任务集），并且计算出各个阶段之间的依赖关系，然后把一个个“任务集”提交给底层的任务调度器（TaskScheduler）进行处理；Executor向SparkContext申请任务，任务调度器将任务分发给Executor运行，同时，SparkContext将应用程序代码发放给Executor；

4、任务在Executor上运行，把执行结果反馈给任务调度器，然后反馈给DAG调度器，运行完毕后写入数据并释放所有资源。

猜你喜欢

转载自blog.csdn.net/Stars_Zhang/article/details/81806608

Spark学习笔记：二、Spark运行架构

spark笔记之Spark运行架构

Spark学习（一）——Spark运行架构

spark学习笔记二

Spark学习笔记：运行模式

Spark2.x学习笔记：4、Spark程序架构与运行模式

Spark运行架构

Spark运行架构浅析

Spark运行架构(Good)

Spark 运行架构

【Spark架构】运行模式

Spark运行架构特点

Spark架构原理-Spark运行架构剖析

[Spark]学习笔记二——RDDs

4-spark学习笔记-spark运行模式与原理

Spark学习笔记（一）：Spark概述与运行原理

Spark的运行架构分析（二）之运行模式详解

Spark入门：Spark运行架构(Python版)

Spark资料收藏--------Spark运行架构

spark封神之路(3)-spark运行架构

Spark 学习笔记（二）：深入Spark计算引擎

spark学习笔记：Spark Streaming

Spark学习笔记： Spark Streaming

Spark学习笔记：Spark SQL

第4章 Spark 运行架构(尚硅谷笔记)

Spark运行架构-简要版

一、Spark 架构及运行模式

Spark运行架构总结说明

Spark的架构与基本运行流程

Spark入门详解（二）-Spark运行原理

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)