Spark专业术语定义 - 代码天地

Spark专业术语定义

其他 2019-09-11 03:24:34 阅读次数: 0

1.1.1. Application/App：Spark应用程序

指的是用户编写的Spark应用程序/代码，包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。

Spark应用程序，由一个或多个作业JOB组成(因为代码中可能会调用多次Action)，如下图所示:

1.1.2. Driver：驱动程序

Spark中的Driver即运行上述Application的Main()函数并且创建SparkContext，其中创建SparkContext的目的是为了准备Spark应用程序的运行环境。
在Spark中由SparkContext负责和ClusterManager通信，进行资源的申请、任务的分配和监控等;
当Executor部分运行完毕后，Driver负责将SparkContext关闭。
通常SparkContext代表Driver，如下图所示:

1.1.3. Cluster Manager：资源管理器

指的是在集群上获取资源的外部服务，常用的有：

Standalone，Spark原生的资源管理器，由Master负责资源的分配;
Haddop Yarn，由Yarn中的ResourcesManager负责资源的分配;
Messos，由Messos中的Messos Master负责资源管理，

如下图所示:

1.1.4. Worker：计算节点

集群中任何可以运行Application代码的节点，类似于Yarn中的NodeManager节点。

在Standalone模式中指的就是通过Slave文件配置的Worker节点，
在Spark on Yarn模式中指的就是NodeManager节点，
在Spark on Messos模式中指的就是Messos Slave节点，

扫描二维码关注公众号，回复： 7253601 查看本文章

如下图所示:

1.1.5. Executor：执行器

Application运行在Worker节点上的一个进程，该进程负责运行Task，并且负责将数据存在内存或者磁盘上，

每个Application都有各自独立的一批Executor，

如下图所示:

1.1.6. RDD：弹性分布式数据集

Resillient Distributed Dataset，Spark的基本计算单元，可以通过一系列算子进行操作(主要有Transformation和Action操作)，

如下图所示:

1.1.7. NarrowDependency窄依赖

父RDD一个分区被一个子RDD的分区所依赖;

如图所示:

1.1.8. ShuffleDependency宽依赖

父RDD的一个分区都被子RDD多个分区所使用/依赖

如图所示:

●常见的窄依赖有：
map、filter、union、mapPartitions、mapValues、join
●常见的宽依赖有：
groupByKey、partitionBy、reduceByKey、join

1.1.9. DAG：有向无环图

Directed Acycle graph，反应RDD之间的依赖关系，

DAG其实就是一个JOB(会根据依赖关系被划分成多个Stage)

注意:一个Spark程序会有1~n个DAG,调用一次Action就会形成一个DAG

如图所示:

1.1.10.DAGScheduler：有向无环图调度器

基于DAG划分Stage 并以TaskSet的形式提交Stage给TaskScheduler;

负责将作业拆分成不同阶段的具有依赖关系的多批任务;

最重要的任务之一就是：计算作业和任务的依赖关系，制定调度逻辑。

在SparkContext初始化的过程中被实例化，一个SparkContext对应创建一个DAGScheduler。

●总结：DAGScheduler完成以下工作:

1. DAGScheduler划分Stage(TaskSet)，记录哪个RDD或者 Stage 输出被物化(缓存)，通常在一个复杂的shuffle之后，通常物化一下(cache、persist)，方便之后的计算。

2. 重新提交出错/失败的Stage(shuffle输出丢失的stage/stage内部计算出错)

3. 将 Taskset 传给底层调度器

spark-cluster TaskScheduler
yarn-cluster YarnClusterScheduler
yarn-client YarnClientClusterScheduler

1.1.11.TaskScheduler：任务调度器

将Taskset提交给worker(集群)运行并回报结果;

负责每个具体任务的实际物理调度。

●总结：TaskScheduler完成以下工作:

1. 为每一个TaskSet构建一个TaskSetManager 实例管理这个TaskSet 的生命周期

2. 数据本地性决定每个Task最佳位置(移动计算比移动数据更划算)

3. 提交 taskset(一组task) 到集群运行并监控

4. 推测执行，碰到 straggle(计算缓慢) 任务需要放到别的节点上重试

5. 重新提交Shuffle输出丢失的Stage给DAGScheduler

如图所示:

1.1.12.Job：作业

由一个或多个调度阶段Stage所组成的一次计算作业;

包含多个Task组成的并行计算，往往由Spark Action催生，

一个JOB包含多个RDD及作用于相应RDD上的各种Operation。

一个DAG其实就是一个Job

如图所示:

1.1.13.Stage：阶段

一个任务集对应的调度阶段;

一个Stage ==> 一个TaskSet

DAG会根据shuffle/宽依赖划分Stage(也就是TaskSet)

每个Job会被拆分很多组TaskSet，每组任务被称为Stage，也可称TaskSet，一个作业分为多个阶段;

Stage分成两种类型ShuffleMapStage、ResultStage。

如图所示:

1.1.14. TaskSet：任务集

由一组关联的，但相互之间没有Shuffle依赖关系的任务所组成的任务集。

也就是一个Stage一个TaskSet

如图所示:

注意：

1)一个Stage创建一个TaskSet;

2)Stage的每个Rdd分区会创建一个Task,多个Task封装成TaskSet

1.1.15.Task：任务

被送到某个Executor上的工作任务;单个分区数据集上的最小处理流程单元。

如图所示:

1.1.16. 整体图示

猜你喜欢

转载自www.cnblogs.com/TiePiHeTao/p/a92136128fc931d9e9f3eae1a5ae1701.html

Spark专业术语定义

spark--专业术语加强(图解)

树的定义以及相关专业术语

专业术语

测试专业术语

oracle专业术语

PMP专业术语

java专业术语

VOIP专业术语

IT 行业专业术语

专业术语解释

黑客专业术语

期权的专业术语

专业术语学习

地铁专业术语

林业专业术语

LoRa 专业术语

通信专业术语解释

HEVC专业术语对译

网站性能专业术语

超级账本的专业术语

硬件相关专业术语

java常用专业术语

机器学习专业术语

css专业术语笔记

CV专业术语总结

贷款专业术语解释

软件测试专业术语

常用单词或专业术语

C++专业术语

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)