Spark基本架构 - 代码天地

Spark基本架构

其他 2018-11-18 16:37:56 阅读次数: 0

Spark基本架构图如下：

Client：客户端进程，负责提交作业。

Driver：一个Spark作业有一个spark context，一个Spark Context对应一个Driver进程，作业的main函数运行在Driver中。Driver主要负责Spark作业的解析，以及通过DAGSchduler划分stage，将Stage转化成TaskSet提交给TaskScheduler任务调度器，进而调度Task到Executor上执行。

Executor：负责执行Driver分发的Task任务。集群中一个节点可以启动多个Executor，每个Executor可以执行多个Task任务。

Cache：Spark提供了对RDD不同级别的缓存策略，分别可以缓存到内存、磁盘、外部分布式内存存储系统如Tachyon等。

Applicatio：提交的一个作业就是一个Appliation。一个Application只有一个Spark Context。

Job：RDD执行一次Action操作应付生成一个Job。

Task：Spark运行的基本单位，负责处理RDD的计算逻辑。

Stage：DAGScheduler将Job划分为多个Stage，Stage的划分界限为Shuffle的产生，Suffle标志着上一个Stage的结束和下一个Stage的开始。

TaskSet：划分的Stage会转换成一组相关联的任务集。

RDD（Resilient Distributed Dataset）：弹性分布式数据集，可以理解为一种只读的分布式多分区的数组，Spark计算操作都是基于RDD进行的，下面会有详细介绍。

DAG（Directed Acyclic Graph）：有向无环图。Spark实现了DAG的计算模型，DAG计算模型是指将一个计算任务按照计算规则分解为若干子任务，这些子任务之间根据逻辑关系构建成有向无环图。

猜你喜欢

转载自www.cnblogs.com/windtalker/p/9978203.html

Spark的基本架构

Spark基本架构

Spark:基本架构及原理

Spark基本架构及原理

spark基本架构原理

Spark : 基本架构及原理

Spark(一): 基本架构及原理

Spark设计理念与基本架构

spark基本架构原理（详细）

Spark内置RPC框架的基本架构

Spark(二) ：基本架构解析

Spark概述：基本架构及原理

Spark学习（三）: 基本架构及原理

【Spark十一】Spark集群基本架构及相关术语

大数据学习[20]---Spark基本架构及原理[转]

Spark2.1.0之模型设计与基本架构

Spark2.1.0模型设计与基本架构（下）

一文详解Spark基本架构原理

Facebook的基本架构

MVC基本架构

Android基本架构

LTE基本架构

YARN基本架构

MySQL的基本架构

hive 基本架构

MySQL 基本架构

scrapy基本架构

Yarn的基本架构

MySql基本架构

dubbo基本架构

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)