Spark 核心概念一 - 代码天地

Spark 核心概念一

其他 2020-01-27 10:31:47 阅读次数: 0

Spark 核心概念图：

Driver：是一个spark 作业运行的启动的一个Driver进程，作业的主进程，负责作业解析、生成stage，并调度Task到Executor上。

SparkContext: 程序运行的核心，有DAGScheduler 划分每个阶段，底层TaskScheduler 划分给个阶段的具体任务。SchedulerBackend 管理整个集群中为正在运行的程序分配的计算资源Executor。

Executor: 真正执行作业的地方，Executor 分布在集群中的worker上，每个Executor负责接收Driver的命令来加载和运行Task。一个Executor 可以执行多个Task。

DAGScheduler: 负责高层调度，划分stage并生成程序运行的有向无环图。

TaskScheduler：负责具体stage的内部调度，具体Task的调度、容错等。

Job：Top-level 的工作单位，每个action 算子都会触发一次job，一个job可能包含一个或者多个stage。

Stage：分为ShuffleMapStage 和 ResultStage ，除了最后一个stage 是ResultStage外，其他都是ShuffleMapStage。

Task：任务执行的最小单位，Task 会发送到一个节点上，一个Task 对应RDD的一个partition。

RDD：不可变、Lazy级别、粗粒度。

---

RDD 五大特性：

 * Internally, each RDD is characterized by five main properties:
 *
 *  - A list of partitions
 *  - A function for computing each split
 *  - A list of dependencies on other RDDs
 *  - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
 *  - Optionally, a list of preferred locations to compute each split on (e.g. block locations for
 *    an HDFS file)

DataSet 和 DataFrame

DataSet: 是懒加载的，只有在行动算子（Action）执行的，才会进行计算。

DataFrame是DataSet[Row] 的别名。

大漠孤烟BLOG

发布了61 篇原创文章 · 获赞 1 · 访问量 639

私信关注

猜你喜欢

转载自blog.csdn.net/u012842247/article/details/103882424

Spark 核心概念一

Spark Streaming核心概念一（StreamingContext）

Spark入门（一）：核心概念简介

spark - 核心概念

Spark框架核心概念

Spark的核心概念

Spark核心概念名词

【spark】核心概念+架构

Spark Yarn核心概念说明

Spark Streaming核心概念与编程

spark核心概念及入门

十一、Spark核心概念RDD

Spark Core之核心概念

Spark快速入门系列(3) | 简单一文了解Spark核心概念

Spark中的核心概念和任务调度

Spark Streaming核心概念二（DStreams）

Spark核心概念RDD的另类解读

02-RDD与spark核心概念

（3）spark核心概念以及运行架构

Spark笔记整理（二）：RDD与spark核心概念名词

Spark学习（玖）- Spark Streaming核心概念与编程

Spark一 Spark概念和特征

Spark 概念

史上最简单的spark教程第十八章-SparkStreaming实时计算核心概念(一)

Spark核心之Spark Streaming

Spark（一）Spark概述

【Spark】(一) Spark入门

spark核心组件的核心

Spark RDD基于内存的集群计算容错抽象（核心概念）

spark概念详解以及四大核心介绍！！！

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)