spark--专业术语加强(图解)

其他 2021-03-08 00:19:39 阅读次数: 0

专业术语加强

Application/App：Spark应用程序
Driver：驱动程序
ClusterManager-资源管理器Master/ResourceManager
从节点-Worker/NodeManager
Executor：执行器/执行进程
RDD：弹性分布式数据集
NarrowDependency窄依赖
ShuffleDependency宽依赖
DAG有向无环图
DAGScheduler[了解]
TaskScheduler[了解]
Job
Stage
TaskSet
Task
整体图示

Application/App：Spark应用程序

在这里插入图片描述

Driver：驱动程序

会由Driver进程运行main方法和创建SparkContext执行环境对象

ClusterManager-资源管理器Master/ResourceManager

在这里插入图片描述

从节点-Worker/NodeManager

Worker中可以运行多个Executor
每个Spark应用有自己独立的一批Executor
也就是多个Spark任务间是进程隔离的

Executor：执行器/执行进程

每个Spark应用程序拥有各个独立的一批Executor
每个Executor中有可以运行多个Task由线程池进行调度执行这些Task
每个Task运行计算RDD的一个分区上的一系列操作
Task数量=分区数量 >= CPU核数

RDD：弹性分布式数据集

RDD的五大属性:
- 分区列表（数据从哪来）
- 最佳位置（在哪算）
- 分区器/分区函数(默认hash,也可以自定义) （怎么分区）
- 计算函数（怎么计算）
- 依赖关系（rdd的依赖关系是什么）

NarrowDependency窄依赖

如:map/flatmap/filter/union/join

ShuffleDependency宽依赖

如: groupBy(xxx)/groupByKey/reduceByKey/join

DAG有向无环图

在这里插入图片描述

DAGScheduler[了解]

在这里插入图片描述

TaskScheduler[了解]

在这里插入图片描述

Job

在这里插入图片描述

Stage

DAGScheduler根据宽依赖划分Stage

TaskSet

在这里插入图片描述

Task

同一个Stage中的同一个分区上的一系列操作

整体图示

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_46893497/article/details/114004368

spark--专业术语加强(图解)

Spark专业术语定义

测试专业术语

专业术语

oracle专业术语

PMP专业术语

java专业术语

VOIP专业术语

IT 行业专业术语

专业术语解释

黑客专业术语

期权的专业术语

专业术语学习

地铁专业术语

林业专业术语

LoRa 专业术语

HEVC专业术语对译

通信专业术语解释

网站性能专业术语

超级账本的专业术语

硬件相关专业术语

java常用专业术语

css专业术语笔记

机器学习专业术语

CV专业术语总结

贷款专业术语解释

软件测试专业术语

常用单词或专业术语

C++专业术语

Java后台专业术语

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)