spark笔记（一）之RDD任务划分

一.Driver & Executer

Driver：创建spark上下文对象的应用程序称之为Driver，或者驱动器；只要创建spark上下文对象的类，可以称之为Driver类
* 功能：发送任务给Executor进行计算
* 总结：除Executoru算子计算功能之外的代码都属于Driver

Executor：接收认为并执行任务，称之为执行器（也就是说把计算的任务交给执行器，进行计算）
* 功能：对任务进行计算，把计算结果反馈给Driver
* 总结：所有算子当中的计算功能全部由Executor来执行的

二.Shuffle & 宽依赖

Shuffle：对数据进行打乱重组的算子，说明进行Shuffle运算。（即为宽依赖）

宽依赖：是划分阶段的一个标准。是需要进行等待的

窄依赖：除了宽依赖其他的都是窄依赖，不需要等待。可以并行的执行每个分区的程序，性能就会得到提高

----------------------------------------------------------------------------------------------------------------------------------

RDD任务切分，中间分为：Application、job、Stage和Task
1）Application：初始化一个SparkContext即生成一个Application

2）Job：一个Action（行动算子）就会生成一个Job

扫描二维码关注公众号，回复： 11210933 查看本文章

3）Stage（阶段）：根据RDD之间的依赖关系的不通过将job划分不同的Stage，遇到一个宽依赖则划分一个Stage。spark程序运行的个数为1+shuffle的个数

4）Task（任务）：一个Stage（阶段）可以有多个任务（TaskSet），将Stage划分的结果发送到不同的Executor执行，即为一个Task

----------------------------------------------------------------------------------------------------------------------------------

总结：每一层都是1对多的关系
一个Application -> 多个Job
一个Job -> 多个Stage
一个Stage -> 多个Task

她比克烈会骑

原创文章 6 获赞 2 访问量 128

关注私信

spark笔记（一）之RDD任务划分

猜你喜欢