spark-Job，stage，Task等一些基本概念

Spark 将任务以 shuffle 依赖(宽依赖)为边界打散，划分多个 Stage. 最后的结果阶段叫做 ResultStage, 其它阶段叫 ShuffleMapStage.

1.从后往前推理，遇到宽依赖就断开，遇到窄依赖就把当前RDD加入到该Stage
2.每个Stage里面Task的数量是由该Stage中最后一个RDD的Partition的数量所决定的。
3.最后一个Stage里面的任务类型是ResultTask，前面其他所有的Stage的任务类型是ShuffleMapTask。
4.代表当前Stage的算子一定是该Stage的最后一个计算步骤

计算原理

spark一些概念：

Driver：使用 Driver 这一概念的分布式框架很多，比如 Hive 等。 Spark 中的 Driver 即运行 Application 的 main() 函数并创建SparkContext，创建 SparkContext 的目的是为了准备 Spark 应用程序的运行环境。在 Spark 中由 SparkContext 负责与ClusterManager 通信，进行资源的申请、任务的分配和监控等。当 Executor 部分运行完毕后，Driver 同时负责将 SparkContext 关闭。通常用 SparkContext 代表 Driver 。

Executor：某个 Application 运行在 Worker 节点上的一个进程，该进程负责运行某些 Task，并且负责将数据存在内存或者磁盘上，每个 Application 都有各自独立的一批 Executor。在 Spark on Yarn 模式下它负责将 Task 包装成 taskRunner ，并从线程池抽取出一个空闲线程运行 Task。

Worker：集群中任何可以运行 Application 代码的节点。在 Standalone 模式中指的就是通过 slave 文件配置的 Worker 节点，在 Spark on Yarn 模式中指的就是 NodeManager 节点。

Task：被送到某个 Executor 上的工作单元，和 Hadoop MapReduce 中的 MapTask 和 ReduceTask 概念一样，是运行Application 的基本单元，代表单个数据分区上的最小处理单元。Task 分为 ShuffleMapTask 和 ResultTask 两类。ShuffleMapTask 执行任务并把任务的输出划分到 (基于 task 的对应的数据分区) 多个 bucket(ArrayBuffer) 中，ResultTask 执行任务并把任务的输出发送给驱动程序。多个 Task 组成一个 Stage，而 Task 的调度和管理等由下面的 TaskScheduler 负责。

TaskSet：代表一组相关联的没有 shuffle 依赖关系的任务组成任务集。一组任务会被一起提交到更加底层的 TaskScheduler 进行管理。

Stage：Job 被确定后，Spark 的调度器 (DAGScheduler) 会根据该计算作业的计算步骤把作业划分成一个或者多个 Stage。Stage 又分为 ShuffleMapStage 和 ResultStage，每一个 Stage 将包含一个 TaskSet。

Job：Spark 的计算操作是 lazy 执行的，只有当碰到一个动作 (Action) 算子时才会触发真正的计算。一个 Job 就是由动作算子而产生包含一个或多个 Stage 的计算作业。

Cluster Manager：指的是在集群上获取资源的外部服务，目前有三种类型：

Standalone：Spark 原生的资源管理，由 Master 负责资源的分配。

Apache Mesos：与 Hadoop MapReduce 兼容性良好的一种资源调度框架。

Hadoop Yarn：主要是指的 Yarn 中的 ResourceManager。

DAGScheduler：根据 Job 构建基于 Stage 的 DAG，并提交 Stage 给 TaskScheduler。其划分 Stage 的依据是 RDD 之间的依赖关系，根据 RDD 和 Stage 之间的关系找出开销最小的调度方法，然后把 Stage 以 TaskSet 的形式提交给 TaskScheduler。此外，DAGScheduler 还处理由于 Shuffle 数据丢失导致的失败，这有可能需要重新提交运行之前的 Stage（非 Shuffle 数据丢失导致的 Task 失败由 TaskScheduler 处理）。

TaskScheduler：将 Taskset 提交给 Worker（集群）运行，每个 Executor 运行什么 Task 就是在此处分配的。TaskScheduler 还维护着所有 Task 的运行状态，重试失败的 Task

spark-Job，stage，Task等一些基本概念

猜你喜欢