SPARK之任务和资源 - 代码天地

SPARK之任务和资源

其他 2019-09-07 20:52:42 阅读次数: 0

输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，一般是将若干个Block合并成一个输入分片，称为InputSplit，注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。InputSplit与Task是一一对应的关系。随后这些具体的Task每个都会被分配到集群上的某个节点的某个Executor去执行

1) 每个节点可以起一个或多个Executor

2) 每个Executor由若干core组成，每个Executor的每个core一次只能执行一个Task

3) 每个Task执行的结果就是生成了目标RDD的一个partiton

注意: 这里的core是虚拟的core而不是机器的物理CPU核，可以理解为就是Executor的一个工作线程。而 Task被执行的并发度 = Executor数目 * 每个Executor核数。至于partition的数目

1) 对于数据读入阶段，例如sc.textFile，输入文件被划分为多少InputSplit就会需要多少初始Task

2) 在Map阶段partition数目保持不变

3) 在Reduce阶段，RDD的聚合会触发shuffle操作，聚合后的RDD的partition数目跟具体操作有关，例如repartition操作会聚合成指定分区数，还有一些算子是可配置的

RDD在计算的时候，每个分区都会起一个task，所以rdd的分区数目决定了总的的task数目。申请的计算节点（Executor）数目和每个计算节点核数，决定了你同一时刻可以并行执行的task

比如的RDD有100个分区，那么计算的时候就会生成100个task，你的资源配置为10个计算节点，每个两2个核，同一时刻可以并行的task数目为20，计算这个RDD就需要5个轮次。如果计算资源不变，你有101个task的话，就需要6个轮次，在最后一轮中，只有一个task在执行，其余核都在空转。如果资源不变，你的RDD只有2个分区，那么同一时刻只有2个task运行，其余18个核空转，造成资源浪费。这就是在spark调优中，增大RDD分区数目，增大任务并行度的做法

猜你喜欢

转载自www.cnblogs.com/xiangyuguan/p/11482855.html

SPARK之任务和资源

【Spark-core学习之六】 Spark资源调度和任务调度

Spark资源调度和任务调度

Spark资源调度和任务调度流程

Spark _09资源调度和任务调度

关于Spark的资源调度和任务调度

Spark是怎么进行资源任务和资源分配的？

10.6 Spark资源调度和任务调度-standalone模式

Spark资源调度和任务调度过程介绍

spark的资源调度与任务调度

Spark任务怎么申请资源

Spark历险记之编译和远程任务提交

利用maven的资源提交spark任务

spark提交任务以及资源分配问题

Spark-任务调度与资源调度的整合

spark任务读取资源文件示例

spark任务调度模式，动态资源分配

Spark中资源与任务的关系

Spark资源调度与任务调度（standalone模式）

Spark基于资源调度和任务调度（图解+文字说明）

BigData_A_A_03-YARN-资源管理和任务调度（2）共同好友(spark)

从集群资源管理和任务调度角度看spark

spark笔记之Spark任务调度

Spark源码之提交任务

企业级Spark调优解决方案（一）之提交任务时合理分配资源

Spark学习(四)资源调度与任务调度的整合

30-Spark入门之Spark技术栈讲解、分区、系统架构、算子和任务提交方式

spark任务之Task失败监控

spark之任务调度DagScheduler&TaskScheduler

Spark 之环境搭建与任务执行流程

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)