【Spark2参数调优】submit Spark sql脚本并行度调优 - 代码天地

【Spark2参数调优】submit Spark sql脚本并行度调优

其他 2020-02-07 19:35:00 阅读次数: 0

spark2 submit Spark sql脚本并行度调优

疑问：关于spark.default.parallelism
现象：每个executor所分配的core小于active task的数量
解决：指定spark.sql.shuffle.partitions数量

都说程序员不配享受生活，最近几个月一直在吃“两条线”，白天挖焦煤，晚上扒火车，真是比铁道游击队还苦逼！

疑问：关于spark.default.parallelism

我在做Spark sql submit脚本参数调优的时候曾寄希望于spark.default.parallelism这个参数，直到看到大量的core被闲置，才明白这个参数是无效的（对于spark sql来说）。

现象：每个executor所分配的core小于active task的数量

在这里插入图片描述
搞这一行的都明白task并行度是提高t任务执行效率的关键，在长期的观测中，我发现ETL调度执行过程中存在3个core对应一个active task的现象，也就是说，对于Spark sql任务来说，spark.default.parallelism这个参数是无用的，那么该怎样控制Spark sql任务并行度呢？

解决：指定spark.sql.shuffle.partitions数量

没错，spark.sql.shuffle.partitions才是决定Spark sql执行并行度的关键，原因在于：

spark.default.parallelism这个参数是在处理RDD时才会起作用的，对Spark sql来说是无效的。
针对Spark sql任务，则是专门提供了spark.sql.shuffle.partitions这样的参数来控制并行度。

举个例子：
spark2-submit xxxxxx --conf spark.sql.shuffle.partitions=1000 xxxxxxxxxx
这里就是设置了Spark sql任务并行度为1000，当然，我们也可以在Spark sql脚本中设定这一参数，像这样直接写入脚本中：
在这里插入图片描述
最终的结果当然很愉快，终于能随心所欲地控制任务执行并发了！

Jack_Roy

发布了31 篇原创文章 · 获赞 21 · 访问量 2万+

私信关注

猜你喜欢

转载自blog.csdn.net/Jack_Roy/article/details/89639784

【Spark2参数调优】submit Spark sql脚本并行度调优

spark submit参数调优

Spark：spark submit参数调优 & perfect

spark submit 参数解释说明及调优

spark-submit中的参数调优

Spark Submit提交及参数调优

spark SQL 参数调优

Spark2 Linear Regression线性回归案例(参数调优)

spark性能调优---调节并行度

spark性能调优 | 默认并行度

Spark参数调优

spark 参数调优

spark 调优参数

spark调优参数

[spark性能调优]spark submit资源参数调优及amazon集群示例

1.5.1.3 spark-submit命令参数详解与调优

spark调优2

spark算子调优使用repartition解决Spark SQL降低并行度的性能问题

spark shuffle参数调优

spark参数调整调优

Spark全面精讲系统（基于Spark2版本+含Spark调优+超多案例）

spark性能调优之提高并行度

spark调优（二）------合理调节作业中的并行度

Spark调优之并行度那些事~

Spark常规性能调优三：并行度调节

Spark SQL性能调优

spark sql 性能调优

Spark参数配置和调优，Spark-SQL、Config

Spark调优 | Spark Streaming 调优

Spark系列--Spark调优

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)