spark算子调优四：repartition解决SparkSQL低并行度问题 - 代码天地

spark算子调优四：repartition解决SparkSQL低并行度问题

其他 2019-06-19 08:59:32 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/m0_37294838/article/details/91407028

在第一节的常规性能调优中我们讲解了并行度的调节策略，但是，并行度的设置对于Spark SQL是不生效的，用户设置的并行度只对于Spark SQL以外的所有Spark的stage生效。

Spark SQL的并行度不允许用户自己指定，Spark SQL自己会默认根据hive表对应的HDFS文件的split个数自动设置Spark SQL所在的那个stage的并行度，用户自己通spark.default.parallelism参数指定的并行度，只会在没Spark SQL的stage中生效。

由于Spark SQL所在stage的并行度无法手动设置，如果数据量较大，并且此stage中后续的transformation操作有着复杂的业务逻辑，而Spark SQL自动设置的task数量很少，这就意味着每个task要处理为数不少的数据量，然后还要执行非常复杂的处理逻辑，这就可能表现为第一个有Spark SQL的stage速度很慢，而后续的没有Spark SQL的stage运行速度非常快。

为了解决Spark SQL无法设置并行度和task数量的问题，我们可以使用repartition算子。

Spark SQL这一步的并行度和task数量肯定是没有办法去改变了，但是，对于Spark SQL查询出来的RDD，立即使用repartition算子，去重新进行分区，这样可以重新分区为多个partition，从repartition之后的RDD操作，由于不再设计Spark SQL，因此stage的并行度就会等于你手动设置的值，这样就避免了Spark SQL所在的stage只能用少量的task去处理大量数据并执行复杂的算法逻辑。使用repartition算子的前后对比

猜你喜欢

转载自blog.csdn.net/m0_37294838/article/details/91407028

spark算子调优四：repartition解决SparkSQL低并行度问题

spark算子调优使用repartition解决Spark SQL降低并行度的性能问题

spark 大型项目实战(四十一):算子调优之使用repartition解决Spark SQL低并行度的性能问题

spark性能调优---调节并行度

spark性能调优 | 默认并行度

spark算子调优

spark调优——算子调优

spark性能调优之提高并行度

spark调优（二）------合理调节作业中的并行度

Spark调优之并行度那些事~

Spark常规性能调优三：并行度调节

【Spark2参数调优】submit Spark sql脚本并行度调优

Spark算子调优—基本的算子调优

storm并行度调优

企业级Spark调优解决方案（二）之并行度调节以及RDD架构重用与持久化

spark算子调优reduceByKey本地聚合

spark算子调优一：mapPartitions

Spark性能优化 (2) | 算子调优

（Spark调优~）算子的合理选择

Spark性能调优之算子调优（二）

spark调优（四）：shuffle调优

大数据-spark理论(3)sparkSql，sparkStreaming，spark调优

Spark(二十四）算子调优之filter过后使用coalesce减少分区数量

Spark性能调优之合理分配系统资源以及并行度的调节

spark的coalesce和repartition算子管理分区

Spark transformation算子之coalesce&&repartition

sparksql性能调优

sparkSQL之调优

Spark性能调优与故障处理之(2)Spark 算子调优

【Spark调优】：尽量避免使用shuffle类算子

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)