Spark（三十八）数据倾斜解决方案之提高shuffle操作reduce并行度 - 代码天地

Spark（三十八）数据倾斜解决方案之提高shuffle操作reduce并行度

其他 2019-02-20 16:00:59 阅读次数: 0

一、背景

1、第一个和第二个方案，都不适合做。

2、第三个方案，提高shuffle操作的reduce并行度

将reduce task的数量，变多，就可以让每个reduce task分配到更少的数据量，这样的话，也许就可以缓解，或者甚至是基本解决掉数据倾斜的问题。

提升shuffle reduce端并行度，怎么来操作？

1、很简单，主要给我们所有的shuffle算子，比如groupByKey、countByKey、reduceByKey。在调用的时候，传入进去一个参数。一个数字。那个数字，就代表了那个shuffle操作的reduce端的并行度。那么在进行shuffle操作的时候，就会对应着创建指定数量的reduce task。

2、这样的话，就可以让每个reduce task分配到更少的数据。基本可以缓解数据倾斜的问题。

3、比如说，原本某个task分配数据特别多，直接OOM，内存溢出了，程序没法运行，直接挂掉。按照log，找到发生数据倾斜的shuffle操作，给它传入一个并行度数字，这样的话，原先那个task分配到的数据，肯定会变少。就至少可以避免OOM的情况，程序至少是可以跑的。

流程图解

spark.default.parallelism，100

image.png

提升shuffle reduce并行度的缺陷

治标不治本的意思，因为，它没有从根本上改变数据倾斜的本质和问题。不像第一个和第二个方案（直接避免了数据倾斜的发生）。原理没有改变，只是说，尽可能地去缓解和减轻shuffle reduce task的数据压力，以及数据倾斜的问题。

实际生产环境中的经验。

1、如果最理想的情况下，提升并行度以后，减轻了数据倾斜的问题，或者甚至可以让数据倾斜的现象忽略不计，那么就最好。就不用做其他的数据倾斜解决方案了。

2、不太理想的情况下，就是比如之前某个task运行特别慢，要5个小时，现在稍微快了一点，变成了4个小时；或者是原先运行到某个task，直接OOM，现在至少不会OOM了，但是那个task运行特别慢，要5个小时才能跑完。

那么，如果出现第二种情况的话，各位，就立即放弃第三种方案，开始去尝试和选择后面的四种方案。

猜你喜欢

转载自blog.csdn.net/weixin_33858485/article/details/87299404

Spark（三十八）数据倾斜解决方案之提高shuffle操作reduce并行度

Spark项目实战-数据倾斜解决方案之提高shuffle操作reduce并行度

spark 大型项目实战(五十四):数据倾斜解决方案之提高shuffle操作reduce并行度

数据倾斜解决方案之提高shuffle操作reduce并行度

84.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之提高shuffle操作reduce并行度

Spark项目实战-数据倾斜解决方案之将reduce join转换为map join

Spark（四十）数据倾斜解决方案之将reduce join转换为map join

Spark之数据倾斜完美解决方案

spark 数据倾斜解决方案

spark数据倾斜分析与解决方案

spark完整的数据倾斜解决方案

Spark数据倾斜及解决方案

Spark数据倾斜解决方案2

Spark 数据倾斜及其解决方案

Spark数据倾斜的解决方案

spark数据倾斜解决方案

Spark-数据倾斜及解决方案

spark 大型项目实战(五十八):数据倾斜解决方案之sample采样倾斜key进行两次join

数据倾斜解决方案之reduce join转换成为map join

数据倾斜解决方案之将reduce join转换为map join

spark 大型项目实战(五十六):数数据倾斜解决方案之将reduce join转换为map join

086.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之将reduce join转换为map join

Spark_Spark 中数据倾斜解决方案详解

【Spark调优】小表join大表数据倾斜解决方案【Spark调优】聚合操作数据倾斜解决方案

【Spark调优】聚合操作数据倾斜解决方案

【云计算大数据】Spark数据倾斜解决方案

【云计算大数据】Spark数据倾斜解决方案

spark 大型项目实战(五十三):数据倾斜解决方案之聚合源数据

Spark（三十七）数据倾斜解决方案之聚合源数据

spark结合hive数据倾斜的几种解决方案

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)