Spark项目实战-数据倾斜解决方案之提高shuffle操作reduce并行度 - 代码天地

Spark项目实战-数据倾斜解决方案之提高shuffle操作reduce并行度

其他 2018-10-26 17:42:39 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/Anbang713/article/details/82858417

对于之前说的《Spark项目实战-数据倾斜解决方案之聚合源数据》都不适合做，那么第三个方案：提高shuffle操作的reduce并行度。将reduce task的数量变多，就可以让每个reduce task分配到更少的数据量，这样的话也许就可以缓解或者甚至是基本解决掉数据倾斜的问题。

问题1：如何提高reduce的并行度？

很简单，主要给我们所有的shuffle算子，比如groupByKey、countByKey、reduceByKey。在调用的时候传入进去一个参数，一个数字。那个数字就代表了那个shuffle操作的reduce端的并行度。那么在进行shuffle操作的时候，就会对应着创建指定数量的reduce task。

问题2：提升shuffle reduce并行度的缺陷。

治标不治本的意思，因为它没有从根本上改变数据倾斜的本质和问题。这种方案只是说尽可能地去缓解和减轻shuffle reduce task的数据压力，以及数据倾斜的问题。

实际生产环境中的经验：

1、如果最理想的情况下，提升并行度以后，减轻了数据倾斜的问题，或者甚至可以让数据倾斜的现象忽略不计，那么就最好。就不用做其他的数据倾斜解决方案了。

2、不太理想的情况下，就是比如之前某个task运行特别慢要5个小时，现在稍微快了一点变成了4个小时，或者是原先运行到某个task，直接OOM现在至少不会OOM了，但是那个task运行特别慢，要5个小时才能跑完。那么如果出现第二种情况的话，个人觉得可以舍弃这种方案了。

猜你喜欢

转载自blog.csdn.net/Anbang713/article/details/82858417

Spark项目实战-数据倾斜解决方案之提高shuffle操作reduce并行度

spark 大型项目实战(五十四):数据倾斜解决方案之提高shuffle操作reduce并行度

Spark（三十八）数据倾斜解决方案之提高shuffle操作reduce并行度

数据倾斜解决方案之提高shuffle操作reduce并行度

84.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之提高shuffle操作reduce并行度

Spark项目实战-数据倾斜解决方案之将reduce join转换为map join

spark 大型项目实战(五十六):数数据倾斜解决方案之将reduce join转换为map join

spark 大型项目实战(五十三):数据倾斜解决方案之聚合源数据

Spark项目实战-数据倾斜解决方案之使用随机key实现双重聚合

Spark（四十）数据倾斜解决方案之将reduce join转换为map join

spark 大型项目实战(五十五):数据倾斜解决方案之使用随机key实现双重聚合

spark 大型项目实战(五十二):数据倾斜解决方案之原理以及现象分析

086.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之将reduce join转换为map join

spark 大型项目实战(五十八):数据倾斜解决方案之sample采样倾斜key进行两次join

spark 大型项目实战(五十七):数据倾斜解决方案之sample采样倾斜key进行两次join

Spark之数据倾斜完美解决方案

spark 数据倾斜解决方案

spark数据倾斜分析与解决方案

spark完整的数据倾斜解决方案

Spark数据倾斜及解决方案

Spark数据倾斜解决方案2

Spark 数据倾斜及其解决方案

spark数据倾斜解决方案

Spark数据倾斜的解决方案

Spark-数据倾斜及解决方案

数据倾斜解决方案之reduce join转换成为map join

数据倾斜解决方案之将reduce join转换为map join

83.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之聚合源数据以及过滤导致倾斜的key

Spark_Spark 中数据倾斜解决方案详解

87.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之sample采样倾斜key单独进行join

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)