spark 大型项目实战(四十四):troubleshooting之控制shuffle reduce端缓冲大小以避免OOM - 代码天地

spark 大型项目实战(四十四):troubleshooting之控制shuffle reduce端缓冲大小以避免OOM

其他 2018-08-05 16:24:25 阅读次数: 0

1.
map端的task是不断的输出数据的，数据量可能是很大的。

但是，其实reduce端的task，并不是等到map端task将属于自己的那份数据全部写入磁盘文件之后，再去拉取的。map端写一点数据，reduce端task就会拉取一小部分数据，立即进行后面的聚合、算子函数的应用。

每次reduece能够拉取多少数据，就由buffer来决定。因为拉取过来的数据，都是先放在buffer中的。然后才用后面的executor分配的堆内存占比（0.2），hashmap，去进行后续的聚合、函数的执行。
2.
再来说说，reduce端缓冲大小的另外一面，关于性能调优的一面：

咱们假如说，你的Map端输出的数据量也不是特别大，然后你的整个application的资源也特别充足。200个executor、5个cpu core、10G内存。

其实可以尝试去增加这个reduce端缓冲大小的，比如从48M，变成96M。那么这样的话，每次reduce task能够拉取的数据量就很大。需要拉取的次数也就变少了。比如原先需要拉取100次，现在只要拉取50次就可以执行完了。

对网络传输性能开销的减少，以及reduce端聚合操作执行的次数的减少，都是有帮助的。

最终达到的效果，就应该是性能上的一定程度上的提升。

一定要注意，资源足够的时候，再去做这个事儿。

3.
再来说说，reduce端缓冲大小的另外一面，关于性能调优的一面：

咱们假如说，你的Map端输出的数据量也不是特别大，然后你的整个application的资源也特别充足。200个executor、5个cpu core、10G内存。

其实可以尝试去增加这个reduce端缓冲大小的，比如从48M，变成96M。那么这样的话，每次reduce task能够拉取的数据量就很大。需要拉取的次数也就变少了。比如原先需要拉取100次，现在只要拉取50次就可以执行完了。

对网络传输性能开销的减少，以及reduce端聚合操作执行的次数的减少，都是有帮助的。

最终达到的效果，就应该是性能上的一定程度上的提升。

一定要注意，资源足够的时候，再去做这个事儿。

spark.reducer.maxSizeInFlight，48
spark.reducer.maxSizeInFlight，24

这里写图片描述

欢迎关注，更多福利

这里写图片描述

猜你喜欢

转载自blog.csdn.net/u012957549/article/details/80891421

spark 大型项目实战(四十四):troubleshooting之控制shuffle reduce端缓冲大小以避免OOM

Spark(二十八)troubleshooting之控制shuffle reduce端缓冲大小以避免OOM

Spark性能调优 troubleshooting shuffle调优 reduce端缓冲大小以避免OOM

troubleshooting之控制shuffle reduce端缓冲大小以避免OOM

spark 大型项目实战(三十六):Shuffle调优之调节map端内存缓冲与reduce端内存占比

spark 大型项目实战(五十四):数据倾斜解决方案之提高shuffle操作reduce并行度

spark 大型项目实战(三十五):--Shuffle调优之合并map端输出文件

spark 大型项目实战(四十五):troubleshooting之解决JVM GC导致的shuffle文件拉取失败

spark 大型项目实战(五十一):troubleshooting之错误的持久化方式以及checkpoint的使用

spark 大型项目实战(四十七):troubleshooting之解决各种序列化导致的报错

spark 大型项目实战(三十五):--Shuffle调优之原理概述

spark 大型项目实战(三十七): --Shuffle调优之HashShuffleManager与SortShuffleManager

spark 大型项目实战(四十八):troubleshooting之解决算子函数返回NULL导致的问题

spark 大型项目实战(五十):troubleshooting之解决yarn-cluster模式的JVM内存溢出无法执行问题

spark 大型项目实战(四十九):troubleshooting之解决yarn-client模式导致的网卡流量激增问题

spark 大型项目实战(四十六):troubleshooting之解决YARN队列资源不足导致的application直接失败

Spark Shuffle调优之调节map端内存缓冲与reduce端内存占比

Spark大型项目实战 138讲

spark 大型项目实战(五十六):数数据倾斜解决方案之将reduce join转换为map join

[spark 面试]Reduce端OOM和shuffle file not found如何解决

spark性能调优（三）shuffle的map端内存缓冲reduce端内存占比

Spark(二十二）Shuffle调优之调节Map端内存缓冲与Reduce端内存占比

【视频分享】Spark大型项目实战 138讲

Spark项目实战-数据倾斜解决方案之提高shuffle操作reduce并行度

spark 大型项目实战(四十二):算子调优之reduceByKey本地聚合介绍

spark 大型项目实战(四十三):算子调优之reduceByKey本地聚合介绍

spark 大型项目实战(五十三):数据倾斜解决方案之聚合源数据

spark 大型项目实战(十八):用户访问session分析(十八) -- session 聚合之重构时长和步长

spark 大型项目实战(十七):用户访问session分析(十七) -- session 聚合之自定义Accumulator

spark 大型项目实战(三十四): --JVM调优之调节executor堆外内存与连接等待时长

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)