Spark性能调优 troubleshooting shuffle调优 reduce端缓冲大小以避免OOM - 代码天地

Spark性能调优 troubleshooting shuffle调优 reduce端缓冲大小以避免OOM

其他 2018-12-26 09:40:58 阅读次数: 0

reduce导致内存溢出原因

reduce端拉取map端task，是map端写一点数据，reduce端taskk就会拉取一小部分数据，立即进行后面的聚合、算子函数应用
每次拉取数据量大小是有buffer决定的，而默认大小是48M,有时候，map端的数据量很大的情况下，reduce端所有task拉取数据全部达到缓冲最大极限值，然后加上reduce端执行聚合函数代码会创建大量对象。这时候可能会出现内存不够，也就是OOM，reduce端内存溢出

解决方案

以降低性能换取执行
减少reduce端task缓冲的大小。我宁愿多拉取几次，但是每次同时能够拉取到reduce端每个task的数量，比较少，就不容易发生OOM内存溢出的问题。（比如，可以调节成12M）

这种时候，只能采取牺牲性能的方式了，spark作业，首先，第一要义，就是一定要让它可以跑起来。分享一个经验，曾经写过一个特别复杂的spark作业，写完代码以后，半个月之内，就是跑不起来，里面各种各样的问题，需要进行troubleshooting。调节了十几个参数，其中就包括这个reduce端缓冲的大小。总算作业可以跑起来了。

如果内存充足，可以调大参数，提高性能

如果map端数据量不是特别大，然后application 资源很充足情况下，可以适当调大reduce端缓冲大小，这样reduce task每次拉取数据量就很会变大，拉取次数降低，这样就会减少网络开销，reduce端聚合操作执行也会减少，性能应该会提高。但是前提是，内存充足

http://spark.apache.org/docs/2.0.0/configuration.html
在这里插入图片描述

参考 shuffle寻址

https://mp.csdn.net/mdeditor#

猜你喜欢

转载自blog.csdn.net/chixushuchu/article/details/85099802

Spark性能调优 troubleshooting shuffle调优 reduce端缓冲大小以避免OOM

Spark(二十八)troubleshooting之控制shuffle reduce端缓冲大小以避免OOM

spark 大型项目实战(四十四):troubleshooting之控制shuffle reduce端缓冲大小以避免OOM

troubleshooting之控制shuffle reduce端缓冲大小以避免OOM

13.3 Spark调优-JVM调优,shuffle调优, Reduce OOM

spark性能调优（三）shuffle的map端内存缓冲reduce端内存占比

Spark调优：故障解决（troubleshooting）

Spark——性能调优——Shuffle

【JVM】TroubleShooting之内存溢出异常(OOM)与调优

Spark shuffle调优

spark shuffle的调优

Spark shuffle 调优

Spark性能调优与故障处理之(6)Spark Troubleshooting故障排除

【Spark调优】：尽量避免使用shuffle类算子

Spark Shuffle调优之调节map端内存缓冲与reduce端内存占比

spark性能调优指南（四）（shuffle调优）

Spark性能调优之 Shuffle调优（三）

Spark性能调优-Shuffle调优及故障排除篇

Spark调优 shuffle调优

Spark 调优：Shuffle调优

Spark调优之Shuffle调优

spark调优（四）：shuffle调优

Spark性能优化：shuffle调优

spark性能调优之shuffle

Spark性能优化之shuffle调优

[spark 面试]Shuffle的性能调优问题

Spark性能调优 Shuffle（二）

四、Spark性能优化：shuffle调优

Spark性能优化 (3) | Shuffle 调优

Shuffle调优二：调节reduce端拉取数据缓冲区大小

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)