[spark 面试]Shuffle的性能调优问题 - 代码天地

[spark 面试]Shuffle的性能调优问题

其他 2018-09-10 23:23:02 阅读次数: 0

1、Shuffle原理和运行机制回顾
2、Shuffle性能调优

图147-1 Spark Shuffle性能调优

上面的流程中：
性能问题1：Mapper端的Cache：如果Cache设置的大小不恰当，可能产生大量磁盘的访问操作，因为要频繁地往本地磁盘写数据。
性能问题2：Reducer端的Business Logic运行的空间，如果说空间分配不够，业务逻辑运行的时候被迫把数据Spill到磁盘上面。一方面造成了业务逻辑处理的时候需要读写磁盘，另一方面也会造成不安全（数据读写故障）

看Log和Web UI上面的信息来判断是否需要调整上面的两个问题所涉及的参数。

针对问题1：Mapper端的性能调优参数是spark.shuffle.file.buffer，默认大小是32k，我们要根据数据量和并发量来适当调整该参数，尽量减少过于频繁的磁盘访问操作，开始是32k，后面可以调整成为64k，128k等等，需观察性能效果。
针对问题2：spark.shuffle.memoryFracton 默认大小是0.2，Reducer端的业务逻辑运行占用Executor内存大小的20%，一个额外的说明：很多公司的Executor中线程的并行度在5个左右，调整的时候可以从0.2调整为0.3，0.4等

猜你喜欢

转载自blog.csdn.net/qq_35394891/article/details/82319514

[spark 面试]Shuffle的性能调优问题

Spark——性能调优——Shuffle

Spark性能优化：shuffle调优

spark性能调优之shuffle

Spark性能优化之shuffle调优

Spark性能调优 Shuffle（二）

四、Spark性能优化：shuffle调优

Spark性能优化 (3) | Shuffle 调优

spark性能调优指南（四）（shuffle调优）

Spark性能调优之 Shuffle调优（三）

Spark性能调优-Shuffle调优及故障排除篇

Spark shuffle调优

spark shuffle的调优

Spark shuffle 调优

Spark性能优化指南——数据倾斜和shuffle调优

Spark性能优化篇四：shuffle调优

spark.shuffle调优

spark shuffle参数调优

Spark性能调优与故障处理之(3)Spark Shuffle 调优

Spark调优 shuffle调优

Spark 调优：Shuffle调优

Spark调优之Shuffle调优

spark调优（四）：shuffle调优

spark性能调优

Spark的性能调优

Spark 性能调优

Spark：性能调优

Spark（十三）Spark Core 调优之Shuffle调优

Spark性能优化之数据倾斜调优与shuffle调优

Spark性能调优 troubleshooting shuffle调优 reduce端缓冲大小以避免OOM

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)