Spark(二十三）Shuffle调优之HashShuffleManager与SortShuffleManager - 代码天地

Spark(二十三）Shuffle调优之HashShuffleManager与SortShuffleManager

其他 2019-02-20 03:08:28 阅读次数: 0

一、背景

1、如果是普通的map，比如一个partition中有1万条数据；ok，那么你的function要执行和计算1万次。

但是，使用MapPartitions操作之后，一个task仅仅会执行一次function，function一次接收所有的partition数据。只要执行一次就可以了，性能比较高。

2、spark中，最基本的原则，就是每个task处理一个RDD的partition。

二、流程图解

image.png

MapPartitions的缺点：一定是有的。

1、如果是普通的map操作，一次function的执行就处理一条数据；那么如果内存不够用的情况下，比如处理了1千条数据了，那么这个时候内存不够了，那么就可以将已经处理完的1千条数据从内存里面垃圾回收掉，或者用其他方法，腾出空间来吧。

所以说普通的map操作通常不会导致内存的OOM异常。

2、但是MapPartitions操作，对于大量数据来说，比如甚至一个partition，100万数据，一次传入一个function以后，那么可能一下子内存不够，但是又没有办法去腾出内存空间来，可能就OOM，内存溢出。

三、调优

什么时候比较适合用MapPartitions系列操作，就是说，数据量不是特别大的时候，都可以用这种MapPartitions系列操作，性能还是非常不错的，是有提升的。比如原来是15分钟，（曾经有一次性能调优），12分钟。10分钟->9分钟。

但是也有过出问题的经验，MapPartitions只要一用，直接OOM，内存溢出，崩溃。

在项目中，自己先去估算一下RDD的数据量，以及每个partition的量，还有自己分配给每个executor的内存资源。看看一下子内存容纳所有的partition数据，行不行。如果行，可以试一下，能跑通就好。性能肯定是有提升的。

但是试了一下以后，发现，不行，OOM了，那就放弃吧。

猜你喜欢

转载自blog.csdn.net/weixin_34112030/article/details/86782726

Spark(二十三）Shuffle调优之HashShuffleManager与SortShuffleManager

Shuffle调优之HashShuffleManager与SortShuffleManager

spark 大型项目实战(三十七): --Shuffle调优之HashShuffleManager与SortShuffleManager

Spark（十三）Spark Core 调优之Shuffle调优

spark的HashShuffleManager、SortShuffleManager、钨丝ShuffleManager

Spark(二十）Shuffle调优之原理概述

Spark调优之Shuffle调优

大数据：spark新特性，shuffle，hashshufflemanager，sortshufflemanager，spark新特性，AQE，动态分区，koalas实现pandas库

spark性能调优之shuffle

Spark性能优化之shuffle调优

Spark shuffle调优

spark shuffle的调优

Spark shuffle 调优

Spark性能调优之 Shuffle调优（三）

Spark调优 shuffle调优

Spark 调优：Shuffle调优

spark调优（四）：shuffle调优

spark.shuffle调优

Spark——性能调优——Shuffle

spark shuffle参数调优

Spark(二十二）Shuffle调优之调节Map端内存缓冲与Reduce端内存占比

Spark性能调优与故障处理之(3)Spark Shuffle 调优

spark调优-JVM调优+Shuffle调优

SpringCloud Alibaba微服务实战二十三 - Feign 性能调优

Spark学习之路（十）SparkCore的调优之Shuffle调优

Spark性能优化之数据倾斜调优与shuffle调优

Spark学习之路（十）SparkCore的调优之Shuffle调优[转]

【Spark二十三】未分类

spark shuffle参数及调优建议（转）

Spark性能优化：shuffle调优

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)