shuffle调优 - 代码天地

shuffle调优

其他 2019-03-06 08:10:53 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wuxintdrh/article/details/88072158

5.3、shuffle调优

spark在执行groupByKey、reduceByKey等操作时的，shuffle环节的调优。这个很重要。shuffle调优，其实对spark作业的性能的影响，是相当之高！！！经验：在spark作业的运行过程中，只要一牵扯到有shuffle的操作，基本上shuffle操作的性能消耗，要占到整个spark作业的50%~90%。10%用来运行map等操作，90%耗费在两个shuffle操作。groupByKey、countByKey。
参考文档：
https://www.jianshu.com/p/98a1d67bc226
https://blog.csdn.net/zhanglh046/article/details/78360762

5.3.1、shuffle原理
5.3.2、合并map端输出文件
5.3.3、调节map端内存缓冲与reduce端内存占比
5.3.4、控制shuffle reduce端缓冲大小以避免OOM

map端的task是不断的输出数据的，数据量可能是很大的。

但是，其实reduce端的task，并不是等到map端task将属于自己的那份数据全部写入磁盘文件之后，再去拉取的。map端写一点数据，reduce端task就会拉取一小部分数据，立即进行后面的聚合、算子函数的应用。

每次reduece能够拉取多少数据，就由buffer来决定。因为拉取过来的数据，都是先放在buffer中的。然后才用后面的executor分配的堆内存占比（0.2），hashmap，去进行后续的聚合、函数的执行。
注意与reduce端内存占比的区别设置spark.reducer.maxSizeInFlight

5.3.5、HashShuffleManager与SortShuffleManager

猜你喜欢

转载自blog.csdn.net/wuxintdrh/article/details/88072158

Spark shuffle调优

spark shuffle的调优

shuffle调优

Spark shuffle 调优

Spark调优 shuffle调优

Spark 调优：Shuffle调优

Spark调优之Shuffle调优

spark调优（四）：shuffle调优

spark.shuffle调优

MapReduce shuffle性能调优

Spark——性能调优——Shuffle

spark shuffle参数调优

spark调优-JVM调优+Shuffle调优

spark shuffle参数及调优建议（转）

Spark性能优化：shuffle调优

MapReduce shuffle过程剖析及调优

spark性能调优之shuffle

Spark性能优化之shuffle调优

[spark 面试]Shuffle的性能调优问题

Spark性能调优 Shuffle（二）

四、Spark性能优化：shuffle调优

Hadoop-MapReduce Shuffle原理及调优

Shuffle调优之HashShuffleManager与SortShuffleManager

Spark中的shuffle能够调优的参数

大数据技术 - MapReduce的Shuffle及调优

Spark shuffle 相关参数调优

spark shuffle优化-参数调优

Spark性能优化 (3) | Shuffle 调优

spark性能调优指南（四）（shuffle调优）

Spark（十三）Spark Core 调优之Shuffle调优

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)