spark算子调优五：reduceByKey本地聚合 - 代码天地

spark算子调优五：reduceByKey本地聚合

其他 2019-06-19 08:59:32 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/m0_37294838/article/details/91407143

reduceByKey相较于普通的shuffle操作一个显著的特点就是会进行map端的本地聚合，map端会先对本地的数据进行combine操作，然后将数据写入给下个stage的每个task创建的文件中，也就是在map端，对每一个key对应的value，执行reduceByKey算子函数。reduceByKey算子的执行过程如图

使用reduceByKey对性能的提升如下：

本地聚合后，在map端的数据量变少，减少了磁盘IO，也减少了对磁盘空间的占用；
本地聚合后，下一个stage拉取的数据量变少，减少了网络传输的数据量；
本地聚合后，在reduce端进行数据缓存的内存占用减少；
本地聚合后，在reduce端进行聚合的数据量减少。

基于reduceByKey的本地聚合特征，我们应该考虑使用reduceByKey代替其他的shuffle算子，

groupByKey不会进行map端的聚合，而是将所有map端的数据shuffle到reduce端，然后在reduce端进行数据的聚合操作。由于reduceByKey有map端聚合的特性，使得网络传输的数据量减小，因此效率要明显高于groupByKey。

猜你喜欢

转载自blog.csdn.net/m0_37294838/article/details/91407143

spark算子调优五：reduceByKey本地聚合

spark算子调优reduceByKey本地聚合

Spark 性能调优 Rdd 之 reduceByKey 本地聚合（也就是map端聚合算子）

spark 大型项目实战(四十三):算子调优之reduceByKey本地聚合介绍

spark 大型项目实战(四十二):算子调优之reduceByKey本地聚合介绍

Spark（二十七）算子调优之reduceByKey本地聚合介绍

spark算子调优

spark调优——算子调优

Spark算子reduceByKey

Spark算子调优—基本的算子调优

【Spark调优】：如果实在要shuffle，使用map侧预聚合的算子

Spark算子groupbykey与reducebykey区别

spark算子调优一：mapPartitions

Spark性能优化 (2) | 算子调优

（Spark调优~）算子的合理选择

Spark性能调优之算子调优（二）

【Spark】Spark groupByKey，reduceByKey，sortByKey 算子比较

spark 算子之 reduceByKey与groupByKey的区别

Spark常用的算子总结（4）—— reduceByKey

Spark调优数据本地化调优

Spark调优：数据本地化（调优）

Spark性能调优与故障处理之(2)Spark 算子调优

Spark部分：调优【reduceByKey/aggregateByKey替代groupByKey，mapPartitions替代普通map，foreachPartitions替代foreach】

【Spark调优】：尽量避免使用shuffle类算子

spark算子调优三：filter与coalesce的配合使用

【Spark调优】数据本地化

Spark常规性能调优五：调节本地化等待时长

Spark性能调优-RDD算子调优篇（深度好文，面试常问，建议收藏）

Spark入门（五）--Spark的reduce和reduceByKey

Spark性能调优之 Spark 数据倾斜（五）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)