spark 大型项目实战(四十二):算子调优之reduceByKey本地聚合介绍 - 代码天地

spark 大型项目实战(四十二):算子调优之reduceByKey本地聚合介绍

其他 2018-08-05 16:24:56 阅读次数: 0

下面看一段简单的world count

val lines = sc.textFile("hdfs://")
val words = lines.flatMap(_.split(" "))
val pairs = words.map((_, 1))
val counts = pairs.reduceByKey(_ + _)
counts.collect()

reduceByKey，相较于普通的shuffle操作（比如groupByKey），它的一个特点，就是说，会进行map端的本地聚合。

对map端给下个stage每个task创建的输出文件中，写数据之前，就会进行本地的combiner操作，也就是说对每一个key，对应的values，都会执行你的算子函数（) + _）

用reduceByKey对性能的提升：

1、在本地进行聚合以后，在map端的数据量就变少了，减少磁盘IO。而且可以减少磁盘空间的占用。

2、下一个stage，拉取数据的量，也就变少了。减少网络的数据传输的性能消耗。

3、在reduce端进行数据缓存的内存占用变少了。

4、reduce端，要进行聚合的数据量也变少了。
总结：

reduceByKey在什么情况下使用呢？

1、非常普通的，比如说，就是要实现类似于wordcount程序一样的，对每个key对应的值，进行某种数据公式或者算法的计算（累加、类乘）

2、对于一些类似于要对每个key进行一些字符串拼接的这种较为复杂的操作，可以自己衡量一下，其实有时，也是可以使用reduceByKey来实现的。但是不太好实现。如果真能够实现出来，对性能绝对是有帮助的。（shuffle基本上就占了整个spark作业的90%以上的性能消耗，主要能对shuffle进行一定的调优，都是有价值的）

扫描二维码关注公众号，回复： 2563271 查看本文章

这里写图片描述

欢迎关注，更多福利

这里写图片描述

猜你喜欢

转载自blog.csdn.net/u012957549/article/details/80789099

spark 大型项目实战(四十二):算子调优之reduceByKey本地聚合介绍

spark 大型项目实战(四十三):算子调优之reduceByKey本地聚合介绍

spark算子调优reduceByKey本地聚合

Spark（二十七）算子调优之reduceByKey本地聚合介绍

spark算子调优五：reduceByKey本地聚合

Spark 性能调优 Rdd 之 reduceByKey 本地聚合（也就是map端聚合算子）

spark 大型项目实战(三十八): 算子调优之MapPartitions提升Map类操作性能

spark 大型项目实战(四十): 算子调优之使用foreachPartition优化写数据库性能

spark 大型项目实战(三十九): 算子调优之filter过后使用coalesce减少分区数量

spark 大型项目实战(四十一):算子调优之使用repartition解决Spark SQL低并行度的性能问题

spark 大型项目实战(三十五):--Shuffle调优之原理概述

spark 大型项目实战(三十七): --Shuffle调优之HashShuffleManager与SortShuffleManager

spark 大型项目实战(三十二): --性能调优之在实际项目中调节数据本地化等待时长

spark 大型项目实战(三十五):--Shuffle调优之合并map端输出文件

spark 大型项目实战(三十四): --JVM调优之调节executor堆外内存与连接等待时长

spark 大型项目实战(三十三): --JVM调优之原理概述以及降低cache操作的内存占比

spark 大型项目实战(三十六):Shuffle调优之调节map端内存缓冲与reduce端内存占比

spark 大型项目实战(五十三):数据倾斜解决方案之聚合源数据

spark 大型项目实战(二十六): --性能调优之在实际项目中分配更多资源

spark 大型项目实战(三十): --性能调优之在实际项目中使用Kryo序列化

spark 大型项目实战(二十九): --性能调优之在实际项目中广播大变量

spark 大型项目实战(二十七): --性能调优之在实际项目中调节并行度

Spark大型项目实战 138讲

spark算子调优

spark 大型项目实战(四十八):troubleshooting之解决算子函数返回NULL导致的问题

spark 大型项目实战(十八):用户访问session分析(十八) -- session 聚合之重构时长和步长

spark 大型项目实战(十七):用户访问session分析(十七) -- session 聚合之自定义Accumulator

spark 大型项目实战(五十五):数据倾斜解决方案之使用随机key实现双重聚合

spark 大型项目实战(五十二):数据倾斜解决方案之原理以及现象分析

spark 大型项目实战(十九):用户访问session分析(十九) -- 聚合结果写入mysql

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)