（Spark调优~）算子的合理选择

其他 2021-11-21 07:23:24 阅读次数: 0

1.map与mappartition

1.map是对RDD中的每个元素作用上一个函数

2.mappartition是对每个分区作用上一个函数

如果遇到需要把数据写到数据库，一定要用mappartition

2.foreach 与foreachpartition

类似于map与mappartition
区别是：foreach是行动算子，map是转换算子

3.groupByKey与reduceByKey

1.groupByKey

所有数据都经过了shuffle。

2.reduceByKey

会先在map端做一个本地的聚合，然后聚合的数据进行shuffle操作（map端预聚合）
（优先采用这种方法）
在这里插入图片描述

4.collect算子

执行结果的数据全部梵高一个数组里（会导致OOM）慎用！

5.coalesce与repartition

两者的作用都是使分区数发生改变

1.coalesce算子

使分区数减少时不会有shuffle，（data.coalesce(1)）
使分区数超过默认值时，会有shuffle

一般使用在多分区变少分区

2.repartition算子

repartition算子底层调用coalesce（shuffle = true），会有shuffle

猜你喜欢

转载自blog.csdn.net/weixin_48929324/article/details/115607344

（Spark调优~）算子的合理选择

spark算子调优

spark调优——算子调优

Spark算子调优—基本的算子调优

spark算子调优reduceByKey本地聚合

spark算子调优一：mapPartitions

Spark性能优化 (2) | 算子调优

Spark性能调优之算子调优（二）

spark作业调优（一）-------合理分配资源

spark调优（二）------合理调节作业中的并行度

Spark性能调优与故障处理之(2)Spark 算子调优

【Spark调优】：尽量避免使用shuffle类算子

spark算子调优三：filter与coalesce的配合使用

spark算子调优五：reduceByKey本地聚合

Spark性能调优-RDD算子调优篇（深度好文，面试常问，建议收藏）

Spark调优(二)-----合理配置Spark集群的Executor,Core,Partition

spark算子调优使用repartition解决Spark SQL降低并行度的性能问题

spark 优化算子选择

Spark性能调优之合理分配系统资源以及并行度的调节

Spark调优 | Spark Streaming 调优

spark 算子调优之使用foreachPartition优化写数据库的性能

spark 大型项目实战(四十三):算子调优之reduceByKey本地聚合介绍

spark 大型项目实战(四十二):算子调优之reduceByKey本地聚合介绍

Spark 性能调优 Rdd 之 reduceByKey 本地聚合（也就是map端聚合算子）

Spark(二十四）算子调优之filter过后使用coalesce减少分区数量

Spark(二十五）算子调优之使用foreachPartition优化写数据库性能

Spark（二十七）算子调优之reduceByKey本地聚合介绍

【Spark调优】：如果实在要shuffle，使用map侧预聚合的算子

spark算子调优二：foreachPartition优化数据库操作

spark算子调优四：repartition解决SparkSQL低并行度问题

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)