spark算子调优一：mapPartitions - 代码天地

spark算子调优一：mapPartitions

其他 2019-06-19 08:59:34 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/m0_37294838/article/details/91405390

普通的map算子对RDD中的每一个元素进行操作，而mapPartitions算子对RDD中每一个分区进行操作。如果是普通的map算子，假设一个partition有1万条数据，那么map算子中的function要执行1万次，也就是对每个元素进行操作。

如果是mapPartition算子，由于一个task处理一个RDD的partition，那么一个task只会执行一次function，function一次接收所有的partition数据，效率比较高。

比如，当要把RDD中的所有数据通过JDBC写入数据，如果使用map算子，那么需要对RDD中的每一个元素都创建一个数据库连接，这样对资源的消耗很大，如果使用mapPartitions算子，那么针对一个分区的数据，只需要建立一个数据库连接。

mapPartitions算子也存在一些缺点：对于普通的map操作，一次处理一条数据，如果在处理了2000条数据后内存不足，那么可以将已经处理完的2000条数据从内存中垃圾回收掉；但是如果使用mapPartitions算子，但数据量非常大时，function一次处理一个分区的数据，如果一旦内存不足，此时无法回收内存，就可能会OOM，即内存溢出。

因此，mapPartitions算子适用于数据量不是特别大的时候，此时使用mapPartitions算子对性能的提升效果还是不错的。（当数据量很大的时候，一旦使用mapPartitions算子，就会直接OOM）

在项目中，应该首先估算一下RDD的数据量、每个partition的数据量，以及分配给每个Executor的内存资源，如果资源允许，可以考虑使用mapPartitions算子代替map。

猜你喜欢

转载自blog.csdn.net/m0_37294838/article/details/91405390

spark算子调优一：mapPartitions

spark算子调优

spark 大型项目实战(三十八): 算子调优之MapPartitions提升Map类操作性能

spark调优——算子调优

Spark算子调优—基本的算子调优

spark算子调优reduceByKey本地聚合

Spark性能优化 (2) | 算子调优

（Spark调优~）算子的合理选择

Spark性能调优之算子调优（二）

算子调优之MapPartitions提升Map类操作性能

spark部分：map，flatmap，mapPartitions,mapPartitionswithindex算子

spark中map和mapPartitions算子的区别

spark调优（一）：开发调优

Spark部分：调优【reduceByKey/aggregateByKey替代groupByKey，mapPartitions替代普通map，foreachPartitions替代foreach】

Spark性能调优与故障处理之(2)Spark 算子调优

【Spark调优】：尽量避免使用shuffle类算子

spark算子调优三：filter与coalesce的配合使用

spark算子调优五：reduceByKey本地聚合

Spark性能调优-RDD算子调优篇（深度好文，面试常问，建议收藏）

spark中的常用算子区别（map、mapPartitions、foreach、foreachPartition）

Spark RDD算子之RDD 分区操作 -- mapPartitions、mapPartitionsWithIndex、glom

Spark map、mapPartitions、mapPartitionsWithIndex算子的区别和使用

Spark性能调优之常规性能调优（一）

spark算子调优使用repartition解决Spark SQL降低并行度的性能问题

Apache Spark Jobs 性能调优（一）

Spark 程序性能调优(一)

Spark之性能调优总结（一）

Spark 数据分析调优（一）

Spark调优 | Spark Streaming 调优

Spark调优（一）--资源分配调优

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)