Spark调优：调节Executor的堆外内存 - 代码天地

Spark调优：调节Executor的堆外内存

其他 2018-10-23 22:33:24 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/weixin_38750084/article/details/83187345

调节Executor的堆外内存

Spark底层shuffle的传输方式是使用netty传输，netty在进行网络传输的过程会申请堆外内存（netty是零拷贝），所以使用了堆外内存。默认情况下，这个堆外内存上限默认是每一个executor的内存大小的10%；真正处理大数据的时候，这里都会出现问题，导致spark作业反复崩溃，无法运行；此时就会去调节这个参数，到至少1G（1024M），甚至说2G、4G。

executor在进行shuffle write，优先从自己本地关联的mapOutPutWorker中获取某份数据，如果本地block manager没有的话，那么会通过TransferService，去远程连接其他节点上executor的block manager去获取，尝试建立远程的网络连接，并且去拉取数据。频繁创建对象让JVM堆内存满溢，进行垃圾回收。正好碰到那个exeuctor的JVM在垃圾回收。处于垃圾回过程中，所有的工作线程全部停止；相当于只要一旦进行垃圾回收，spark / executor停止工作，无法提供响应，spark默认的网络连接的超时时长是60s；如果卡住60s都无法建立连接的话，那么这个task就失败了。task失败了就会出现shuffle file cannot find的错误。

那么如何调节等待的时长呢？

在./spark-submit提交任务的脚本里面添加：

--conf spark.core.connection.ack.wait.timeout=300

Executor由于内存不足或者堆外内存不足了，挂掉了，对应的Executor上面的block manager也挂掉了，找不到对应的shuffle map output文件，Reducer端不能够拉取数据。我们可以调节堆外内存的大小，如何调节？

在./spark-submit提交任务的脚本里面添加

yarn下：

--conf spark.yarn.executor.memoryOverhead=2048 单位M

standalone下：

--conf spark.executor.memoryOverhead=2048单位M

扫描二维码关注公众号，回复： 3695562 查看本文章

猜你喜欢

转载自blog.csdn.net/weixin_38750084/article/details/83187345

Spark调优：调节Executor的堆外内存

Spark（十九）JVM调优之调节executor堆外内存与连接等待时长

spark之JVM调优二：调节Executor堆外内存

Spark部分的调优（代码调优，内存优化，调节Executor的堆外内存，shuffle调优，解决数据倾斜，Spark故障解决）【原理及方法介绍】

spark-调节executor堆外内存

spark 大型项目实战(三十四): --JVM调优之调节executor堆外内存与连接等待时长

Spark 从 0 到 1 学习(10) —— Spark 调优(四)——Executor 的堆外内存调优

JVM调优之调节executor堆外内存与连接等待时长

调节executor堆外内存与连接等待时长

调优实例 - 堆外内存导致的溢出错误

Spark 堆外内存

Spark内存调优

Spark Shuffle调优之调节map端内存缓冲与reduce端内存占比

spark性能调优---调节并行度

JVM - 堆内存调优

Spark调优：内存调优

spark性能调优:执行器内存(executor_memory)、执行器个数(num_executor)、执行器核数(executor_cores)

spark调优篇-spark on Yarn 内存管理总结 Removing executor 5 with no recent heartbeats: 120504 ms exceeds timeout 120000 ms

spark 大型项目实战(三十六):Shuffle调优之调节map端内存缓冲与reduce端内存占比

Spark(二十二）Shuffle调优之调节Map端内存缓冲与Reduce端内存占比

JVM--堆内存调优

spark调优（二）------合理调节作业中的并行度

Spark常规性能调优三：并行度调节

Spark启动Executor进程时堆内存的指定

完整的JVM堆外内存泄漏故障排查记录，看完别再说没JVM调优经验

【Spark调优】内存模型与参数调优

Spark-内存管理调优

spark性能调优 | 内存优化

Spark（十四）Spark Core 调优之Spark内存模型

Spark Executor内存管理

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)