Spark troubleshooting shuffle寻址以及解决JVM GC导致拉取文件失败 - 代码天地

Spark troubleshooting shuffle寻址以及解决JVM GC导致拉取文件失败

其他 2018-12-26 09:40:58 阅读次数: 0

shuffle寻址图

在这里插入图片描述

shuffle文件寻址基础知识

MapOutputTracker

spark架构中的一个主从模块
Driver端主对象MapOutputTrackerMaster
Executor端从对象MapOutputTrackerWorker

BlockManager

也是spark架构中的一个模块，也是主从架构
Driver端主对象 BlockManagerMaster
Executor端BlockManagerWorker
无论driver端还是worker端BlockManager端都有四个对象
① DiskStore:负责磁盘的管理。
② MemoryStore：负责内存的管理。
③ ConnectionManager：负责连接其他的 BlockManagerWorker。
④ BlockTransferService:负责数据的传输。

shuffle文件寻址流程

map task执行过程，会将task的执行情况和磁盘小文件地址封装到MapStatus对象中，通过MapOutPutTrackerWorker对象向Driver端的MapOutPutTrackerMaster汇报 Driver端就掌握了所有哦磁盘小文件地址
reduce task执行之前，会通过Executor中MapOutPutTrackerWorker向Driver端的MapOutPutTrackerMaster获取磁盘小文件地址值
获取到磁盘小文件地址以后会通过BlockManager中的ConnectionManager连接数据所在节点ConnectionManager，然后通过BlockTransferService进行数据的传输。
BlockTransferService默认启动5个task去节点拉取数据。默认情况下，5个task拉取数据量不能超过48M。

官网参数

在这里插入图片描述

如何调节参数

根据以上分析在拉取数据过程中如果小文件所在executor正好在执行GC （minor GC或者 full GC）总之一旦发生GC那么BlockManager也就结束了，无法进行网络传输数据，如果一直无法拉取可能会出现shuffle file not found 但是，可能下一个stage又重新提交了stage或task以后，再执行就没有问题了，因为可能第二次就没有碰到JVM在gc了。

那么可以适当调大参数

spark.shuffle.io.maxRetries 60
spark.shuffle.io.retryWait 60s

最多可以忍受1个小时没有拉取到shuffle file。只是去设置一个最大的可能的值。full gc不可能1个小时都没结束吧。

这样呢，就可以尽量避免因为gc导致的shuffle file not found，无法拉取到的问题

猜你喜欢

转载自blog.csdn.net/chixushuchu/article/details/85100809

Spark troubleshooting shuffle寻址以及解决JVM GC导致拉取文件失败

spark troubleshooting之解决JVM GC导致的shuffle文件拉取失败

Spark(二十九)troubleshooting之解决JVM GC导致的shuffle文件拉取失败

spark 大型项目实战(四十五):troubleshooting之解决JVM GC导致的shuffle文件拉取失败

troubleshooting之解决JVM GC导致的shuffle文件拉取失败

Spark中shuffle的文件寻址

spark troubleshooting之解决序列化导致的报错

Spark troubleshooting

10.10 spark-shuffle,寻址

Spark调优：故障解决（troubleshooting）

spark troubleshooting 之解决算子函数返回NULL导致的问题

spark 大型项目实战(四十七):troubleshooting之解决各种序列化导致的报错

Spark(三十三)troubleshooting之解决yarn-client模式导致的网卡流量激增问题

Spark(三十一)troubleshooting之解决各种序列化导致的报错

Spark(三十二)troubleshooting之解决算子函数返回NULL导致的问题

spark 大型项目实战(四十六):troubleshooting之解决YARN队列资源不足导致的application直接失败

Spark(三十四)troubleshooting之解决yarn-cluster模式的JVM内存溢出无法执行问题

Spark（八）———— troubleshooting控制

十、Spark Troubleshooting

Spark Troubleshooting（故障检查）

Spark TroubleShooting整理

spark 大型项目实战(四十八):troubleshooting之解决算子函数返回NULL导致的问题

spark 大型项目实战(四十九):troubleshooting之解决yarn-client模式导致的网卡流量激增问题

77.Spark大型电商项目-用户访问session分析-troubleshooting之解决各种序列化导致的报错

Spark性能调优 troubleshooting shuffle调优 reduce端缓冲大小以避免OOM

Spark(二十八)troubleshooting之控制shuffle reduce端缓冲大小以避免OOM

spark 大型项目实战(五十):troubleshooting之解决yarn-cluster模式的JVM内存溢出无法执行问题

spark 大型项目实战(五十一):troubleshooting之错误的持久化方式以及checkpoint的使用

Spark troubleshooting 1算子返回null错误 2错误持久化以及checkpoint

79.Spark大型电商项目-用户访问session分析-troubleshooting之解决yarn-client模式导致的网卡流量激增问题

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)