spark任务执行过程中经常性的failed但是任务并没有失败最后总能跑完 - 代码天地

spark任务执行过程中经常性的failed但是任务并没有失败最后总能跑完

企业开发 2022-08-17 07:24:58 阅读次数: 0

1.现象场景：在spark执行程序中会看到很多的failed但是过程能正常执行完
在这里插入图片描述

spark任务执行过程中经常性的failed但是任务并没有失败最后总能跑完

查看如下：ExecutorLostFailure (executor 11 exited caused by one of the running tasks) Reason: Executor heartbeat timed out after 941664 ms

spark任务执行过程中经常性的failed但是任务并没有失败最后总能跑完
在这里插入图片描述

表面现象的问题是直接某个机器由于心跳超时，超过一定时间没有向master发送心跳，导致master认为该机器节点挂掉，然后将任务放到别的机器上计算导致的。实际上引发没有心跳的原因有很多。具体情况具体分析。

1.该台机器任务太多cpu被占用满，导致没有资源发送心跳，这个时候就需要设置一下excutor 的内存和cpu的占用以及shul数量，查看一下yarn-site.xml的配置，看一下是否是超出了这台机器资源范围导致了这个问题，

2.该台机器分配的内存过少（堆栈内存）导致频繁gc或者写入磁盘导致时间过长，超过心跳时间导致失败。这时候直接配置

spark.yarn.executor.memoryOverhead 这个参数，增加每一个excutor的内存。或者通过spark.memory.storageFraction设置堆和栈的比平衡

3.由于计算数据量或者文件量过大，导致该节点超时问题，这个时候也可以同1一样，增加并发量提交num-executors 以及减少executor-cores和executor-memory 来在资源消耗不增加的情况下提高并发量。

4.万金油方法就是提高超时检测时间。通过设置spark.network.timeout 和 spark.executor.heartbeatInterval 来增加心跳超时机制从而减少失败数量，只要不是机器挂掉总能跑完不是…当然官方建议spark.executor.heartbeatInterval应该大大小于spark.network.timeout 。

猜你喜欢

转载自blog.csdn.net/weixin_43214644/article/details/126391667

spark任务执行过程中经常性的failed但是任务并没有失败最后总能跑完

解决电脑下面的任务栏经常性卡死（亲测可行）

AsyncTask的execute并没有立即执行

window下计划任务中运行bat问题，却一闪而过，并没有运行

spark任务执行过程

年味并没有失效，只是你我早已过了那个时间段

初创企业在发展过程中经常会陷入这些专利误区，你有没有中招？

Chrome经常性的“喔唷，崩溃了”问题

android经常性错误解决

关于java后台执行了sql,但是数据库并没有执行数据的更新等事务问题

Quartz配置上次任务没有执行完，下次任务推迟执行

更改完主机名之后并没有添加到监控系统中

appium 链接真机后，运行代码，但是APP并没有启动

JAVA中开启了事务，但是出现异常SQL并没有回滚

文件发生改变，但是git源代码管理并没有发生改变

Maven项目出现红色错误标记但是里面并没有报错

el-table数据更新了，但是展示并没有更新

Java 并没有死！

厌倦了财务审批经常性延迟？这里有解决妙招

Spark任务执行过程简介

我们并没有觉得MapReduce速度慢，直到Spark出现

CocosCreator 开发 facebook 小游戏，调用排行榜的api并没有执行的问题

操作符=重载陷阱（赋值构造其实并没有执行赋值操作）

maven项目Java resources 上面有个红叉但是代码里面并没有什么报错

maven项目Java Resources 上面有个红叉，但是代码里面并没有什么报错

springcloud 使用bus消息总线更新配置 config日志打印接受了刷新请求,但是并没有刷新

记：为何我设置了session为永久保存,但是并没有什么卵用

php文件本身并没有数字，但是在浏览器输出后却出现了数字

Linux 磁盘空间满了，但是实际目录文件占用空间并没有那么大

JDBC/Mybatis Junit测试进行增删改的时候明明代码没错，但是数据并没有变。

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)