Flink重启策略(restart-strategy)优化

企业开发 2023-07-29 17:29:48 阅读次数: 0

Flink重启策略(restart-strategy)优化

index

Flink重启策略(restart-strategy)优化
- 背景
- 问题分析
- 结论
- 优化

背景

1、实时任务依赖Zookeeper做高可用，当Zookeeper节点重启，会导致相当一部分任务挂掉；
2、依赖DCache、HBase这类外部系统的任务，稳定性较差，当外部系统抖动很容易就导致任务运行失败。

理想情况下，我们希望在外部依赖出现波动时，任务能重新连接/连接其他服务节点，而实际上，Flink本身也提供了任务自动重启的支持，我们默认使用的是failure-rate重启策略。上述两类都是由于外部系统波动导致任务稳定性下降的问题，通过分析任务日志，任务都是因为重启超过集群配置的失败阈值：10分钟内超过5次失败，然而，任务实际上并没有重启5次。

问题一：为什么外部系统抖动会导致任务触发failure-rate阈值立即失败

问题二：依赖Zookeeper的任务为什么只挂掉一部分

问题分析

简单描述下运行时出现异常的处理流程：

Task failed -> TaskExecutor上报JobMaster失败信息 -> 判断是否存在该Task执行信息 -> 根据重启策略判断是否需要重启，根据故障转移策略选择需要重启的所有Task -> 停止需要重启的Task ->更新数据，移除Task执行信息 -> 生成并写入新的执行信息 -> 重新调度启动

详细流程可看： Flink——Task退出流程与Failover机制

结论

问题一： flink默认的故障转移策略为RestartPipelinedRegionFailoverStrategy, 当流计算任务有Task出现失败，会重启该所在Piplined Region上的所有Task。当不同Region的多个Task因同个异常失败时，JobMaster短时间会处理多个（<=region count）异常，导致failure-rate达到阈值。

问题二：挂掉的任务都是存在多个region（各并发没有数据交互）

优化

升级failure-rate，当短时间因同个异常导致多次Task Failed，failure-rate只统计一次。

目前问题与patch已反馈社区，具体可以点击链接查看： FLINK-26315

猜你喜欢

转载自blog.csdn.net/qq_30708747/article/details/123121042

Flink重启策略(restart-strategy)优化

Flink Restart Strategies重启策略机制深入剖析

Flink Restart Strategies重启策略机制深入剖析-Flink牛刀小试

Flink重启策略

关于flink的重启策略学习

6-Flink重启策略

Flink的重启策略（RestartStrategy）实战

5.3 flink的故障重启策略

Flink教程(6) Flink 重启策略

Docker容器的重启策略及docker run的--restart选项详解

（转）Docker容器的重启策略及docker run的--restart选项详解

Flink 1.9 重启策略和故障恢复策略

大数据计算引擎之Flink的重启策略

Flink1.10入门：Checkpoint重启策略及代码演示

大数据Flink（八十）：Checkpoint的状态后端和重启策略

Flink调度策略优化：Task均衡

策略模式（Strategy ）

策略模式Strategy

策略模式（Strategy Pattern）

策略模式 Strategy

08策略模式Strategy

* 策略模式（Strategy）

策略模式-Strategy

策略设计模式（strategy）

Strategy -- 策略模式

策略模式（Strategy）

策略模式Strategy Pattern

策略模式(Strategy)

策略模式--Strategy

简单_策略模式(Strategy)

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)