【Flink】（八）容错机制 - 代码天地

【Flink】（八）容错机制

其他 2020-06-18 22:41:17 阅读次数: 0

写在前面：我是「云祁」，一枚热爱技术、会写诗的大数据开发猿。昵称来源于王安石诗中一句 [ 云之祁祁，或雨于渊 ] ，甚是喜欢。

写博客一方面是对自己学习的一点点总结及记录，另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 数据中台、数据建模、数据分析以及Flink/Spark/Hadoop/数仓开发 感兴趣，可以关注我的动态 https://blog.csdn.net/BeiisBei ，让我们一起挖掘数据的价值~

每天都要进步一点点，生命不是要超越别人，而是要超越自己！ (ง •_•)ง

文章目录

一、一致性检查点（Checkpoints）
二、从检查点恢复状态
三、检查点的实现算法
四、Flink 检查点算法

4.1 检查点分界线（Checkpoint Barrier）

五、保存点（Savepoints）
六、检查点的配置

一、一致性检查点（Checkpoints）

Flink 具体如何保证 exactly-once 呢? 它使用一种被称为"检查点"（checkpoint）的特性，在出现故障时将系统重置回正确状态。

假设你和两位朋友正在数项链上有多少颗珠子。你捏住珠子，边数边拨，每拨过一颗珠子就给总数加一。你的朋友也这样数他们手中的珠子。当你分神忘记数到哪里时，怎么办呢? 如果项链上有很多珠子，你显然不想从头再数一遍，尤其是当三人的速度不一样却又试图合作的时候，更是如此(比如想记录前一分钟三人一共数了多少颗珠子，回想一下一分钟滚动窗口)。

在这里插入图片描述

于是，你想了一个更好的办法: 在项链上每隔一段就松松地系上一根有色皮筋，将珠子分隔开; 当珠子被拨动的时候，皮筋也可以被拨动; 然后，你安排一个助手，让他在你和朋友拨到皮筋时记录总数。用这种方法，当有人数错时，就不必从头开始数。相反，你向其他人发出错误警示，然后你们都从上一根皮筋处开始重数，助手则会告诉每个人重数时的起始数值，例如在粉色皮筋处的数值是多少。

Flink 检查点的作用就类似于皮筋标记。数珠子这个类比的关键点是: 对于指定的皮筋而言，珠子的相对位置是确定的; 这让皮筋成为重新计数的参考点。总状态(珠子的总数)在每颗珠子被拨动之后更新一次，助手则会保存与每根皮筋对应的检查点状态，如当遇到粉色皮筋时一共数了多少珠子，当遇到橙色皮筋时又是多少。当问题出现时，这种方法使得重新计数变得简单。

在这里插入图片描述

Flink 故障恢复机制的核心，就是应用状态的一致性检查点
有状态流应用的一致检查点，其实就是所有任务的状态，在某个时间点一份拷贝（一份快照），这个时间点，应该是所有任务都恰好处理完一个相同的输入数据的时候。

二、从检查点恢复状态

在这里插入图片描述

在执行流应用程序期间，Flink会定期保存状态的一致检查点
如果发生故障，Flink将会使用最近的检查点来一致恢复应用程序的状态，并重新启动处理流程

在这里插入图片描述

遇到故障后，第一步就是重新启动

在这里插入图片描述

第二步是从 checkpoint 中读取状态，将状态重置
从检查点重新启动应用程序后，其内部状态与检查点完成时的状态完全相同

在这里插入图片描述

第三步：开始消费并处理检查点到发生故障之间的所有数据
这种检查点的保存和恢复机制可以为应用程序提供“精确一次”（exactly-once）的一致性，因为所有的算子都会保存检查点并恢复其所有的状态，这样一来所有的输入流就都会被重置到检查点完成时的位置

三、检查点的实现算法

一种简单的想法
- 暂停应用，保存状态到检查点，再重新恢复应用
Flink 的改进实现
- 基于Chandy-Lamport 算法的分布式快照
- 将检查点的保存和数据处理分离开，不暂停整个应用

四、Flink 检查点算法

4.1 检查点分界线（Checkpoint Barrier）

Flink 的检查点算法用到了一种称为分界线（barrier）的特殊形式，用来吧一条流上数据按照不同的检查点分开
分界线之前来的数据导致的状态更改，都会被包含在当前分界线所属的检查点中；而基于分界线之后的数据导致的所有更改，就会被包含在之后的检查点中

在这里插入图片描述

现在是一个有两个输入流的应用程序，用并行的两个Source任务来读取

在这里插入图片描述

JobManager 会向每个 source 任务发送一条带有新检查点ID的消息，通过这种方式来启动检查点

在这里插入图片描述

数据源将它们的状态写入检查点，并发出一个检查点barrier
状态后端在状态存入检查点之后，会返回通知给source任务，source任务就会向JobManager确认检查点完成

在这里插入图片描述

分界线对齐：barrier向下游传递，sum任务会等待所有输入分区的barrier到达
对于barrier已经到达的分区，继续到达的数据会被缓存
而barrier尚未到达的分区，数据会被正常处理

在这里插入图片描述

当收到所有输入分区的barrier时，任务就将其状态保存到状态后端的检查点中，然后将barrier继续向下游转发

在这里插入图片描述

向下游转发检查点barrier后，任务继续正常的处理数据

在这里插入图片描述

Sink 任务向 JobManager 确认状态保存到checkpoint 完毕
当所有任务都确认已成功将状态保存到检查点时，检查点就真正完成了

五、保存点（Savepoints）

Flink 还提供了可以自定义的镜像保存功能，就是保存点（savepoints）
原则上，创建保存点使用的算法与检查点完全相同，因此保存点可以认为就是具有一些额外元数据的检查点
Flink 不会自动创建保存点，因此用户（或者外部调度程序）必须明确地触发创建操作
保存点是一个强大的功能。除了故障恢复外，保存点可以用于：有计划的手动备份，更新应用程序，版本迁移，暂停和重启应用等等。

六、检查点的配置

在这里插入图片描述

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/BeiisBei/article/details/106446954

【Flink】（八）容错机制

Flink 学习八 Flink 容错机制 & checkpoint & savepoint

Flink容错机制(checkpoint)

【Flink】容错机制

Flink 容错机制与状态

Apache Flink的容错机制

Flink的容错机制（checkpoint）

Flink (十) --------- 容错机制

Flink容错机制介绍

Flink --- 容错机制Fault Tolerance

Flink原理（五）——容错机制

六、flink--容错机制

Apache Flink - 数据流容错机制

Flink状态管理和容错机制介绍

Flink 状态管理与checkPoint数据容错机制

Flink之状态管理及容错机制

Flink 状态管理/容错机制(CheckPoint & SavePoint)

Flink 容错机制 —— CheckPoint【含示例源码】

Flink：状态管理和容错机制

Flink之状态编程和容错机制

5.2 flink的容错机制与故障恢复

Flink学习笔记8 Flink原理-容错机制

Dubbo源码分析（八）集群容错机制

实时流处理系统容错机制（二）：Apache Flink 基于State的异步容错机制

flink容错机制（翻译官网英文文档）

Apache Flink状态管理和容错机制介绍

Flink —— 容错性机制- 屏障（barrier）实现原理

Flink 状态管理与容错机制(CheckPoint & SavePoint)的关系

Flink_Flink 的容错

Flink_Flink 的容错

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)