Flink State 扩容重新分配 - 代码天地

Flink State 扩容重新分配

编程语言 2019-01-04 09:20:50 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/yidan7063/article/details/85158961

参考学习博客然后写的学习笔记:

KeyedState - 这里面的key是我们在SQL语句中对应的GroupBy/PartitioneBy里面的字段，key的值就是groupby/PartitionBy字段组成的Row的字节数组，每一个key都有一个属于自己的State，key与key之间的State是不可见的;
OperatorState - Apache Flink内部的Source Connector的实现中就会用OperatorState来记录source数据读取的offset。

OperatorState并行度改变时比较简单，如上面保存kafka offset的例子。

OperatorState采用了List的数据结构的设计，在改变并发时，通过取模的方式分配分区。新增分区的offset需要远程拉取。

KeyedState并发度改变，因为KeyedState保存的状态往往挺大的，不在使用OperatorState并行度改变的方法。可以看出每次修改并行度如果按照取模的算法，对算子状态就是灾难。大量的算子无法在使用原本本地的状态，只能从远程拉取状态进行同步。OperatorState的算法是先以maxParallelism为标准

1.hash(key)%maxParallelism ->key-group 利用key的hash值对maxParallelism取模,分配key到对应的key-group上

2.key-group/真正的并发度得到平均值将余数平分给task编号靠前的算子 ->得到每个task上面的key-group数量

3.每个task顺序的取到自己的key-group

从图中可以看出大部分算子还是落到了本地。

可以看出所有的前提都是基于maxParallelism,如果maxParallelism发生改变会导致key-group重新分组，最后每个task上的key-group都会改变。这样对状态本地化改动比较大。所以在Flink中maxParallelism默认为4096.

努力吧，皮卡丘

猜你喜欢

转载自blog.csdn.net/yidan7063/article/details/85158961

Flink State 扩容重新分配

Flink --- State

[flink]Flink State

Flink（四）Flink的State

Flink的State概述

flink state 读写

理解Flink State

Flink State的使用(面试)

State Migration on Flink SQL

flink学习之state

Flink 学习七 Flink 状态(flink state)

Flink的流广播(Broadcast State)

Flink State Backends (状态后端)

Flink Broadcast State实用指南

Flink示例——State、Checkpoint、Savepoint

Flink之State状态编程

Flink State状态机制

Flink State 状态后端分析

看flink源码学习flink----flink state

Flink状态专题：keyed state和Operator state

flink之Operator State(non-keyed state)

flink之TTL（Time To Live），State Backend，How to Clear State?

Flink_state 的优化与 remote_state 的探索

Flink State的两张图

Flink 状态与容错 ( state 和 Fault Tolerance)

Flink 异常处理-State和Checkpoint实践

Flink State Checkpoint和并行重分布

Flink之state processor api原理

Flink中案例学习--State与CheckPoint

Flink Streaming状态处理（Working with State）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)