Flink源码分析

其他 2019-05-29 13:51:33 阅读次数: 0

序

工作中用Flink做批量和流式处理有段时间了，感觉只看文档或论坛是没有办法很好的debug或者优化。其实我也没怎么仔细研究过文档和论坛，只是感觉，效果不会很好，程序员还是看代码最简单，直接。

举个例子，我们在Flink-SQL基础上构建了一个SQL Engine，使懂SQL非技术人员能够使用SQL代替程序员直接实现Application，然后在此基础上在加上一些拖拽的界面，是不懂SQL非技术人员利用拖拽实现Application . 公司的数据源非常庞大，发布渠道也很丰富，我们在SQL Engine 里实现了各种各样的Table Source （数据源） , Table Sink （数据发布）和 UDF （计算器）, 用户真的可以简简单单，托托拽拽的操作大数据，建立计算模型，以及发布和上线了。

可是后台并非这么简单，数据倾斜的经常发生的事情。比如一个大数据源和一个小数据源做Inner Join, 如果大数据源的数据项很大部分（比如50%）都使用极少数的几个join key , Flink optimizer 会把SQL join 优化成Hash Join, 最后的结果是无论你实现分配了多少个TaskSlots, 50%的数据都跑到某一个TaskSlot里，缓慢运行直至将个这Slot的资源耗尽。这种情况最好是将小数据集合广播给所有的slot, 大数据集按原始的分片并行。然而标准SQL里没有办法指定joinhint , Flink sql也不支持这个，只能通过debug flink 来看看哪里能做一些改变解决这个问题。我们在最后一章，从Flink client , flink optimizer, flink run-time (job manager, task manager) 一步一步的在源码里设置断点， debug, 将数据流过一遍，看看有哪些方案可以将这个小数据集合广播起来。

为了使本文读起来流畅一些，我先通过几个章节大概介绍一下Flink 。

Flink 源码结构

Flink 架构

Flink DAG Graph和数据流

Flink Cluster Environment

Debug Flink

猜你喜欢

转载自www.cnblogs.com/nightbreeze/p/10942536.html

Flink源码分析

【Flink源码分析】：Flink的内存管理

Flink source task 源码分析

flink-annotations源码分析

flink assign watermark源码分析

flink启动流程源码分析

Flink ParameterTool fromArgs源码分析

flink 的interval join源码分析

Flink源码分析-Checkpoint流程

Flink源码阅读（二）——checkpoint源码分析

Flink源码分析 - 剖析一个简单的Flink程序

【Flink】Flink源码分析——批处理模式JobGraph的创建

【Flink原理和应用】：CliFrontend的源码分析

Flink1.7.2 local WordCount源码分析

Apache Flink Task类源码分析

Flink的Job启动Driver端(源码分析)

Flink中异步AsyncIO的实现 (源码分析)

Flink 中LatencyMarks延迟监控（源码分析）

Flink Standalone集群启动源码分析

Flink RestClusterClient提交任务源码分析

flink1.7 checkpoint源码分析

从flink-example分析flink组件(1)WordCount实战及源码分析

从flink-example分析flink组件(3)WordCount 流式实战及源码分析

Flink环境安装部署、词频统计实例、WordCount源码分析

Flink1.7.2 并行计算源码分析

Flink1.7.2 Dataset 并行计算源码分析

Flink中的CEP复杂事件处理 (源码分析)

Flink源码分析之累加器监控

Flink双流join的3种方式及IntervalJoin源码分析

Flink / Scala - 21.KeyedStream KeyBy 源码分析

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)