【实时数仓篇】(02)基于 Flink 的典型 ETL 场景实现

写在前面:我是「云祁」,一枚热爱技术、会写诗的大数据开发猿。昵称来源于王安石诗中一句 [ 云之祁祁,或雨于渊 ] ,甚是喜欢。


写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 数据中台、数据建模、数据分析以及Flink/Spark/Hadoop/数仓开发 感兴趣,可以关注我的动态 https://blog.csdn.net/BeiisBei ,让我们一起挖掘数据的价值~


每天都要进步一点点,生命不是要超越别人,而是要超越自己! (ง •_•)ง

一、前言

本文是学习Flink中文社区实时数仓篇的总结,课程地址 https://www.bilibili.com/video/av92215954/

讲师:讲师:买蓉(美团点评 高级技术专家)。

二、实时数仓概述

2.1 实时数仓产生背景

在这里插入图片描述

2.2 离线数仓架构

在这里插入图片描述

2.3 实时数仓产生背景

在这里插入图片描述

2.4 实时数仓架构 - Lambda架构

在这里插入图片描述
资源和运维成本较高,所以发展为kappa架构

2.5 实时数仓架构 - kappa架构

在这里插入图片描述

2.6 实时数仓架构 - 实时OLAP架构

在这里插入图片描述
在这里插入图片描述

2.7 离线数仓 vs. 实时数仓

在这里插入图片描述

三、基于Flink实线典型场景

在这里插入图片描述

3.1 维表join - 预加载维表

在这里插入图片描述
在这里插入图片描述
方案1改进:在open() 新建一个线程定时加载维表,实现维度数据的周期性更新

3.2 维表join - 预加载维表

在这里插入图片描述

3.3 维表join - 热存储关联

在这里插入图片描述
在这里插入图片描述

3.4 维表join - 广播维表

在这里插入图片描述
在这里插入图片描述

3.5 维表join - Temporal table function join

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.6 双流join - 离线join vs. 实时join

在这里插入图片描述
将两个流的数据存入state中 + join 范围局部化
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/BeiisBei/article/details/107334314