StreamingWarehouse的一些思考和未来趋势 - 代码天地

StreamingWarehouse的一些思考和未来趋势

业界资讯 2023-09-03 12:21:41 阅读次数: 0

300万字！全网最全大数据学习面试社区等你来！

一篇笔记。

以Hudi、Iceberg、Paimon这几个框架为例，它们支持高效的数据流/批读写、数据回溯以及数据更新。具备一些传统的实时和离线数仓不具备的特性，主要有几个方面：

这些存储引擎是天然统一的批流一体存储。既支持批式访问完整Table数据，也支持先全量处理Table数据，然后对Changelog进行增量的流式处理;
支持UPSERT流，这个很重要;文件组织形式也更高效(LSM);
支持TimeTravel,理论上可以从任意时间点就行批或者流处理;
还有一些其他的离线数仓的操作

如果我们基于湖框架构建出了新的数仓体系Streaming Warehouse，这样我们所有的开发都会面向Table，纯SQL操作。

这样的架构解决了核心问题：

如果性能足够，可以达到媲美实时链路的延迟;
天然的批流一体，口径一致，计算语义天然对齐，保证数据一致性;
中间结果落地可查，这是相比当前非常火的实时数仓的极大的优势；
很方便的进行历史数据修复；
开发、存储成本低

这也是很多文章中提到的：实现批流一体计算和存储，同时支持流、批以及OLAP处理，实现了以 "Table"的形式进行数据处理。

目前可以替代的一些场景：例如可以接受端到端延迟在分钟级别，数据逻辑复杂希望离线、实时强一致，传统的以数据库为核心通过创建物化视图、存储过程等在线Serving场景等。

但是我们必须得说，上面都是未来的理想设想，当前阶段很多问题没有解决，例如端到端延迟相比纯实时场景要大很多，取决于CheckPoint的时间间隔等。

不过随着这些框架的不断迭代和发展，未来可能会不一样。

如果这个文章对你有帮助，不要忘记 「在看」 「点赞」 「收藏」 三连啊喂！

2022年全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

互联网最坏的时代可能真的来了

我在B站读大学，大数据专业

我们在学习Flink的时候，到底在学习什么？

193篇文章暴揍Flink，这个合集你需要关注一下

Flink生产环境TOP难题与优化，阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他！| Flink CDC线上问题小盘点

我们在学习Spark的时候，到底在学习什么？

在所有Spark模块中，我愿称SparkSQL为最强！

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】2021年过半，社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么？「硬刚Hive续集」

猜你喜欢

转载自blog.csdn.net/u013411339/article/details/132419194

StreamingWarehouse的一些思考和未来趋势

关于混合应用开发的未来的一些思考

一些面试经验和思考

一些思考

对架构的一些思考

索引的一些思考

对恐怖一些思考

angular的一些思考

一些思考吧

对python的一些思考

python的一些思考

测试的一些思考

个人的一些思考

一些思考吧！

生活的一些思考

教育的一些思考

EventBus 及一些思考

对现在的一些思考

AutowiredAnnotationBeanPostProcessor 的一些思考

老王的一些思考

一些浅浅的思考

关于薪资和技术的一些思考

针对泛型的一些想法和思考

事务和原子性的一些思考

说说sphinx和搜索一些思考

iOS关于换肤和夜间模式的一些思考

关于腾讯面试的一些思考和总结

关于读书方法的一些思考和讨论

实名认证的意义和一些思考

多态中变量和方法的一些思考

今日推荐

好书推荐《ChatGPT原理与架构：大模型的预训练、迁移和中间件编程》

Baidu Comate 智能编码助手：编程新伙伴，效率新飞跃

AI时代：人工智能大模型引领科技创造新时代

百篇博客 · 千里之行

开源王者！全球最强的开源大模型Llama3发布！15万亿数据集训练，最高4000亿参数，数学评测超过GPT-4，全球第二！

为欧拉系统安装可视化界面(deepin）

MobaXterm中文版（MobaXterm-Chinese-Simplified）安装和使用

JS 网页全自动翻译 v3.4 发布，开放对 html 文件的翻译能力

这是Linus最忍不了的一集——虚幻引擎代码规范禁止使用脏话、禁止slave、master

与 Apollo 共创生态：观看7周年大会的心路历程

与 Apollo 共创生态：Apollo7周年大会的心得体会，干货满满

国内各种免费AI聊天机器人(ChatGPT)推荐(上)

周排行

php 截取字符串长度并把超出规定长度的内容用...替代

生成3x3矩阵（2）：FIFO法的分析和改进

PyTorch Hub发布！一行代码调用所有模型：torch.hub

Unity中添加不规则图片按钮，只有在点击到图片后才触发点击效果

AI - TensorFlow - 示例01：基本分类

Andy's First Dictionary（UVA - 10815 ）集合set

IOS下Nil & nil & NULL 区别

swift 封装按钮倒计时

C. Maximum Median 二分

LSTM神经网络输入输出究竟是怎样的？

每日归档

更多

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)