活动预告｜7月29日 Streaming Lakehouse Meetup·北京站

你是否有过数据难以入湖的抓狂？

你是否有过流批存储不统一的烦恼？

你是否有过入湖更新时效性跟不上的无奈？

Streaming Lakehouse 首个 Meetup 来啦！

7 月 29 日 | 北京 | 线下

来一场 Streaming Lakehouse 实时数据湖的体验之旅！

本次 Meetup 邀请了来自阿里巴巴、字节跳动的七位技术专家，聚焦大规模 CDC 数据入湖实践、Flink 一站式湖仓一体构建、流式数据湖关键特性以及统一的 RSS 等，全方位解析 Streaming Lakehouse 最前沿的技术，最新的产业实践！Flink、Paimon、Celeborn、Flink CDC、StarRocks 多个开源项目汇聚在一起，会碰撞出怎样的火花？敬请期待！

活动亮点

超多实用干货，本场 Meetup 从入湖 Flink CDC、湖存储 Paimon、计算引擎 Flink、批处理 RSS Celeborn、OLAP 分析 StarRocks 全面分享 Streaming Lakehouse 的完整链路，你可以从中获取到为什么要构建 Streaming Lakehouse，如何构建低成本的、准实时的 Streaming Lakehouse，轻松将你的离线数仓实时化！
活动形式多样化，线下线上同步开启，同城可参与线下 Meetup 面对面交流，异地也可在线观看直播，精彩内容不错过；
丰富周边等你拿，报名参加就有机会获得 Flink 社区、Paimon 社区定制的精美周边！

活动议程

嘉宾及议题介绍

议题一｜Apache Paimon 实时数据湖: Streaming Lakehouse 的存储底座

■ 演讲简介

目前业界主流数据湖存储项目都是面向 Batch 场景设计的，在数据更新处理时效性上无法满足 Streaming Lakehouse 的需求。Apache Paimon 作为实时数据湖，作为 Streaming Lakehouse 的存储底座，解锁离线数据实时化的场景，带来实时的、低成本的 Lakehouse。

数据湖 2023：机遇与挑战
Paimon 实时更新与离线视图
Paimon 变更日志与场景
Paimon 生态
总结与规划

议题二｜基于 Flink CDC 高效构建入湖通道

■ 演讲简介

数据库中存放的数据是最有业务价值的数据源，如何高效地将这些数据摄取到数据湖中是一个非常有价值的主题。Flink CDC 是实时数据集成框架的开源代表，不仅具有全增量一体化、无锁读取、并发读取、分布式架构等技术优势，还提供丰富的 SQL 加工能力，在开源社区中非常受欢迎。Apache Paimon 是从 Flink 社区孵化出来的新兴的数据湖项目, 为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。当用户围绕 Paimon 构建流式湖仓时，通过 Flink CDC 作为入湖通道，可以极大简化湖仓的构建成本，同时解锁整库同步、Schema Evolution 等高级特性。

议题三｜Flink Batch SQL Improvements on Lakehouse

■ 演讲简介

Flink 社区最近几个版本一直在投入比较大的精力完善与改进批处理能力，从而让批处理更快更稳定与更易用。这其中包括支持更多的 API 语法，完善数据管理能力。在 QO 层面引入基于稠密树的 Join Reorder 算法，提升多表 Join 性能；优化 DPP，可以覆盖更多的业务场景。在 QE 层面，通过引入 Adaptive Local HashAgg、Runtime Filter、多算子融合 Codegen 等功能，大幅提升批处理的性能。在 SQL 服务化方面，Gateway 支持 JDBC Driver，兼容已有作业提交模式，让作业提交更加方便。通过上述工作，Flink 批处理让 Lakehouse 架构更加简单高效、提升数据处理效率。在本次议题中，我将会介绍这些优化与新特性，以及未来发展规划。

议题四｜幸福里基于 Flink&Paimon 的流式数仓实践

■ 演讲简介

幸福里业务是一种典型的交易、事务类型的业务场景，这种业务场景在实时数仓建模中遇到了诸多挑战。本次分享主要介绍幸福里业务基于 Flink & Paimon 构建流式数仓的实践经验，会从业务背景，流批一体数仓架构，实践中遇到的问题和解决方案，借助 Paimon 最终能拿到的收益，以及未来规划几个方面来介绍。

议题五｜Apache Celeborn: 让 Spark 和 Flink 更快，更稳，更弹性

■ 演讲简介

Apache Celeborn(Incubating)是一个高性能，高可用，可伸缩的通用 Shuffle 服务，支持 Spark，Flink 两大主流引擎(未来将支持 Tez/MR 等更多引擎)。Celeborn在阿里及多家知名企业支撑每天数十 P 的生产 Shuffle，提升稳定性和性能的同时降低成本。本次分享将介绍 Celeborn 的高性能高可用的核心设计，支持多引擎的统一架构，用户案例，以及如何更好的参与社区。