一、如何定义增量计算

有一家国外的网站这样定义了实时计算，增量计算，离线计算

在这里插入图片描述
我们以交通工具举个例子，来类比三种计算：

二、增量计算的架构图

在这里插入图片描述

第一种场景：大屏显示，需要不断的修正数据，但 hdfs 做不到修正部分数据，要修正必须全量拿过来 merge，merge 完再覆盖，有 merge 就至少是 1 小时以上的延迟了。

第二种场景：延迟数据，比如现在要计算 1 分钟之内的数据，假设现在 1 分钟的数据计算完了，然后来了一条上个 1 分钟的数据，那么就要把上 1 分钟的数据再次计算一遍，再去修改。

所以，需要数据湖有 upsert 能力。

上图中，流计算和批计算的存储是统一的，但是计算引擎是不统一的，哪天 Flink 的功能更加完善了，就可以去掉 Spark，做到真正的计算和存储流批一体。

官方对 Iceberg 的定义是一种 Open Table Format。
那什么是 table format？
我们看下面的架构：
在这里插入图片描述

扫描二维码关注公众号，回复： 12683323 查看本文章

最下面是文件系统，负责存储
上面一层是文件集合，比如 parquet 文件集合，orc 集合
再上面一层就是 table format，由四个方面组成：
• schema
• partition（文件如何组织）
• metadata（元数据，描述文件的数据）
• api（如何访问这些表）
再上面一层就是计算引擎

在这里插入图片描述