数仓建模-增量表及全量表

判断一张表是增量表还是全量表,我认为有以下步骤:

1.这张表是基础数据表还是统计数据表(基础数据表一般来自业务系统的明细记录数据,统计数据表则为基于明细记录数据通过各种统计口径的统计表)。

2.判断这张表的同步方式(基础数据表)或者统计主题(统计数据表)。

3.根据以上步骤得出这张表是增量还是全量表。

举两个例子:

第一个例子是基础数据表的例子。

1.比如电商每天都会产生用户浏览数据,首先这张表属于基础数据表,如果表存储的就是所有的用户的所有浏览记录,则这张表应该是全量表(这点应该没问题)。

因为所有用户的所有浏览数据太大了,所以想分开存储,假如说每天产生的浏览记录,这张表存储的是发生在和时间分区当天的用户浏览记录,在从浏览记录宽表获取数据的时候,限定了浏览时间为当天发生的浏览时间,这张表属于基础数据表,但是它是增量表。

基础数据表还是比较好判断全量表还是增量表。

第二个例子是统计数据表的例子。

2。用户标签类型统计数据表,比如说这张表它的统计指标基本都是近90天的统计周期:近90天用户浏览量等等,那有些同学可能就会认为这张表用的数据量不是全量的,所以它是增量表。

这种想法其实比较正常,但是我们需要知道统计的主题是谁,真正统计的主体是全量用户,并没有对用户注册时间等做状态限制,比如说注册时间大于6个月的用户,所以统计主体是全体用户,这些近90天的指标只是统计主题的一些维度,或者说属性。

所以这张表是全量表。

猜你喜欢

转载自blog.csdn.net/a6822342/article/details/106480314