数据仓库之Data Vault模型总结

一，Data Vault模型有几个主要的组件，这里先总结一下：

1.Hub组件，是一个数据表，用于记录在业务应用中常用到的业务实体键值，如员工ID，发票号、客户编号、车辆号等。

表内包括几个关键字段：代理主键（Surrorgate Key），即hub表的主键；业务实体主键（Business Key）,记录业务键值；装载时间（Load Data/Time Stamp），记录该业务键值的记录时间；数据源（Record Source）,记录该业务键值的来源，以追踪数据。

2.Link组件，通过存储相关业务实体间Hub表的SK(Surrorgate Key)，以记录一对多、多对多的业务实体间关系，如员工与企业的雇佣关系，账户与客户之间的关系等。

包括以下几个关键字段：代理主键（Surrorgate Key），即Link表的主键；Hub1 SK…Hubn SK,与此Link相关的Hub表SK，记录业务关系；装载时间（Load Data/Time Stamp），记录该业务关系的记录时间；数据源（Record Source）,记录该业务关系的来源，以追踪数据。

3.Satellite组件，Hub表中业务主键所对应的业务描述，即业务实体的属性信息，这些信息具有时效性，随时间变化而可能产生变化，因此，Satellite组件内的记录均具有时间维，可记录实体属性的历史变化情况。根据实体属性变化频率的不同，可将一类实体的业务属性分为若干Satellite表，通过向Satellite分表追加记录，以实现在更小粒度下，实现第二类渐变维的保存历史数据特性。

Satellite组件包括以下关键字段：代理主键（Surrorgate Key），即Satellite组件表的主键；Hub或Link表的主键，Satellite联合主键之一，记录该Satellite组件所属Hub或Link；装载时间（Load Data/Time Stamp），Satellite联合主键之一，记录该描述信息在数仓中的有效时间；数据源（Record Source）,记录该描述信息的来源，以追踪数据。

4.Point-In-Time辅助表，用于同一Hub的多个Satellite组件间的时间同步。因为同一业务实体的不同类型属性的更新频率不同，因此同一Hub的多个Satellite组件基本不会同步更新，因此，只需要在PIT表中记录在同一时点同时有效的Satellite组件描述信息即可，以保证查询到的数据是查询时点的实体状态。通过PIT表中的记录，可以清晰的分析业务实体属性的变化频率及频率差异。

客户姓名和地址之间的变化情况

PIT表用于解决多Satellite组件统一时点的问题，如果只有一个Satellite组件则不需要PIT表。

二，Data Vault与星型模型比较

1.星型模型容易产生数据孤立，不同主题间的数据不容易产生联系，而且一旦模型确定，想要追加维度，涉及的调整范围较大，灵活性不足；而Data Vault继承了3NF的优点，可以从整体上描述企业的业务数据或信息结构，而且能够实现数据模型的动态架构。

2.Hub组件与星型模型中的维度表非常相似：记录了业务实体的维度信息的键值，但其它描述信息记录在了Satellite组件中。

3.Link组件与星型模型中的事实表非常相似，只是没有度量数据，因此可在原有Link组件的基础上，追加度量数据，以记录事实数据。

4.Satellite组件的设计可以解决星型模型中多事实冗余的问题，由于Link本身具有多维的特性，因此通过在Link上追加度量信息的方式也同步解决了多维事实数据的问题。在向Link追加度量信息时，如果事实数据类型很多时，可以将度量信息按更新频度或类型进行分类，然后分别存储在多个Satellite组件中，以降低由于更新频度不同等原因导致的事实数据冗余。方法是为Link表增加一个Link组件，用于存储不同度量类型的主键关系，然后为建立对应的Satellite组件，以记录事实数据。

5.由于hub和link的设计，可以使Data Vault模型的数据仓库具有很好的扩展性，追加Hub和Link非常方便，也不用考虑粒度问题；Link的优势在于每个Link都是追加在Link组件中的或者是增加一个新的Link来记录新的关联关系，而不需要更新Link的数据结构，这样他的扩展性和灵活性就非常强，这一点与星型模型具有很大的区别。

6.理论上来说，Data Vault模型通过使用Satellite组件,减少了事实表的数据冗余（通过考虑不同变化率的数据而分别存储），大大降低了存储的数据量，能够提升查询性能，但因为Data Vault模型根据3NF对表进行了理细粒度的拆分，使查询过程增加了连接操作，这方面的影响需要验证，是否能够突破理论，实现真实的性能提升，本人再起无法评论，需要实际应用的检验。

三，一些设计原则：

关于Hub：

1.Hub之间不能直接通过外键进行关联，而必须通过Link联接，以保证模型的灵活性和扩展性；

2.两个或两个以上的Hub都可以通过Link相联；

3.Hub的键会出现在其它组件中（Link和Satellite）中，否则Hub数据将被孤立。

关于Link：

1.Link可以与其他Link相联；

2.Hub主键固定，而不会发生变化；

关于Satellite：

1.Satellite必须存在关联的Hub或Link才有意义，否则无效；

2.Satellite问题包含装载时间，以记录历史数据，且没有重复数据；

3.可根据更新频率拆分Satellite；

数据仓库之Data Vault模型总结

猜你喜欢