海睿思分享 | 浅谈数仓的维度建模理论

维度建模(dimensional modeling)是数据仓库建设中的一种非常重要的数据建模方法,是将数据进行结构化的逻辑设计方法。

维度建模由数据仓库领域的大师Ralph Kimball最先提出,他所参与著作的《数据仓库工具箱》是数据仓库工程领域最流行的数仓建模经典著作。

维度建模是从分析决策的需求为出发点,构建数据模型,构建的数据模型是服务于数据分析需求。维度建模在解决更快速完成数据分析需求的同时,还能提供较好的大规模复杂查询的响应性能需求。

因此,维度建模就是一种组织数据仓库的形式、模型,用这种方式组织搭建的数据仓库,对快速支持数据分析有着巨大的帮助,目前也是比较主流的数仓模型。

1

维度建模基础知识

首先介绍一些关于维度建模的基础知识,主要包括事实表、维度表、粒度等。

1、事实与事实表(Fact Table)

事实表是指其中保存了大量业务度量数据的表,是数仓最核心的表。

事实表中的度量值一般称为事实。通常,最有用的事实就是数字类型的事实和可加类型的事实。事实表的粒度,决定了数据仓库中数据的详细程度。

上图中产品销售明细表,就是一张事实表,其中的销售金额、成本、利润,都是事实,也是我们需要分析的目标数据。

一般事实表中只存放数字或一些flag用来统计,如:销售金额、成本等。另外,通常事实表中的数据不允许修改,新的数据只是简单地添加到事实表中。

事实表特点:数据量庞大、列数少、经常变化。事实表是一张业务表,业务肯定是不断有新的数据加进来。

2、维度与维度表(Dimension Table)

维度表是用户来分析数据的窗口,比如时间、地区、用户等。

维度表中包含事实表中记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息。

在上图的产品销售事实表中,包括了五张维度表:时间维表、产品维表、地域维表、用户维表、支付维表。每一张维度表对应现实世界中的一个对象或概念。

每一张维度表利用维度关键字(图中加粗字段)通过事实表中的外键约束事实表的中某一行。

维度表特点:很多描述性的列,行数较少,内容较固定。比如地域,省市区县内容短时间内都不会有啥变化。

3、粒度

粒度是指数据仓库的数据单位中保存数据的细化程度的级别。简单来说,在实事表中一条记录所表达的业务细节,就是粒度。

通常,为了便捷的下钻分析,我们都会使用到最小粒度。比如订单表中,最小粒度就是一条订单的记录。

使用最小粒度的优点:

❖ 可以频繁的ETL操作

❖ 很多数据挖掘需要最小粒度数据

❖ 方便向下钻取

当然,使用最小粒度也有缺点:

❖ 存储和维护代价较高

❖ 需要进一步构建汇总事实表来支持汇总数据查询

2

维度建模的三种模型

上面介绍了关于维度建模的一些基础知识,下面聊一聊维度建模的几种具体模型:星型模型、雪花模型、星座模型。

1、星型结构

所谓星型模型,具体表现是:事实被维度所包围,且维度没有被新的表连接。

每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。可以看出,星型模型是比较单纯的模型,像星星一样触角没有延伸了。

2、雪花结构

所谓的雪花模型,是有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上,就像雪花一样。

雪花模型去除了数据冗余,更贴近业务,尽可能降低数据存储量以及联合较小的维表来改善查询性能。

3、星座结构

无论是星型模型还是雪花模型,都是单事实表的情况。但通常来讲,实践当中大部分情况都是多事实表的。这时就是需要星座模型了。

 所谓星座模型,是多个事实表共享维度表,因而可以视为星型模型的集合,故亦称星座模型(星系模型)。

3

海睿思践行维度建模理论

中新赛克海睿思基于对维度建模理论的深入理解,结合自身在大数据行业的技术沉淀,设计开发的海睿思S-DW智能数仓产品以维度建模理论为指导,全流程可视化分层构建数据模型和指标体系。

海睿思S-DW智能数仓产品 构建数仓分为三个阶段:

1、数据准备阶段:

完成将业务系统中的数据接入原始层(STG,即数据缓冲层),以及对原始层数据进行清洗、标准化等数据预处理工作,形成标准层数据,供后续数仓构建使用。

2、数仓规划阶段:

完成数据域划分、业务过程定义、业务限定定义、指标体系构建、维度表、事实表构建等工作。

数仓规划阶段是S-DW智能数仓的核心阶段,在这个阶段,遵循维度建模理论的指导,完成事实表和维度表的设计与构建。

3、数据应用阶段:

完成汇总表、主题表、明细表的构建,支持在汇总表之上定义应用指标的业务处理逻辑。

海睿思S-DW智能数仓产品核心亮点:

❖ ERP数据智能接入&标准化

一键接入金蝶、用友、SAP等主流业务系统,并自动完成标准化转换,数据治理效率提高5倍以上。

❖ 可视化数据模型构建

以维度建模理论为指导,全流程可视化分层构建数据模型,包括事实表、维度表、汇总表等,构建企业经营管理主题库,同时全流程可视化构建完善的指标体系。

❖ 高效便捷的数据稽核

数仓地图通过思维导图形式逐层展示数仓数据资源,同时提供智能检索入口,搜你所想;数据血缘包括映数据溯源和指标血缘,全面展示数据流转全貌。

❖ 高质高效的数据运维

数仓大屏反映数据资产概貌,掌握全局数据资产情况;可视化审计日志、数据运维等能力实现数仓整体数据资源的全生命周期管理。

4

总结

维度建模是面向企业决策分析场景,针对该场景构建数仓模型,核心关注点在于快速、灵活地解决分析需求,同时能够提供大规模数据的快速响应性能。

海睿思S-DW智能数仓基于维度建模理论,擅长大数据场景下的处理操作和OLAP处理分析,紧紧围绕企业的业务模型构建数据模型,无需复杂的抽象处理,即可完成维度模型构建,且支持维度模型的扩展,不会对现有模型产生巨大影响,能够容纳更多不可预料的新增数据。

海睿思S-DW智能数仓产品使用简单、方便易上手,有效帮助企业从0到1快速构建符合自身需求的经营管理指标体系,为企业的运营活动提供全面的指标支撑!

猜你喜欢

转载自blog.csdn.net/iOceanMind/article/details/129276153
今日推荐