海睿思分享 | 颠覆传统方式的数仓构建工具

你还在为构建数仓的低效率而发愁吗?

你还在为数仓构建不能体系化而苦恼吗?

也许大家都不愿意承认,但是绝大部分的企业当前是没有统一、标准、公共、全局的模型设计的,而仅仅是把数据同步上来,然后基于业务需求做烟囱式的数据开发,这种方式会存在什么样的问题呢?

✦ 存在大量的重复工作,增加开发成本

✦ 数据的质量和一致性无法保证

✦ 后期维护困难,增加维护时间和成本

一种颠覆性的数仓构建工具--总线矩阵,可以高效率、体系化地完成数仓构建。

1

什么是总线矩阵

总线矩阵是一种新型的数据仓库构建理念,是实质由行和列组成的矩阵,其中行代表数据仓库中的不同业务过程,列代表数据仓库中的不同维度。

通过将不同的业务过程和维度组合在一起,就可以构建出一个完整的数据仓库。

同时,它可以将数据仓库中的不同数据源进行分类和组织,从而使得数据仓库更加灵活、可维护和可扩展。

2

总线矩阵的优势

❖ 灵活性:总线矩阵可以根据不同的业务需求进行高效的调整和修改,从而使得数据仓库更加灵活。

❖ 一致性:总线矩阵可以确保数据在不同的数据源之间保持一致,并且可以对数据进行质量检查和清洗,提高了数据的质量和一致性。

❖ 可扩展性:总线矩阵可以根据不同的业务需求进行扩展、体系化构建,以满足不断变化的业务需求。

❖ 可维护性:总线矩阵可以将数据仓库中的不同数据源进行分类和组织,更加轻松地管理数据源、数据模型和数据仓库功能,减少了维护时间和成本。

3

总线矩阵的构建步骤

① 业务调研

通过客户现场调研,确定客户需要哪些业务域,以及业务域对应的指标需求,形成初步的指标体系,在每个指标节点与客户确认指标相关的业务逻辑描述,通过思维导图的方式把企业通用指标进行了一个梳理:

指标业务逻辑

② 总线矩阵填写并导入

平台内置了总线矩阵填写功能,根据上述指标需求,与客户一起参与总线矩阵内容的填写。

✦ 提高数据可靠性根据总线矩阵中的原子指标来源数据域,分别为销售、采购、HR、生产、营收、现金流,在平台生成对应的数据域、业务过程、事实表、原子指标、业务限定、派生指标、维度表(在公共域内)。

✦ 随后根据总线矩阵填写内容一键生成数仓的数据域、业务过程、事实表、原子指标、业务限定、派生指标、维度表。

数仓规划构建流程

此时,总线矩阵的整个框架就已经完全搭建好了。通过这种总线矩阵的方式让维度建模更加的便捷,节省了大量的时间。

③ 标准化处理

接下来需要做的是将业务数据源接入进来,并进行简单的标准化处理。

✦ 平台提供了可视化配置的方式完成各类型数据的清洗、标准化。数据标准化的过程可以改进数据的质量,有助于提高其后的决策过程的精度和性能。

数据标准化界面

✦ 标准化的数据与中间表字段进行一一映射。只需要通过简单的字段连接即可完成数据映射。

数据标准化映射

④ 汇总表生成

举例说明:

✦ 原子指标A:生产人员数量

数据来源:人力资源生产人员数量事实表

✦ 原子指标B:销售人员数量

数据来源:人力资源销售人员数量事实表

✦ 派生指标A:生产人员数量_岗位为生产_历史至今

来源原子指标:生产人员数量

统计周期:历史至今

业务限定:岗位为生产

✦ 派生指标B:销售人员数量_岗位为销售_历史至今

来源原子指标:销售人员数量

统计周期:历史至今

业务限定:岗位为销售

✦ 复合指标:生产和销售总人数

来源派生指标:

派生指标A-生产人员数量_岗位为生产_历史至今

派生指标B-销售人员数量_岗位为销售_历史至今

计算方式:生产人员数量_岗位为生产+销售人员数量_岗位为销售

⑤ 可视化选择汇总表指标及统计维度

指标构建好之后,在平台进行相应的计算逻辑配置,选择维度,形成最终的应用指标。

汇总表可视化

此时,总线矩阵的整个框架就已经完全搭建好了。通过这种总线矩阵的方式让维度建模更加的便捷,节省了大量的时间。

4

总结

总线矩阵是一种颠覆传统方式的数据仓库构建方式,它可以在数仓构建中发挥重要作用,简化数据集成过程、提高数据质量和一致性、支持数据仓库的扩展和提高数据仓库的可维护性。

海睿思S-DW智能数仓通过构建总线矩阵,实时将企业的各类数据进行整合和汇聚,为企业运营活动和管理决策提供更加准确、全面的指标支撑!

猜你喜欢

转载自blog.csdn.net/iOceanMind/article/details/130929203
今日推荐