数仓相关

OLAP

OLTP 事务,是传统的关系型数据库的主要应用。主要是基本的、日常的事务处理,例如银行交易。
OLAP 分析,是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

模型表为什么叫模型表

  • 因为可以通过不同模式(面向业务过程、面向分析、面向事件event主题)建模,这样表就按照某一个逻辑呈现、储存数据了。

数仓为什么要分层?

在实际项目中,常常根据业务需求频繁性来确定需要聚集的维度。此外,为了保证数据的一致性,汇总的事实表通常基于明细表的维度和事实进行计算,有汇总表可以节省计算成本

  • 应对业务方的数据需求,构建汇总表,这样不会每次查询的时候都调用事实表,从底层多个Join取数据。有了汇总表,频繁的查询下可以节省成本。

数据同步 ODS Stage 层

  • 各个系统的元数据通过ETL同步到操作性数据仓库ODS中
  • 为什么需要ETL呢?
  • 用户使用的应该是数据团队精心加工后的数据,而不是来自于业务系统的原始数据。原始数据库A里可能用1代表下单成功,0代表失败;而系统B里可能用success代表成功,fail代表下单失败。而作为数据使用者(分析师),最终希望看到的是一个汇总的、规范、包含所有订单信息而且口径统一的宽表。

  • 数据来源包括业务数据库(结构化)、日志数据(半结构化)、文本/音频/图片(非结构化)数据

DW层 DWD DWB DWS
DWD和DWS是由ODS层数据经过ETL清洗、转换、加载而生成的,而且它们通常都是基于Kimball的维度建模理论来构建的,并通过一致性维度和数据总线来保证各个子主题的维度一致性。

指标

  • 事务性指标:衡量业务活动 存量型指标:衡量状态,如截止当前的会员注册数;
  • 复合型指标:如浏览UV-下单买家转化率,是在前两者基础上计算、复合而成的
  • 比例型(留存)、排名型(TOP 15明细)等

数仓名词术语解释

发布了3 篇原创文章 · 获赞 0 · 访问量 68

猜你喜欢

转载自blog.csdn.net/Fri_ay/article/details/102618767