目录
基于大数据的数仓
随着新的应用场景(个性化推荐、用户画像、机器学习、数据分析、风控、精准运营)的出现,数据爆炸式增长,基于大数据的数仓应用而生,其特点是业务变化快,速度快、能处理海量数据,有实时需求;ER建模被弱化、DWS、DM采用维度建模;建模被弱化,更偏于混合建模,数据质量一般,关注需求速度快、灵活。更强调数据资产的重要性,一般到达一定规模,倾向与做数据治理(数据质量、数据安全、数据标准、数据血缘、主数据、元数据管理)
- 实效性高
- 业务灵活、多变
- 数据源多样性
- 数据质量参差不齐
- 应用场景复杂
技术栈:HDFS、Hive、Hbase、Flume、Kafka、Flink、Spark、Sqoop、ES、oozie等
传统数仓
传统数仓建有较稳定的业务场景和相对可靠的数据质量,同时也有相对稳定的需求,对数仓建设有较为完善的项目管控流程,数据建模有较严格、稳定的建设标准;但是建设周期长,处理的数据结构单一,处理复杂数据成本高,只要支持数据分析和管理决策。
DWD一般采用ER建模、DWS、DM采用维度建模,数据质量高。
技术栈:TD、Oracle
传统数仓和基于大数据的数仓的相同点
1、分层架构
2、ER、维度建模理论同样适用
3、数据服务体系一般都有BI、指标系统