[数据仓库]基于大数据的数仓和传统数仓的区别

目录

基于大数据的数仓

传统数仓

传统数仓和基于大数据的数仓的相同点


基于大数据的数仓

随着新的应用场景(个性化推荐、用户画像、机器学习、数据分析、风控、精准运营)的出现,数据爆炸式增长,基于大数据的数仓应用而生,其特点是业务变化快,速度快、能处理海量数据,有实时需求;ER建模被弱化、DWS、DM采用维度建模;建模被弱化,更偏于混合建模,数据质量一般,关注需求速度快、灵活。更强调数据资产的重要性,一般到达一定规模,倾向与做数据治理(数据质量、数据安全、数据标准、数据血缘、主数据、元数据管理)

  1. 实效性高
  2. 业务灵活、多变
  3. 数据源多样性
  4. 数据质量参差不齐
  5. 应用场景复杂

技术栈:HDFS、Hive、Hbase、Flume、Kafka、Flink、Spark、Sqoop、ES、oozie等

传统数仓

传统数仓建有较稳定的业务场景和相对可靠的数据质量,同时也有相对稳定的需求,对数仓建设有较为完善的项目管控流程,数据建模有较严格、稳定的建设标准;但是建设周期长,处理的数据结构单一,处理复杂数据成本高,只要支持数据分析和管理决策。

DWD一般采用ER建模、DWS、DM采用维度建模,数据质量高。

技术栈:TD、Oracle

传统数仓和基于大数据的数仓的相同点

1、分层架构

2、ER、维度建模理论同样适用

3、数据服务体系一般都有BI、指标系统

猜你喜欢

转载自blog.csdn.net/henku449141932/article/details/112647200