数据仓库~视屏学习~尚硅谷

数据仓库为什么要分层? 层次越多说明越复杂

1,把复杂问题简单化,

将一个复杂的任务分解成多个步骤来完成,每一层处理单一的步骤,比较简单,方便定位问题

2,减少重复开发

规范数据分层,通过中间层数据,能减少极大的重复计算,增加一次计算结果的复用性。

3,隔离原始数据

不论是数据的异常还是数据敏感性,使真实数据和统计数据解耦。

ODS层:存放原始数据,直接加载原始日志,数据保持原貌不做处理(方便排查问题,可以和业务库数据比对)

DWD层:结构和粒度与原始数据保持一致,对ODS数据进行清洗(去除空值,脏数据,字段按照主题域命名,数据规则化操作)

DWS层:以DWD为基础,按照一定的纬度,进行轻度汇总。

BI层:为各种报表提供数据。

数据集市和数据仓库区别?

数据集市是一个微型的数据仓库,他的数据比较少,更少的主题区域,是部门级的,根据部分特定的业务做的指标统计。

数据仓库是企业级别的。能为各个部门的运行提供决策支持手段。

HIVE组成:客户端,元数据(现在放在mysql,是因为支持多个客户端访问),四个器(编译器,优化器,解析器,执行器) ,MR计算,HDFS存储

HIVE 慢的原因是:MR需要写入磁盘,IO比较耗时,Spark 走的是内存计算,他会把所有的表加载到内存中,在内存中计算

猜你喜欢

转载自www.cnblogs.com/pengpenghuhu/p/12014107.html
今日推荐