数据仓库～视屏学习～尚硅谷 - 代码天地

数据仓库～视屏学习～尚硅谷

其他 2019-12-09 23:50:50 阅读次数: 0

数据仓库为什么要分层？层次越多说明越复杂

1，把复杂问题简单化，

将一个复杂的任务分解成多个步骤来完成，每一层处理单一的步骤，比较简单，方便定位问题

2，减少重复开发

规范数据分层，通过中间层数据，能减少极大的重复计算，增加一次计算结果的复用性。

3，隔离原始数据

不论是数据的异常还是数据敏感性，使真实数据和统计数据解耦。

ODS层：存放原始数据，直接加载原始日志，数据保持原貌不做处理（方便排查问题，可以和业务库数据比对）

DWD层：结构和粒度与原始数据保持一致，对ODS数据进行清洗（去除空值，脏数据，字段按照主题域命名，数据规则化操作）

DWS层：以DWD为基础，按照一定的纬度，进行轻度汇总。

BI层：为各种报表提供数据。

数据集市和数据仓库区别？

数据集市是一个微型的数据仓库，他的数据比较少，更少的主题区域，是部门级的，根据部分特定的业务做的指标统计。

数据仓库是企业级别的。能为各个部门的运行提供决策支持手段。

HIVE组成：客户端，元数据(现在放在mysql,是因为支持多个客户端访问)，四个器（编译器，优化器，解析器，执行器），MR计算，HDFS存储

HIVE 慢的原因是：MR需要写入磁盘，IO比较耗时，Spark 走的是内存计算，他会把所有的表加载到内存中，在内存中计算

猜你喜欢

转载自www.cnblogs.com/pengpenghuhu/p/12014107.html

数据仓库～视屏学习～尚硅谷

数据仓库学习（2）

数据仓库学习（1）

数据仓库的学习资料

数据仓库学习小结

学习数据仓库Hive

数据仓库学习（二）——数据仓库建模

数据仓库学习（一）——数据仓库介绍

数据仓库学习笔记 --- 数据仓库脱敏算法

数据仓库学习笔记(1)-数据仓库概况

springmvc学习(尚硅谷)

深度学习+机器学习的数据仓库

尚硅谷2019全新大数据学习路线图

尚硅谷redis学习4-数据类型

尚硅谷springboot学习31-jdbc数据连接

2020尚硅谷大数据学习路线【最新版】

数据仓库学习（三）——命名规则

数据仓库学习笔记一

数据仓库学习笔记二

ELT(数据仓库技术) 学习

『数据仓库』学习记录（1）

学习数据仓库之概念基础

数据仓库Hive学习（一）

数据仓库ETL案例学习（一）

尚硅谷Maven学习笔记

尚硅谷JDBC学习笔记

尚硅谷Zookeeper学习笔记

尚硅谷git学习总结

Flink 尚硅谷学习笔记

尚硅谷MySQL学习笔记

今日推荐

“开源信徒”周鸿祎开源360智脑大模型

华为ensp中vrrp虚拟路由器冗余协议原理及配置命令

基于Python爬虫广东广州水酒店宾馆数据可视化系统设计与实现(Django框架) 研究背景与意义、国内外研究现状

知识融合：知识图谱构建的关键技术

文心一言收费还是免费：全面解析其价格策略与服务价值

百万用户通话新风潮：仅需50秒，无界AI让彩铃变身短视频

【STM32项目】基于STM32多传感器融合的新型智能导盲杖设计（完整工程资料源码）

文生视频大模型Sora的复现经验

腾讯云函数计算技术：云原生架构下的Serverless与微服务新篇章

干货分享｜JumpServer 三种常见的文件传输方式效果对比

【榜单公布】2023年度征文活动已结束

周排行

Java中关于时间的操作及格式化

《HTML5与CSS3基础教程》第五章学习笔记图像

nginx下安装PHP发生问题的逐步解决

HDU-1048，The Hardest Problem Ever（字符串处理）

新一代多媒体技术与应用的部分课后题

Shader 绘制特殊图形

Oracle数据库三种备份方案

CodeForces - 983B XOR-pyramid(两次区间DP/记忆化DFS)

Python3基础语法——变量与运算符

（转载）KMP算法详解（原创）详解KMP算法

每日归档

更多

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)

2024-04-12(38)

2024-04-11(14)

2024-04-10(68)

2024-04-09(5)

2024-04-08(60)

2024-04-07(4)