数据仓库教程
这里我们做了一份关于整个数仓体系的教程,主要内容体系大家可以看目录,后续满面会完善,欢迎大家关注,一起讨论交流,这份教程的特点有四个
- 知识体系完善,从数仓的概念、建模、数仓工具的使用、数仓的落地实践都有,还会有很多小案例
- 使用的技术都是当前企业最常用的技术,版本也是比较新的,不会导致大家看到一个代码,然后一执行发现语法不支持或者废弃掉了
- 后续的更新也会很及时,不会说更新了一段时间断更了,在更新完大纲之后,我也会不断完善该系列,不断添加新的知识点
- 创作团队都是在企业一线员工,实战多于理论。
1. 数仓建模
什么是数仓
数仓架构发展史
数仓建模方法论
分层建设理论
数仓治理
数据湖初识
2. 数仓工具
1. Hive
1.Hive 基础篇
2.Hive 语法篇
5. Order by, Sort by ,Dristribute by,Cluster By
8. map join、reduce join、smb join
10. 窗口函数row_number、rank、dense_rank
12. 窗口函数first_value和last_value
14. 窗口函数cume_dist和 percent_rank
3.Hive 进阶篇
4.Hive 源码篇
5. Hive 实战篇
1. UDF分词
2. 高性能查询引擎
1.Spark-SQL
2.Impala
3.Presto
4.Druid
3.数据同步工具
4. 调度工具
1. 调度工具的使用
2. 调度工具整合
首先我们会创建常用的脚本然后配合配合数仓的SQL 进行数仓的整体的调度,脚本的话我们主要有抽数的脚本、执行SQL的脚本、监控的脚本、发布脚本
当然我们还会引入版本管理工具,管理我们的SQL和脚本,然后进行发布