数据仓库简介

注:转载来源如下,学习备用,侵删

【程序员小灰 漫画:什么是数据仓库

https://mp.weixin.qq.com/s?__biz=MzAwOTQ4MzY1Nw==&mid=2247485475&idx=2&sn=8d485e1f7a03deedc6803a0085018eee&chksm=9b5facc5ac2825d388062e49a99cc4b4ef89afb04736d35c25a6534b101bf0d495e6fce46f8e&mpshare=1&scene=1&srcid=03145ZzV8DkDsP2P06mvtRWI#rd

什么是数据仓库?

什么是ETL

1.Extract数据抽取,也就是把数据从数据源读出来。

2.Transform数据转换,把原始数据转换成期望的格式和维度。如果用在数据仓库的场景下,Transform也包含数据清洗,清洗掉噪音数据。

3.Load  数据加载,把处理后的数据加载到目标处,比如数据仓库。

国内最常用的开源数据仓库:Hive

Hive是基于Hadoop的数据仓库工具,可以对存储在HDFS上的文件数据集进行查询和分析处理。Hive对外提供了类似于SQL语言的查询语言 HiveQL,在做查询时将HQL语句转换成MapReduce任务,在Hadoop层进行执行。

这里有几个名词需要解释:

1.HDFS

Hadoop的分布式文件系统,在这里作为数据仓库的存储层。图中的Data Node就是HDFS的众多工作节点。

2.MapReduce

一种针对海量数据的并行计算模型,可以简单理解为对多个数据分片的数据转换和合并。

 


猜你喜欢

转载自blog.csdn.net/emiedon/article/details/79589800