基于 Hadoop 数据仓库的搭建

基于 Hadoop 数据仓库的搭建


为什么需要数据仓库?

       传统的数据库中,存放的数据较多是一些定制性数据,表是二维的,一张表可以有很多字段,字段一字排开,对应的数据就一行一行写入表中,特点就是利用二维表表现多维关系。

       但这种表关系的上限和下限就定死了,比如 QQ 的用户信息,直接通过查询 info 表,对应的 username、introduce 等信息即可,而此时我想知道这个用户在哪个时间段购买了什么?修改信息的次数?诸如此类的指标时,就要重新设计数据库的表结构,因此无法满足我们的分析需求。

       在产品脑图中可以很清晰的看到根据业务需求设计所需的字段,因此也导致数据库是根据业务需求进行设计

       那么,为什么一开始就不考虑好这个扩展性呢?为什么数据库一开始就不以数据仓库的形式设计?

       主要原因有二:

       第一,数据仓库,从字面上理解就可以感受到这是一个很大的空间,而且存储的物品很杂,里面会存放酱油、沐浴露、洗发精等物品,而数据库是存放酱油、盐等厨房用品,洗浴又是一个数据库。

       第二,国内互联网的发展,一开始大家都是做个软件出来,大家一起用,这个时候只要满足的了需求即可,现今不止是需求还有用户的体验等各种方面,需要根据这些分析指标做调整。

       小结:

       数据库是跟业务挂钩的,因此数据库的设计通常是针对一个应用进行设计的。

       数据仓库是依照分析需求、分析维度、分析指标进行设计的。


什么是数据仓库?

       数据仓库(Data Warehouse)简称 DW 或 DWH,是数据库的一种概念上的升级,可以说是为满足新需求设计的一种新数据库,而这个数据库是需容纳更多的数据,更加庞大的数据集,从逻辑上讲数据仓库和数据库是没有什么区别的。

扫描二维码关注公众号,回复: 9962409 查看本文章

       为企业所有级别的决策制定过程,提供所有类型数据支撑的战略集合,主要是用于数据挖掘数据分析,以建立数据沙盘为基础,为消灭消息孤岛和支持决策为目的而创建的。


数据仓库特点

面向主题

       是企业系统信息中的数据综合、归类并进行分析的一个抽象,对应企业中某一个宏观分析领域所涉及的分析对象。

       比如购物是一个主题,那么购物里面包含用户、订单、支付、物流等数据综合,对这些数据要进行归类并分析,分析这个对象数据的一个完整性、一致性的描述,能完整、统一的划分对象所设计的各项数据。

       如果此时要统计一个用户从浏览到支付完成的时间时,在购物主题中缺少了支付数据或订单数据,那么这个对象数据的完整性和一致性就可能无法保证了。

数据集成

       数据仓库的数据是从原有分散的数据库中的数据抽取而来的。

       操作型数据和支持决策分析型(DSS)数据差别甚大,这里需要做大量的数据清洗与数据整理的工作。

       第一:每一个主题的源数据在原有分散数据库中的有许多重复和不一致,且不同数据库的数据是和不同的应用逻辑捆绑的。

       第二:数据仓库中的综合性数据不能从原有的数据库系统直接得到,因此在数据进入数据仓库之前要进过统一和综合。(字段同名异意,异名同义,长度等)

不可更新

       数据仓库的数据主要是提供决策分析用,设计的数据主要是数据查询,一般情况下不做修改,这些数据反映的是一段较长时间内历史数据的内容,有一块修改了影响的是整个历史数据的过程数据。

       数据仓库的查询量往往很大,所以对数据查询提出了更高的要求,要求采用各种复杂的索引技术,并对数据查询的界面友好性和数据凸显性提出更高的要求。

随时间不断变化

       数据仓库中的数据不可更新是针对应用来说,从数据的进入到删除的整个生命周期中,数据仓库的数据是永远不变的。

       数据仓库的数据是随着时间变化而不断增加新的数据。

       数据仓库随着时间变化不断删去久的数据内容,数据仓库的数据也有时限的,数据库的数据时限一般是60 ~ 90天,而数据仓库的数据一般是5年~10年。

       数据仓库中包含大量的综合性数据,这些数据很多是跟时间有关的,这些数据特征都包含时间项,以标明数据的历史时期。


数据仓库的选型

需求

备选:

在线收费

(1)Amazon Redshift

(2)Google BigQuery

(3)IBM Db2 Warehouse

(4)Microsoft Azure SQL Data Warehouse

(5)Oracle Autonomous Data Warehouse

(6)SAP Data Warehouse Cloud

(7)Snowflake

自建收费

自建免费

Teradata

筛选条件

(1)成本

(2)效率

(3)易用

(4)规模上限


目前主流公司应用比较广泛的大数据数据仓库架构


为什么是Hadoop?


Hadoop 下载、安装


参考:

https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93/381916?fr=aladdin

https://blog.51cto.com/14463231/2458413?source=dra

https://blog.csdn.net/xuheng8600/article/details/79956539

https://www.tinymind.net.cn/articles/63e45355916196

https://www.jianshu.com/p/e4bd7176670d

http://www.chinacloud.cn/show.aspx/show.aspx?id=28609&cid=30

发布了23 篇原创文章 · 获赞 4 · 访问量 4529

猜你喜欢

转载自blog.csdn.net/qu6zhi/article/details/104918986