了解数据仓库

一.数据仓库定义

数据仓库就是面向主题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题,与传统关系数据库面向应用相对应。

二.数据仓库与传统数据的区别

 数据仓库是用于分析的数据库,传统的关系型数据库是面向业务的,为具体的业务提供支撑。

数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出进行加工与集成,统一与综合之后才能进入数据仓库.

数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询

随着时间的增长,数据仓库数据量会很大

与关系型数据库相比,数据仓库的设计允许冗余

为了更好的为业务决策服务,数据仓库的设计要求如下:

1.效率足够高,尽量的低延迟,隔天能看到历史的数据分析数据

2.数据质量,在ETL过程中,避免脏数据或者代码有误导致的数据不准确误导决策者

3.扩展性,考虑到随着时间的推移,以及业务的变动,数据量增大,数据仓库要合理建模,适度增加中间层,缓冲数据量增大带来的压力

4.根据决策者重点关心的方向,提取主题,排除无用的主题

猜你喜欢

转载自www.cnblogs.com/playforever/p/9117141.html
今日推荐