数仓建模—数据集成

数据集成

其实数据集成是数仓的一个基本特点,这里我们再回顾一下数仓的特性,或者说是我们再回顾一下数仓的定义,面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策的数据系统。

今天我们学习的数据集成指的是“集成的” 特性,说到数据集成我们就不得不说我们为什么要建设数仓了,关于数仓是是什么或者是服务于什么的我们已经说过了,那就是数仓主要是用来做决策的,也就是从数据的角度出发去做决策,而不是纯粹的拍脑袋去决策

所以这个时候数据准确性就很重要,这里的数据准确性不仅仅指的是我们的数据计算准确,而是指的是我们的数据本身要能够反应事实,也就是说我们要拿合适的数据来干正确的事情。

我们将以前分散的数据收集到一起不仅仅是为了打破数据壁垒,我们更希望能进行统一处理,从而提高数据的可信性、提高数据的生产效率问题,所以说数据集成并不是单单指的是数据收集,可能一说到数据集成大家想到的可能就是 sqoop、dataX、maxwell 这样的数据同步工具,这个想法本身没错,但是这些仅仅是工具,是开始而已。

数据集成的背景

集成的目的是为了打通数据从而更加准确的描述业务,从而更好的为业务赋能,这里举一个例子介绍我现在有三个决策系统,都需要一份业务数据,那这个时候三个系统都会从业务数据库拉去数据,这个时候就会引发很多问题</

猜你喜欢

转载自blog.csdn.net/king14bhhb/article/details/120095934