专治数仓疑难杂症!美团点评 Flink 实时数仓应用经验分享

导读:本文根据 Apache Flink 系列直播整理而成,由美团点评数据系统研发工程师黄伟伦老师分享。主要内容如下:

  • 实时数仓建设目的

  • 如何建立实时数仓

  • 仓库质量保证

实时数仓建设目的

解决传统数仓的问题

实时数仓是一个很容易让人产生混淆的概念。实时数仓本身似乎和把 PPT 黑色的背景变得更白一样,从传统的经验来讲,我们认为数仓有一个很重要的功能,即能够记录历史。通常,数仓都是希望从业务上线的第一天开始有数据,然后一直记录到现在。

但实时处理技术,又是强调当前处理状态的一门技术,所以我们认为这两个相对对立的方案重叠在一起的时候,它注定不是用来解决一个比较广泛问题的一种方案。于是,我们把实时数仓建设的目的定位为解决由于传统数据仓库数据时效性低解决不了的问题。

由于这个特点,我们给定了两个原则:

  • 传统数仓能解决的问题,实时数仓就不解决了。比如上个月的一些历史的统计,这些数据是不会用实时数仓来建设的。

  • 问题本身就不太适合用数仓来解决,也不用实时数仓解决。比如业务性很强的需求,或者是对时效性要求特别高的需求。这些需求我们也不建议通过实时数仓这种方式来进行解决。

当然为了让我们整个系统看起来像是一个数仓,我们还是给自己提了一些要求的。这个要求其实跟我们建立离线数仓的要求是一样的,首先实时的数仓是需要面向主题的,然后具有集成性,并且保证相对稳定。

离线数仓和实时数仓的区别在于离线数据仓库是一个保存历史累积的数据,而我们在建设实时数仓的时候,我们只保留上一次批处理到当前的数据。这个说法非常的拗口,但是实际上操作起来还是蛮

猜你喜欢

转载自blog.csdn.net/wenyusuran/article/details/108388911