“实时数仓”到底是什么?

一、实时数仓、数据库、湖仓一体傻傻分不清?

确实,如果从一个初学者来说这些技术可能大家听起来会很容易觉得混淆,他们到底是什么样的一些关系?我为大家去简单的梳理一下。

1.大数据平台
我们先谈最基本的一个叫大数据平台,大数据平台是什么?大数据平台是一种利用大数据技术去解决数据问题的一种技术平台,也就是说它是一种技术的一些基本能力的集合,它并不一定是解决某一种具体的业务问题。比如说数据仓库就是我们解决数据的使用的某一个具体业务问题的一种产品,但是大数据平台它是个通用化的产品,那么这种通用化的产品可以解决数据的很多方面的诉求。我们可以通过大数据平台这个平台去自己灵活的组装成满足我们一个业务场景的一个具体的一个解决方案,它是这样的概念。也就是说大数据平台是一个通用化的技术平台。那么比较典型的比如像数据仓库领域,大家用得比较多的像过去我们用hadoop上面基于hive,现在我们可以看到很多的像input、procedure类似于clob这样的一些大数据平台,都可以解决我们一定数据的一些分析计算的问题。但是坦白讲大数据本身这个平台还是一个技术平台的定位,那么这是第一个。

2.数据中台
第二个我们再谈谈数据中台,可以说在过去的三到四年,数据中台是非常的火。国内也有一些初创的厂商,大家在做数据中台。数据中台是什么?我们要强调一点,数据中台其实并不是一个技术平台,它是一种业务平台,也就是说数据中台是把我们企业内部的数据服务通过业务的方式重新组织之后,为我们的前端业务系统提供支撑的一类平台。所以说这里边我们的数据的中台,可能更多的是面对于我们的业务侧解决我们的业务问题,那么它的底层会依赖于一些基础的技术。比如说我们可以基于一个大数据平台之上去构建出自己的数据中台或者是基于其他的一些技术组合去做我们的底层技术,去支撑我们的数据中台。但是从中台本身这个概念来讲,它并不是解决技术问题的,它是为了解决我们企业的数据业务问题。

3.数据湖
第三个是数据湖,数据湖的概念相对来说比数据仓库的概念要稍微晚一点。它的出现是为了解决什么样的问题呢?就是过去我们对于数据是一种非常标准化的,非常规格化的,做好了数据建模的一种组织形式。那么我们现在也看到,有更多的一些数据他们是没有严格按照我们的数据建模的,或者说他们是非常零散的,散落在各处的,非常的多模,存在不同的这种数据存储形式的这样一些数据。这些数据在过去是没有办法很好的把它组织管理起来的,后来因为大家有了这样的一些诉求就出现了数据湖技术。通过这个名字大家也可以看到数据湖是数据湖,它的含义就是像一个湖一样,把我们企业内部的散落在各处的数据能够集中在一起,然后我提供一定的数据的计算加工的这样一些能力,这是我们讲的数据湖。

那么数据湖和我们的数据仓库在之前是有一种对应的关系的。数据仓库更强调的是这种建模的,比较规整的,比较严格按照一个规范要求去预设好的这样一些条件的数据。那么这些数据往往存在我们数据仓库里面,它的计算查询的效率会更高一点,数据湖更涉及到没有做过这种很好的一些标准化的一些数据。所以这两个是有一种互补的关系。当然,从企业来讲,我现在存在着两个数据不同的载体,我的很标准的,预建模好的,很标准化的计算数据在我们的数据仓库里面。但是呢,还有一些数据湖的数据是非常散乱的。那么有没有一个数据的统一视角呢?这个时候就出现了我们的湖仓一体的这个技术。

4.湖仓一体
湖仓一体的技术就是融合的数据湖和数据仓库这两种技术,提供了一种大一统的一个解决方案。从更高的维度去看待我们企业内部的数据。所以说湖仓一体是提供了一种更全局的一个视角去看待我们的数据。

5.实时数仓
那么今天我们谈到的实时数据仓库实际上就是从另外一个角度去谈,对我们数据仓库中的实时性部分的需求做了特殊加强的一种技术平台,它提供的是我们对于实时数据仓库领域里面,对于那种需要我们的数据的采集计算加工处理,实现要求很高的一些领域的一种特有的一种技术,所以它也是一种技术名词。
在这里插入图片描述

二、到底什么才是实时数仓?

众所周知,数据仓库是一种非常久远的技术,从上世纪80年代到现在发展的已经有三、四十年的历史了。过去数据仓库主要是解决我们的一些离线问题,现在我们也看到越来越多的企业把数据仓库用在一些实时领域,就产生了所谓的实时数仓这样的一个概念。那为什么会有这样的一些需求呢?更多的是来自于我们企业对于数据实时性的要求,已经慢慢的变得更加重要,甚至在某些情况下会大于我们数据分析的价值。这个时候就凸显了我们实时数仓的一个意义。这里面我们看到现在有很多的技术去支撑我们的数据仓库,包括大家现在耳熟能详的像数据湖、湖仓一体以及云原生数仓等等很多的概念,他们跟实时数仓有什么样的关系呢?今天我们在这个场合会跟大家共同去探讨数仓技术以及实时数仓能给我们企业带来什么样的不同,什么样的价值。

实时数据仓库经历了哪几个重要发展阶段?从底层架构来看,实时数仓和离线数仓的最根本区别是什么?到底是哪些关键技术让实时数仓“梦想照进现实”?

三、先来看第一个问题就是数据仓库的发展

我之前也讲到数据仓库从上世纪80年代到现在三四十年的历史发展之中,数据仓库大概经历了几个阶段:
从早期的离线数仓,它解决了我们企业数据的分析基本问题,从原有的交易性数据库很难满足我们分析的诉求;离线的数仓提供了一种一定的数据规模下的数据分析的能力;现在随着我们对于数据实时要求性比较高,后面出现了一些实时数仓分支的技术。比如大家现在比较熟知的像Lambda架构、Kappa架构,这些架构的出现更多的是为了满足我们数据在实时处理、实时查询方面的一些诉求,这也是我们实时数仓的一个雏形。到了现在我们可以看到数据仓库在更多的领域得到了一些使用。刚才谈到的这些Lambda架构包括Kappa架构,也在很好的程度上去解决了实时的问题。当然了,我们现在有了更好的一些技术来去满足我们的实时数仓。

我们从本质上来看实时数仓和我们的离线数仓有什么样的区别呢?从这个名字上可以很容易的区分:一个是离线;一个是实时,这是它的最本质的差别。离线数仓是指我们的整个数据的获取、加工、处理、计算的整个流程是在离线的形式上,也就是说不是一个online在线的方式。实时数仓就反知它是提供了一种在线的实时的一个能力,这是两者最大的区别。正是有这个区别,使得我们实时数仓能够解决我们很多的业务场景中,过去用离线数仓无法满足的一些对数据实时性要求很高的场景,都可以用实时数仓去解决。

现在有什么样的技术去解决这样的问题呢?包括我们之前谈到的关于Lambda、Kappa这样的架构。其实它的背后都是我们的流式处理架构的一些发展,包括现在我们也有了一些像云数仓通过云端的基础设施对我们提供了很好的平台。包括也有一些像AI与数仓的结合,也包括一些其他的领域,其实这些技术的诞生都为我们的实时数仓做好了一些铺垫。

当然我们讲到传统数仓的技术对现有的实时数仓仍然具有很大的支撑的意义,包括比较典型的像MPP的架构,在我们实时数仓当中仍然是主流的实现的技术。可以说,正是这样的一些新兴技术和我们离线数仓既有的一些技术基础,共同打造为我们的实时数仓奠定了很好的技术基础,也为整个实时数仓未来的发展会起到很好的助力。

四、针对当前的传统企业,特别是金融企业,实时数据仓库的建设情况如何?对实时数据分析的需求,到底如何?

可以说实时数仓是一个跨领域、跨行业的一种基础技术,在不同的领域都能得到很好的应用发展。针对我们传统企业,以金融业为代表,他们其实对于数据有着更高的要求。我之前也是一名金融行业的从业者,金融行业素以数据应用高地著称,他们对于数据的严谨性、实时性的要求会非常的严格和苛刻。其实实时数仓的技术,对于金融行业会带来很非凡的意义。我们知道金融对我们数据要求会比较严格,在过去很多的金融场景受限于我们底层的技术,是没有办法很好的去实现的。现在有了实时数仓,其实对于金融业来说会有一些新的业务的突破。比如像我们比较常见的像实时的风控、反欺诈包括实时营销、在线分析等等很多的领域,正是因为有了实时数仓的出现能为金融行业去做了很好的基础,能够满足于一些金融行业更多的新的业务形态的诉求。除了金融行业之外,其他的一些企业包括像物流、制造业、游戏、电商等等等等很多的行业领域,他们对于数据的实时性要求都有其各自的特点。那么实时数仓的出现也为这些行业打开了一个新的一种业务的发展的可能性。

所以我说实时数仓在各个行业领域都会有着比较好的发展,当然受限于不同的行业发展阶段,实时数仓在不同行业的发展也有所差异。

猜你喜欢

转载自blog.csdn.net/java_cjkl/article/details/129702321
今日推荐