Modern Data Stack 下 Data Integration 生态(上)

写在前面

业界流行 modern data stack 的说法,本质上就是将传统的一些工具用 SaaS 化的思路在云上重新再做一遍,从来显著提升客户的使用难度。modern data stack 几大核心是:cloud 、open-source 、SaaS business models。

data Integration 是个传统市场,Gartner 对这个市场很早就有分析,但是收集和整理的还是偏传统的公司,文中有一些简单关于 Gartner 对这个市场的理解和整理;

此次内容会分为上下两篇,本文会重点讨论下 Modern data stack 本身,还有 Gartner 对 data integration 的理解。后面还有一篇讨论具体的在 modern data stack 下面 data integration 都有些典型公司。

这块还是有非常多的创新的公司,典型的 FiveTran ,现在估值都超过50亿美金了。正是因为这些公司都比较早期,所以也还是在不停的冒出新的公司,所以我这个尝试梳理的,可能会有部分涉及不够全面。

Modern data stack 相对传统数据处理几点关键变化

  • 云化:The move from on-prem to the cloud

  • ELT not ETL:数仓的计算能力会比较强,处理一般下移到数仓

  • 自助式分析:The rise of self-service analytics to democratize data exploration

除了上面几点,modern data stack 核心变化下图有总结:

a469eb18c30a1d2d79a559b296e756e3.png


Modern data stack 示意

上图是一个典型的数据接入,存储和消费的流程,和传统的区别不大,核心是都被新云化服务取代。

f506005753d30a554e957baf1718447b.png

下面这个图会更详细一些,但是缺少 reversel etl 部分,可以放到一起参考:

afe35998c31cc0e7f28ecb2c1eafa9c0.png49c02efcf0eec242c208dc56bd7d9025.png


Gartner & Forrester 对 Data Integration 的定义

这个市场很复杂,Gartner 从场景角度做了一个比较好的定义,但是这个定义偏 marketing:

  • Data Engineering:创建、管理和操作数据 pipeline,给数据仓库,数据湖,或者给 end-user自服务的数据集成能力。

  • Cloud Migration:数据迁移和整合能力到云的基础设施,或者直接在云上提供服务,支持混合云,多云或者通过云来进行集成的场景。

  • Operational Data Integration: 操作数据集成(包括操作数据,事务数据等),支持关键业务。企业间数据分享。跨应用数据一致性,包括企业内部或者企业间。

  • Data Fabric: 数据集成的同时支持作为数据服务(可以通过web接口访问)。包括支持各种数据生产和消费者。

老牌厂商很多,Gartner 2021 数据集成魔力象限如下:

b2703ea333fe470ffd40c19c1da011f1.png

Forrester 2020 Q2 Data Fabric 梳理的厂商

22fe2e6f3963eb67b8c381ae3215d8de.png

上面的 Gartner 和 Forrester 主要都是一些比较老牌的厂商;不是特别符合现在所说的 modern data stack 的逻辑。

下一遍接着梳理这个领域都有哪些公司,以及能做什么?敬请期待!

猜你喜欢

转载自blog.csdn.net/zNZQhb07Nr/article/details/122019276