大模型“搅局”，数据湖，数据仓库，湖仓选型会先淘汰谁？

事情总是这样：

压力初露端倪，暗自考虑改变。

压力高能爆表，立马做出改变。

我们从一家叫做Databricks的美国知名公司聊起。

这家Databricks公司很有创新基因。

其创始人阿里·戈西（Ali Ghodsi）作为“2022年福布斯全球亿万富豪榜”排名第1645位的瑞典富豪，不缺钱，也舍得为公司花钱。

他多次公开表示，不会考虑降低研发投入。

此前（距大模型问世还有几年时间），Databricks就具备一种很重要的能力，我们姑且称之为“二合一”的能力吧：

大数据能力，以及传统人工智能能力。

总称为：“Data+AI”的能力。

更准确地称为：“Data+AI”平台的能力。

传统AI平台的功能，Databricks也早有了。

毕竟，号称一站式商店。

以前，传统AI还可以被归类为“高级”数据分析服务，比如用于预测等场景。

大模型出现后，这样归类就不合时宜了。

大模型不仅仅是分析，人家高低是有智能的。

于是，如今对AI平台的基本要求“水涨船高”：能训练大模型。

而Databricks 公司这样一个Data+AI 平台横跨两界的三好学生优秀班干部，虽然早早具备“二合一”的能力，但也没有在其所辖“四海之内率土之滨”，长出一个生成式AI大模型的功能。

该有的都有呀，居然，眼睁睁看着自己落后了。

大模型需要多大的数据，讲一个训练时候的事实好了。

千亿参数的大模型一次微调，用时大约两个月，消费数据大约20个T。

这意味着，大模型问世之后，大数据“身价”变了，“富贵骄人”。

因为大模型能把大数据里面的价值用得更彻底了。

以前存了多久不要紧，

落了多少灰不要紧。

要紧的是，赶紧喂给大模型。

让大模型把这些尘封已久的知识都“学会”。

一朝变化生，百端头绪出。

轮到大模型给“二合一”平台出难题了。

第一，数据类型多了。

数据不同，模态不同，多种数据，多个模态，大模型向多模态演进。

虽说一般的多模型大模型，训练图文音三种数据；但是，美国大模型这把领先之后，诸君都很激进。手里有好牌，就连续出王炸。

2023年5月9号，

美国厂商Meta大模型ImageBind以视觉为核心，结合文本、声音、深度、热量（红外辐射）、运动（惯性传感器），覆盖6个模态。

无独有偶。

2023年5月26日下午，

国产“紫东太初”2.0全模态大模型发布，特色为可实现文本、图片、语音、视频、3D点云、传感信号等不同模态。

行文至此，不得不感慨，同一个5月份，仅仅从9号到26号，多模态急管繁弦的节奏感了。

第二，计算引擎多了。

按照贾扬清的说法，从技术的角度来看，数据和AI计算是分开的。

数据用数据平台，AI用AI的平台。

今天，无论数据平台，还是 AI 平台，都没法用自己的经验解决对方的问题。因为数据平台和AI平台，背后的技术是截然不同的。

以前的大数据计算引擎主要是支持结构化数据的计算。

不同计算引擎的优化方向（数据新鲜度、查询性能、成本）不同，开发语言、计算语义、存储系统亦不同，组装难度极大。

而AI需要自己的引擎。

一个计算引擎不够，在大数据系统产品时代，就出现这个问题了；

一类计算引擎不够，在传统人工智能时代，也出现这个问题了。

这下好了，多个计算引擎。

看你的Data+AI架构怎么支撑？

大模型时代，Data+AI架构问题恶化，肉眼可见。

第三，大模型迭代太快。

时而以周为单位，时而以天为单位，大模型主打一个“表演型人格”，玩的就是“高速演进”。

这么多新东西，看得人瑟瑟发抖，学得人点灯熬油。

第四，大模型的计算负载只会增多，不会减少。

人们可能倾向于认同：

在可预见的将来，大模型带来的AI负载会占据主导地位。

所以，会为“增多的计算”做准备。

以前的情况是，传统AI负载占比少。

比如，5%，能把AI当做单独的组件来处理。

现在地位今非昔比，

大模型AI计算负载占比由10%增长到80%。

性质变了。

这是一个新家伙对旧事物施加压力，逼迫其做出改变的故事。

DataBricks内心OS是：

家人们，谁懂啊？

大数据平台架构复杂，Data+AI平台架构很复杂。

大模型来了，Data+AI平台架构更复杂。

而重中之重在于，这类平台的架构水平决定了技艺的高度。

怎么解决？

现在没有一步到位的成熟解决方案，

我们试图回顾一下平台架构的历史，寻找启发。

大数据，依然站在大模型的背后。其技术也有年头了。

2023年是大数据技术发展的第 23 个年头（从2001年谷歌开始构建大数据平台做搜索业务算起）。

纯做大数据系统的那套架构，弄起来也非常复杂。

要么，互联网大厂，以开源为基础自建；

台词：“干就完了。”

要么，用公共云平台架构，买 PaaS 服务；

台词：“有钱还得会花，选型很费事。”

要么，外包了事。

台词是：“有钱买服务。虽然对技术栈，技术选型不敏感，但这不妨碍他们对稳定性要求很高。”

从平台技术架构的角度来观察，更能揭示本质。

因为“二合一”平台架构大致分成两部分，计算，存储。

AI还在高速迭代，Data+AI架构的迭代速度没有那么快。

那么我们真的需要一个强大且可扩展的架构。

计算部分就不重要了吗？

并不是，而是计算可以搬迁，加GPU、加CPU没有那么难。

但是数据存储之后不好搬移，参考数据中心间的长传带宽的昂贵。

所以存储理应更受重视。

于是乎，Data+AI平台绕不过“老三样”：

数据湖，数据仓库，湖仓。

观察它们，本质上是从存储的视角观察Data+AI平台。

其实，它们都不能算纯粹的单一产品，而且都包含了“存储架构”。

因为通常来说，这种“二合一”平台包括多个组件。

不同的组件组合会带来多种系统架构形态，让事情非常难办。

而计算机系统软件架构本质上是耐用品，

能谓之“好”的架构核心在于：

它能持续很久。如果每隔半年，或者一年就冒出一个新架构来，

那这个架构可能有大病。

所以，其迭代的时间轴刻度可能很长。

可以观察到，一开始，江湖里就有两派势力并行发展。

一派，数据仓库，已经发展了 40 多年，主流的计算范式就是二维关系表达。

于是，十几年以来，数据仓库都是以关系型计算的架构为主。

所以，它的架构迭代时间轴刻度可能是十年。

另一派，数据湖。

大数据缘起于数据湖上（2006年），

而数据湖的解决方案诞生于领先的技术公司，谷歌和雅虎。

数据湖派先行者是谷歌文件系统（Google File System，GFS），生来就是数据湖架构。

谷歌文件系统的一个开源版Hadoop Distributed File System也是如此。

数据湖派的共同之处是都有一个标准数据湖架构，上面是计算引擎，底下有一套标准存储（是一个文件系统，放什么都行），里面有统一的元数据。

数据湖派的追随者颇多，Spark，Presto（Facebook开发的数据查询引擎），这些都是数据湖上的计算能力。

它们主打一个：存储与计算分离。

可用于灵活组合的内容很多，

比如存储系统、资源调度系统，

多种不同的计算引擎都可以灵活组合。

两个流派，两个车道，同时并举，发展都不错。

从花销来讲，无花销的开源偏向数据湖，有花销的企业级的付费服务偏向数据仓库。

大概再过一段时间，磨合出来一个新架构。

主要是大家突然发现，哎，这个在数据库上做数据分析不够高效，

涉及存储计算一体化联动这样的一些问题。

于是，大数据整体架构往数据仓库那个车道的方向里发展。

所以，像ClickHouse这些东西用了新架构，带着存储，不用分离式的架构，而用更一体化的架构来做里面的事情。

近几年，湖仓（一体）的发展刚刚起步，放在十年的时间刻度轴上观察，

也就往前发展了一小段路，湖仓还是相对较新的架构。

本质上，湖仓是把数据湖的开放性和灵活性，与数据仓库这种高效和管理的能力，结合在一起。

2022年第一季度，硅谷著名投资机构A16Z“Data50榜单”表明，Databricks公司所处细分赛道（查询和处理，Query & Processing）所获投资惊人，几乎占数据企业类赛道资金总量的50%。

尽管Databricks自己的高额融资占掉了很大一部分，但是细究原因，数据分析（查询处理）太慢会影响业务，这是一种关乎客户生死存亡的刚需。

也就是说，在大模型流行之前，AI负载占比不算多，很多企业把它当成一个相对独立的大组件。

大模型问世后，

客户企业会考虑数据库里这些成堆的数据，怎么能被AI消费掉。

而“二合一”平台公司的技术核心点转而成为：

能不能很好地支持AI负载。

此时AI，非彼时AI。

AI今非昔比，已是一等公民。

至少，AI跟数据分析，平起平坐。

所以，在湖仓一体的存储架构的发展大趋势里，AI相当于是往数据湖方向投了一票。

因为数据仓库处理的是结构化和半结构化的数据，但AI强调了这个非结构、半结构数据的处理能力。

因此，你可以理解成大模型在给湖仓一体架构压力，推动它向前走。

故事还在那家叫做Databricks的公司身上结束。

Databricks公司自掏腰包13 亿美元，收购人工智能初创公司 MosaicML。

MosaicML产品成为 Databricks Lakehouse AI组件里的一部分。

最近的“Data + AI Summit 2023（峰会）”上，能看到Databricks也在其大模型工具链上加码。

与此同时，“百模大战”中的大模型公司也飙发电举。

两边都想尽早争取客户。

错失，或者踏空，毕竟都不是好事情。

有的人总能迅速做出改变。

（完）

One More thing

不做标题党，再直接一点回答文章标题问题：

大模型问世后，在面向未来的数据平台选型中，会先淘汰仅面向结构化关系表达设计的传统数仓产品。

带货ing

《我看见了风暴》谭老师新书，京东有售

更多阅读

AI大模型与ChatGPT系列：

1. ChatGPT大火，如何成立一家AIGC公司，然后搞钱？

2. ChatGPT：绝不欺负文科生

3. ChatGPT触类旁通的学习能力如何而来？

4. 独家丨从大神Alex Smola与李沐离职AWS创业融资顺利，回看ChatGPT大模型时代“底层武器”演进

5. 独家丨前美团联合创始人王慧文“正在收购”国产AI框架OneFlow，光年之外欲添新大将

6. ChatGPT大模型用于刑侦破案只能是虚构故事吗？

7. 大模型“云上经济”之权力游戏

8. 云从科技从容大模型：大模型和AI平台什么关系？为什么造行业大模型？

9. 深聊第四范式陈雨强丨如何用AI大模型打开万亿规模传统软件市场？

10. 深聊京东科技何晓冬丨一场九年前的“出发”：奠基多模态，逐鹿大模型

11. 老店迎新客：向量数据库选型与押注中，没人告诉你的那些事

AI大模型与学术论文系列：

1.开源“模仿”ChatGPT，居然效果行？UC伯克利论文，劝退，还是前进？

2. 深聊王金桥丨紫东太初：造一个国产大模型，需用多少篇高质量论文？（二）

3. 深聊张家俊丨 “紫东太初”大模型背后有哪些值得细读的论文（一）

漫画系列

1. 是喜，还是悲？AI竟帮我们把Office破活干完了

2. AI算法是兄弟，AI运维不是兄弟吗？

3. 大数据的社交牛气症是怎么得的？

4. AI for Science这事，到底“科学不科学”？

5. 想帮数学家，AI算老几？

6. 给王心凌打Call的，原来是神奇的智能湖仓

7. 原来，知识图谱是“找关系”的摇钱树？

8. 为什么图计算能正面硬刚黑色产业薅羊毛？

9. AutoML：攒钱买个“调参侠机器人”？

10. AutoML：你爱吃的火锅底料，是机器人自动进货

11. 强化学习：人工智能下象棋，走一步，能看几步？

12. 时序数据库：好险，差一点没挤进工业制造的高端局

13. 主动学习：人工智能居然被PUA了？

14. 云计算Serverless：一支穿云箭，千军万马来相见

15. 数据中心网络：数据还有5纳秒抵达战场

16. 数据中心网络：迟到不可怕，可怕的是别人都没迟到

AI框架系列：

1.搞深度学习框架的那帮人，不是疯子，就是骗子（一）

2.搞AI框架那帮人丨燎原火，贾扬清（二）

3.搞 AI 框架那帮人（三）：狂热的 AlphaFold 和沉默的中国科学家

4.搞 AI 框架那帮人（四）：AI 框架前传，大数据系统往事

注：（三）和（四）仅收录于《我看见了风暴》。

大模型“搅局”，数据湖，数据仓库，湖仓选型会先淘汰谁？

猜你喜欢