未来 AI 大模型的发展趋势

通用多模态大模型

语言文字是多模态大模型的核心

视频和图像是多模态大模型的信息关键

自从 ChatGPT发布以来，已经有很多的公司、机构在着手研究对标 ChatGPT 的通用大模型了。比如百度的文心一言，阿里巴巴的通义千问，华为的盘古大模型等等。其中的训练方式和采用的算法原理，目前看，也无非这本小册子讲述的而已。

在互联网科技巨头公司的竞争当中，从来没有任何一个领域，会有如此多的公司都投入资金和人才去参与竞争。毫无疑问，ChatGPT 开启了一个时代，那就是第四次产业革命—— AI 革命，AI 将深刻地改变未来社会的方方面面。

未来 AI 大模型的发展趋势

在第 2 节中，我充分论述了 GPT 系列模型的发展历史，实际上就是一部 AI 模拟人脑的历史。

人类接收语言文字信息，输出语言文字，应用了编解码方式，ChatGPT 也利用了编解码的方式；

人类的大脑神经元数量是所有生物中最多的，ChatGPT 应用了超千亿的大规模参数模型；

人类采用了对话的方式进行交流，ChatGPT 建模也采用了对话的方式；

人类的大脑具有多种多样的功能，ChatGPT 也融合了多任务，各种各样的NLP任务；

人类可以通过极少量的样例进行学习，ChatGPT 也可以完成小样本学习；

人类可以在与实际环境的交互中学习知识，塑造语言，ChatGPT 也添加了强化学习，模拟与人类的交互。

模拟人脑的工作模式不仅仅是对过去 ChatGPT 模型经验的总结，也可以用来预测未来 AI 的发展方向。

ChatGPT 远远不是人工智能的极限。我们可以动脑想想，相比人脑的结构、使用特点，ChatGPT 还不具备哪些能力？

通用多模态大模型

目前为止，ChatGPT 目前采用的数据模态依然是文字输入、文字输出的形式。

人作为这个地球上最高级的智能体，主要靠的是五官来感受周围的环境，从而产生了智能。五官主要包括视觉、听觉、嗅觉、味觉、触觉。人可以用眼睛看景色，用耳朵听声音，用手、皮肤感受外界的刺激，用鼻子闻气味。而眼睛和耳朵每天接收的信息量占到了一个人接收信息总量的 95%。这些统统都被称为不同的模态，不同模态信息的融合是目前 ChatGPT 不具备的能力。

为了快速实现多模态能力，Visual ChatGPT 就是将若干个图像模型组合起来，采用 ChatGPT 将它们融合在一起，完成用户的指令。

当然，它只是拼接若干个 AI 模型，而非一体化的多模态大模型。

在肉眼可见的未来，多模态已经不再是遥不可及，而是往前走就可以抵达的灯塔。目前，GPT4 已经实现了文字、图像输入、文字输出的建模形式，OpenAI 已经将 GPT4 的文字部分能力开放出来。

GPT4 完成的主要功能是依赖文字这个接口，对图像做理解、分析。

例如，我们可以指着如下一幅图像，询问 GPT4 模型：“图中描绘了什么事物？有哪些菜品？营养是否均衡？”

GPT4 生成文字回答：“图中是一份丰盛的早餐，包括鸡蛋、包子、蔬菜、胡萝卜、牛奶等，营养均衡。”

更进一步的，在未来还会有文字、图像、视频、音频作为输入，文字、图像、视频、音频作为输出的建模形式，是一个通用多模态大模型。

这样的建模方式，基本完成了对计算机视觉（Computer Vision）、自然语言处理（NLP）、语音处理（Speech Processing）领域的覆盖。人工智能不再区分这些分支领域，而是一个多种模态充分的融合。

语言文字是多模态大模型的核心

在这个多模态大模型中，文字是其中最关键的一环。文字是承接多种模态信息转换的中间桥梁和纽带。

人类传递信息、沟通信息最核心的方式就是文字和语言，它可以描述图像、描述声音，把各种不同的模态揉在一起。

当然不排除其它模态也可以传递信息，例如：

两个间谍利用眼神，无声地交流暗含的情报信息；

人们听到森林中的蝉鸣鸟叫、河水潺潺声，产生心旷神怡的感觉。

但是这些信息的传递效率都是非常低的，远远没有文字灵活、便捷。

因此，在多模态大模型中，其余的模态都是通过文字和语言来进行中转的。

视频和图像是多模态大模型的信息关键

图像是静态的，它在计算机中是以 RGB 矩阵形式表示的，图像处理已经被研究过很多。

而视频则是图像的连续动态的状态。人脑每一天，都在每时每刻通过眼睛，接收巨量的视频和图像数据，视频、图像的信息量占据了人每一天接收信息的 80%。因此，视频模态的信息接入是通用多模态大模型的信息关键。

视频模态的研发也具有一定的挑战，视频存储、处理形式，对于神经网络模型来说，还需要进一步研究。

触觉、嗅觉多模态仍难以完成

在上图中，并未画出触觉、嗅觉信息。因为这两种模态有一些困难点：

1、数据采集困难：一般来说，采集视频数据可以用摄像头，采集静态图像可以用照相机，话筒可以采集音频，相反，很少有什么电子设备可以采集触觉和嗅觉信息。

2、计算机存储困难：视频、图像、音频、文字，都可以方便地存储在计算机中，而触觉、嗅觉数据很难存储，我们从来没听说过，不同的气味，不同材质的触感、压强、温度怎么统一地制定一套标准，存储在硬盘里。

因此，通用多模态大模型，在短期内不可能接入触觉、嗅觉这两种信息模态。

机器人、具身智能

人的智能最核心地体现在大脑中，而人的五官重点在于采集多种模态数据供大脑处理。进一步地，就需要根据这些智能处理得到的信息，做一些行为和动作。因此，机器人和具身智能，就是未来发展的一个明确趋势。它的重点在于能够依赖通用多模态大模型给出的智能信息，完成指定的功能和任务。机器人的发展方向主要有两个：人形机器人和工业机器人。

机器人通常是指一种能够自主执行某些任务的机械设备，其可以与环境进行交互，并且可以通过程序或遥控器来控制。机器人通常包括传感器、执行器和计算机控制系统等组件。

具身智能则是指拥有类似于人类的身体感觉、运动控制和学习能力的智能系统。它们可以通过感知自己的身体来理解周围的环境，并且可以通过行为交互来学习和改进自己的技能。具身智能系统可以是软件或硬件实现的，可以模拟人类或动物的智能行为。

人形机器人依然是拟人的，它有灵活的手指，类似人类的身体结构和运动机理。在未来，可以处理复杂、精细的针线活，还可以做饭等等。

工业机器人，即机器并不一定非得模拟人的形体构造，它可能就是一部可以完成各种物体 3D 打印的机器人，体型有可能大过两层楼。很多工厂中的流水线，其实也具备相当的自动化，可以看作是一种智能。

机器人发展的挑战

机器人行业发展，面临着诸多挑战，比如材料学、自动控制等等。单纯从人工智能角度来讲，机器人目前面临如下几个挑战：

大模型的算力与机器人的实时性需求难契合：想要一个具备高度智能的模型，其规模必然比较大，而大模型意味着其计算复杂度、耗时都比较长。比如，OpenAI 最初发布的的 ChatGPT 模型生成一条回答需要 5~20 秒钟，最近，官方优化到 1~5 秒。这对于一个需要实时控制机器人操作的智能来说还是太慢了。在未来，若将视频、图像等模态数据也接入大模型，其需求的算力将会更大，计算耗时的现象将更加严重。

这种实时性问题也存在于自动驾驶领域。一个高级的智能模型，对行进中的车辆进行决策判断，模型决策踩油门、或刹车、转向等操作，假设需要耗费2秒钟，等到决策传动到刹车和油门上，车辆已经在 2秒以后撞上了前方的行人。这是万万不可取的。

数据通信限制：目前，视频的存储和压缩主要采用 H264 编码格式，在未来将会有 H265 和 H266 格式。多模态大模型在处理这些问题上，势必要与具体的采集设备进行通信，在传输视频上，若仅采用传统的4G，或存在大规模传输时的瓶颈，或许，在未来，5G 会有广泛的应用。

第四次工业革命（AI革命）

第一次工业革命：以蒸汽机的发明为标志，它主要涉及到纺织业的机械化、煤炭和铁路的发展、机器工具的发明、化学工业的兴起。开启了机器替代人力的进程，大大提高了生产力。
第二次工业革命：以电力的发现和运用为标志，它主要涉及到电力和电气工业的发展、石油化工的兴起、钢铁工业的改进、交通运输的革新等方面。电力大大提升了机器水平。
第三次工业革命：以计算机的发明为标志，它主要涉及计算机、通信技术、互联网技术的兴起。开启了全世界互联互通的时代。

从技术迭代到产业革命

人工智能技术发展了几十年，至 ChatGPT，正式标志着 AI 推开了产业革命的大门。前几次工业革命主要是以机器替代了人的重复性、简单性劳动，使人能够快速获取外界信息。

而第四次工业革命，则是由 AI 替代人的脑力劳动，现实就是，目前 ChatGPT 已经可以运用在大量的实际工作中，比如网上客服问题机器人咨询，替代搜索引擎，外语翻译，新闻文档写作，文书报告写作，外语家教助手等等方面。

在未来，多模态模型发展成熟之后，很多涉及分析类的问题都将被替代，比如，各种场景下的巡查监察、医生问诊等等，凡是涉及脑力劳动的地方，都将有可能被替代。

那么，医生、律师、程序员这些职业可以被 AI 完全替代吗？

个人认为不可能，AI 作为智能助手，确实可以大大提高这些职业的工作效率，减少一些岗位的需求。但是，每一种职业，本质上都是与人的沟通交互，人是最终的承载载体，职业本身是社会化的，而非机械化的。因此，AI 不可能100%替代掉这些职业。

此外，如果在未来机器人行业能够取得类似于 ChatGPT 的突破，机器人能够完成多种多样人类交付的指令。那么，第四次工业革命将进入一个全新的阶段。机器不再仅仅能够替代人的重复性、简单性劳动，而是能够替代人的复杂灵活的劳动。

例如，服装生产线上，需要人工定制化生产线，从而制作不同款式、不同材质的衣服。在未来，则是由人通过自然语言，直接控制机器生产指定样式的服装，不再需要人工去操作生产线机器。

当然，机器人革命目前看，挑战还非常大，要走的路还很长很长。

从产业革命到新的社会生产关系

随着 AI 技术的发展，社会的生产关系也将发生改变，AI 的引入将对人类社会的生存法则、伦理、道德提出挑战。

AI 不仅仅是 ChatGPT，还包括图像生成，音频等领域。假设我们利用 AI 完成了工作，工作中出现了问题，造成了经济损失，这个责任算谁的？是 AI 模型的制作者？还是 AI 的使用者？抑或，无人承担这份损失和责任？

这种社会运行规则，目前还没有眉目。很多互联网平台都严禁使用 AI 生成内容，也是基于此原因，即 AI 有可能带来不好的后果，但是这个后果，无人承担。

目前的 AI 不具有推理能力，那万一未来的 AI 具备了人的能力，该是怎样的图景？AI 具备了人的情感，逻辑，道德。那么，我们可以把 AI 看作一个人吗？它和人类享有相同的社会地位吗？

总结

在未来，多模态通用大模型将触手可及。机器人和具身智能则是下一个需要攻克的难题。
AI 革命将会重新洗牌人类社会的生产力和生产方式。

结束语

即便作为 AI 算法行业从业者，也很早就了解 GPT 系列模型的原理，但在我第一次试用 ChatGPT 时，感受依然十分震撼。AI 技术已经取得了可观的突破，正在向着产业领域铺展开。毫无疑问，ChatGPT 要掀起一次人类历史上的产业革命巨浪。

这股科技巨浪首先波及从业者，进而影响到全社会的各个行业、各个角落。伴随着产业革命，一定会带来大量的机遇。了解 ChatGPT 的技术原理，很大程度上，可以帮助大家快速掌握清楚模型的边界和效用，进而把握机遇。

然而 ChatGPT 仅仅是掀开 AI 革命的一个序章，未来还会有更多的先进、优质的模型公布于世。希望读到本书的读者们，都能乘风破浪，在一个新时代中发掘新的价值。

ChatGPT 吹响了第四次产业革命（AI 革命）的号角

未来 AI 大模型的发展趋势

通用多模态大模型

语言文字是多模态大模型的核心

视频和图像是多模态大模型的信息关键

触觉、嗅觉多模态仍难以完成

机器人、具身智能

机器人发展的挑战

第四次工业革命（AI革命）

从技术迭代到产业革命

从产业革命到新的社会生产关系

总结

结束语

猜你喜欢