ChatGPT 吹响了第四次产业革命(AI 革命)的号角

目录

未来 AI 大模型的发展趋势

通用多模态大模型

语言文字是多模态大模型的核心

视频和图像是多模态大模型的信息关键

触觉、嗅觉多模态仍难以完成

机器人、具身智能

机器人发展的挑战

第四次工业革命(AI革命)

从技术迭代到产业革命

从产业革命到新的社会生产关系

总结

结束语


自从 ChatGPT发布以来,已经有很多的公司、机构在着手研究对标 ChatGPT 的通用大模型了。比如百度的文心一言,阿里巴巴的通义千问,华为的盘古大模型等等。其中的训练方式和采用的算法原理,目前看,也无非这本小册子讲述的而已。

在互联网科技巨头公司的竞争当中,从来没有任何一个领域,会有如此多的公司都投入资金和人才去参与竞争。毫无疑问,ChatGPT 开启了一个时代,那就是第四次产业革命—— AI 革命,AI 将深刻地改变未来社会的方方面面。

未来 AI 大模型的发展趋势

在第 2 节中,我充分论述了 GPT 系列模型的发展历史,实际上就是一部 AI 模拟人脑的历史。

  • 人类接收语言文字信息,输出语言文字,应用了编解码方式,ChatGPT 也利用了编解码的方式;
  • 人类的大脑神经元数量是所有生物中最多的,ChatGPT 应用了超千亿的大规模参数模型;
  • 人类采用了对话的方式进行交流,ChatGPT 建模也采用了对话的方式;
  • 人类的大脑具有多种多样的功能,ChatGPT 也融合了多任务,各种各样的NLP任务;
  • 人类可以通过极少量的样例进行学习,ChatGPT 也可以完成小样本学习
  • 人类可以在与实际环境的交互中学习知识,塑造语言,ChatGPT 也添加了强化学习,模拟与人类的交互。

模拟人脑的工作模式不仅仅是对过去 ChatGPT 模型经验的总结,也可以用来预测未来 AI 的发展方向。

ChatGPT 远远不是人工智能的极限。我们可以动脑想想,相比人脑的结构、使用特点,ChatGPT 还不具备哪些能力?

通用多模态大模型

目前为止,ChatGPT 目前采用的数据模态依然是文字输入、文字输出的形式。

人作为这个地球上最高级的智能体,主要靠的是五官来感受周围的环境,从而产生了智能。五官主要包括视觉、听觉、嗅觉、味觉、触觉。人可以用眼睛看景色,用耳朵听声音,用手、皮肤感受外界的刺激,用鼻子闻气味。而眼睛和耳朵每天接收的信息量占到了一个人接收信息总量的 95%。这些统统都被称为不同的模态,不同模态信息的融合是目前 ChatGPT 不具备的能力。

为了快速实现多模态能力,Visual ChatGPT 就是将若干个图像模型组合起来,采用 ChatGPT 将它们融合在一起,完成用户的指令。

当然,它只是拼接若干个 AI 模型,而非一体化的多模态大模型。

在肉眼可见的未来,多模态已经不再是遥不可及,而是往前走就可以抵达的灯塔。目前,GPT4 已经实现了文字、图像输入、文字输出的建模形式,OpenAI 已经将 GPT4 的文字部分能力开放出来。

GPT4 完成的主要功能是依赖文字这个接口,对图像做理解、分析。

例如,我们可以指着如下一幅图像,询问 GPT4 模型:“图中描绘了什么事物?有哪些菜品?营养是否均衡?”

GPT4 生成文字回答:“图中是一份丰盛的早餐,包括鸡蛋、包子、蔬菜、胡萝卜、牛奶等,营养均衡。”

更进一步的,在未来还会有文字、图像、视频、音频作为输入,文字、图像、视频、音频作为输出的建模形式,是一个通用多模态大模型

这样的建模方式,基本完成了对计算机视觉(Computer Vision)、自然语言处理(NLP)、语音处理(Speech Processing)领域的覆盖。人工智能不再区分这些分支领域,而是一个多种模态充分的融合。

语言文字是多模态大模型的核心

在这个多模态大模型中,文字是其中最关键的一环。文字是承接多种模态信息转换的中间桥梁和纽带。

人类传递信息、沟通信息最核心的方式就是文字语言,它可以描述图像、描述声音,把各种不同的模态揉在一起。

当然不排除其它模态也可以传递信息,例如:

  • 两个间谍利用眼神,无声地交流暗含的情报信息;
  • 人们听到森林中的蝉鸣鸟叫、河水潺潺声,产生心旷神怡的感觉。

但是这些信息的传递效率都是非常低的,远远没有文字灵活、便捷。

因此,在多模态大模型中,其余的模态都是通过文字和语言来进行中转的。

视频和图像是多模态大模型的信息关键

图像是静态的,它在计算机中是以 RGB 矩阵形式表示的,图像处理已经被研究过很多。

而视频则是图像的连续动态的状态。人脑每一天,都在每时每刻通过眼睛,接收巨量的视频和图像数据,视频、图像的信息量占据了人每一天接收信息的 80%。因此,视频模态的信息接入是通用多模态大模型的信息关键。

视频模态的研发也具有一定的挑战,视频存储、处理形式,对于神经网络模型来说,还需要进一步研究。

触觉、嗅觉多模态仍难以完成

在上图中,并未画出触觉、嗅觉信息。因为这两种模态有一些困难点:

1、数据采集困难:一般来说,采集视频数据可以用摄像头,采集静态图像可以用照相机话筒可以采集音频,相反,很少有什么电子设备可以采集触觉和嗅觉信息。

2、计算机存储困难:视频、图像、音频、文字,都可以方便地存储在计算机中,而触觉、嗅觉数据很难存储,我们从来没听说过,不同的气味,不同材质的触感、压强、温度怎么统一地制定一套标准,存储在硬盘里。

因此,通用多模态大模型,在短期内不可能接入触觉、嗅觉这两种信息模态。

机器人、具身智能

人的智能最核心地体现在大脑中,而人的五官重点在于采集多种模态数据供大脑处理。进一步地,就需要根据这些智能处理得到的信息,做一些行为和动作。因此,机器人和具身智能,就是未来发展的一个明确趋势。它的重点在于能够依赖通用多模态大模型给出的智能信息,完成指定的功能和任务。机器人的发展方向主要有两个:人形机器人和工业机器人。

机器人通常是指一种能够自主执行某些任务的机械设备,其可以与环境进行交互,并且可以通过程序或遥控器来控制。机器人通常包括传感器、执行器和计算机控制系统等组件。

具身智能则是指拥有类似于人类的身体感觉、运动控制和学习能力的智能系统。它们可以通过感知自己的身体来理解周围的环境,并且可以通过行为交互来学习和改进自己的技能。具身智能系统可以是软件或硬件实现的,可以模拟人类或动物的智能行为。

人形机器人依然是拟人的,它有灵活的手指,类似人类的身体结构和运动机理。在未来,可以处理复杂、精细的针线活,还可以做饭等等。

工业机器人,即机器并不一定非得模拟人的形体构造,它可能就是一部可以完成各种物体 3D 打印的机器人,体型有可能大过两层楼。很多工厂中的流水线,其实也具备相当的自动化,可以看作是一种智能。

机器人发展的挑战

机器人行业发展,面临着诸多挑战,比如材料学、自动控制等等。单纯从人工智能角度来讲,机器人目前面临如下几个挑战:

  • 大模型的算力与机器人的实时性需求难契合:想要一个具备高度智能的模型,其规模必然比较大,而大模型意味着其计算复杂度、耗时都比较长。比如,OpenAI 最初发布的的 ChatGPT 模型生成一条回答需要 5~20 秒钟,最近,官方优化到 1~5 秒。这对于一个需要实时控制机器人操作的智能来说还是太慢了。在未来,若将视频、图像等模态数据也接入大模型,其需求的算力将会更大,计算耗时的现象将更加严重。

这种实时性问题也存在于自动驾驶领域。一个高级的智能模型,对行进中的车辆进行决策判断,模型决策踩油门、或刹车、转向等操作,假设需要耗费2秒钟,等到决策传动到刹车和油门上,车辆已经在 2秒以后撞上了前方的行人。这是万万不可取的。

  • 数据通信限制:目前,视频的存储和压缩主要采用 H264 编码格式,在未来将会有 H265 和 H266 格式。多模态大模型在处理这些问题上,势必要与具体的采集设备进行通信,在传输视频上,若仅采用传统的4G,或存在大规模传输时的瓶颈,或许,在未来,5G 会有广泛的应用。

第四次工业革命(AI革命)

  • 第一次工业革命:以蒸汽机的发明为标志,它主要涉及到纺织业的机械化、煤炭和铁路的发展、机器工具的发明、化学工业的兴起。开启了机器替代人力的进程,大大提高了生产力。

  • 第二次工业革命:以电力的发现和运用为标志,它主要涉及到电力和电气工业的发展、石油化工的兴起、钢铁工业的改进、交通运输的革新等方面。电力大大提升了机器水平。

  • 第三次工业革命:以计算机的发明为标志,它主要涉及计算机、通信技术、互联网技术的兴起。开启了全世界互联互通的时代。

从技术迭代到产业革命

人工智能技术发展了几十年,至 ChatGPT,正式标志着 AI 推开了产业革命的大门。前几次工业革命主要是以机器替代了人的重复性、简单性劳动,使人能够快速获取外界信息。

而第四次工业革命,则是 AI 替代人的脑力劳动,现实就是,目前 ChatGPT 已经可以运用在大量的实际工作中,比如网上客服问题机器人咨询,替代搜索引擎,外语翻译,新闻文档写作,文书报告写作,外语家教助手等等方面。

在未来,多模态模型发展成熟之后,很多涉及分析类的问题都将被替代,比如,各种场景下的巡查监察、医生问诊等等,凡是涉及脑力劳动的地方,都将有可能被替代。

那么,医生、律师、程序员这些职业可以被 AI 完全替代吗?

个人认为不可能,AI 作为智能助手,确实可以大大提高这些职业的工作效率,减少一些岗位的需求。但是,每一种职业,本质上都是与人的沟通交互,人是最终的承载载体,职业本身是社会化的,而非机械化的。因此,AI 不可能100%替代掉这些职业。

此外,如果在未来机器人行业能够取得类似于 ChatGPT 的突破,机器人能够完成多种多样人类交付的指令。那么,第四次工业革命将进入一个全新的阶段。机器不再仅仅能够替代人的重复性、简单性劳动,而是能够替代人的复杂灵活的劳动。

例如,服装生产线上,需要人工定制化生产线,从而制作不同款式、不同材质的衣服。在未来,则是由人通过自然语言,直接控制机器生产指定样式的服装,不再需要人工去操作生产线机器。

当然,机器人革命目前看,挑战还非常大,要走的路还很长很长。

从产业革命到新的社会生产关系

随着 AI 技术的发展,社会的生产关系也将发生改变,AI 的引入将对人类社会的生存法则、伦理、道德提出挑战。

AI 不仅仅是 ChatGPT,还包括图像生成,音频等领域。假设我们利用 AI 完成了工作,工作中出现了问题,造成了经济损失,这个责任算谁的?是 AI 模型的制作者?还是 AI 的使用者?抑或,无人承担这份损失和责任?

这种社会运行规则,目前还没有眉目。很多互联网平台都严禁使用 AI 生成内容,也是基于此原因,即 AI 有可能带来不好的后果,但是这个后果,无人承担。

目前的 AI 不具有推理能力,那万一未来的 AI 具备了人的能力,该是怎样的图景?AI 具备了人的情感,逻辑,道德。那么,我们可以把 AI 看作一个人吗?它和人类享有相同的社会地位吗?

总结

  • 在未来,多模态通用大模型将触手可及。机器人和具身智能则是下一个需要攻克的难题。

  • AI 革命将会重新洗牌人类社会的生产力和生产方式。

结束语

即便作为 AI 算法行业从业者,也很早就了解 GPT 系列模型的原理,但在我第一次试用 ChatGPT 时,感受依然十分震撼。AI 技术已经取得了可观的突破,正在向着产业领域铺展开。毫无疑问,ChatGPT 要掀起一次人类历史上的产业革命巨浪。

这股科技巨浪首先波及从业者,进而影响到全社会的各个行业、各个角落。伴随着产业革命,一定会带来大量的机遇。了解 ChatGPT 的技术原理,很大程度上,可以帮助大家快速掌握清楚模型的边界和效用,进而把握机遇。

然而 ChatGPT 仅仅是掀开 AI 革命的一个序章,未来还会有更多的先进、优质的模型公布于世。希望读到本书的读者们,都能乘风破浪,在一个新时代中发掘新的价值。

猜你喜欢

转载自blog.csdn.net/m0_68036862/article/details/131198809