走向CV的通用人工智能:从GPT和大型语言模型中汲取的经验教训 (上)

作者:计算机视觉研究院

编辑:3D视觉开发者社区

导读

论文地址:https://arxiv.org/pdf/2306.08641.pdf

人工智能界一直在追求被称为通用人工智能(AGI)的算法,这些算法适用于任何类型的现实世界问题。

总  述

最近,由大型语言模型(LLM)提供支持的聊天系统出现了,并迅速成为在自然语言处理(NLP)中实现AGI的一个有前途的方向,但在计算机视觉(CV)中实现AGI的道路仍不清楚。人们可能会将这种困境归因于视觉信号比语言信号更复杂,但我们有兴趣找到具体的原因,并从GPT和LLM中吸取经验来解决这个问题。

在今天分享中,从AGI的概念定义开始,简要回顾了NLP如何通过聊天系统解决广泛的任务。该分析启发我们,统一是CV的下一个重要目标。但是,尽管在这个方向上做出了各种努力,CV仍然远远不是一个像GPT这样自然集成所有任务的系统。我们指出,CV的本质弱点在于缺乏从环境中学习的范式,而NLP已经完成了文本世界中的任务。然后,我们想象一个管道,将CV算法放在世界范围的可交互环境中,对其进行预训练,以预测其动作的未来帧,然后用指令对其进行微调,以完成各种任务。我们希望通过大量的研究和工程努力来推动这一想法并扩大其规模,为此我们分享了我们对未来研究方向的看法。

背景

世界正在见证一场迈向通用人工智能(AGI)的史诗之旅,我们按照惯例将AGI定义为一种可以复制人类或其他动物所能完成的任何智力任务的计算机算法。具体来说,在自然语言处理(NLP)中,计算机算法已经发展到可以通过与人类聊天解决广泛任务的程度。一些研究人员认为,这些系统可以被视为AGI的早期火花。这些系统大多建立在大型语言模型(LLM)之上,并通过指令调优进行了增强。它们配备了外部知识库和专门设计的模块,可以完成解决数学问题、生成可视化内容等复杂任务,体现了其理解用户意图和执行初步思想链的强大能力。尽管在某些方面存在已知的弱点(例如,讲述科学事实和被点名的人之间的关系),但这些开创性的研究已经显示出一种明显的趋势,即将NLP中的大多数任务统一为一个系统,这反映了对AGI的追求。

与NLP中统一的快速进展相比,计算机视觉社区还远远不是统一所有任务的目标。常规的CV任务,如视觉识别、跟踪、生成等,大多使用不同的网络架构/或专门设计的通道进行处理。研究人员期待着像GPT这样的系统,它可以通过统一的提示机制处理广泛的CV任务,但在实现单个任务的良好实践和在广泛的任务中推广之间存在权衡。例如,为了报告目标检测和语义分割中的高识别精度,最好的策略是在用于图像分类的强大主干上设计特定的头部模块,并且这种设计通常不会转移到其他问题。

因此,出现了两个问题:(1)为什么CV的统一如此困难?(2) 为了实现这一目标,可以从GPT和LLM中学到什么?

为了回答这些问题,重新审视GPT,并将其理解为在文本世界中建立一个环境,并允许算法从交互中学习。CV研究缺乏这样的环境。因此,算法无法模拟世界,因此它们对世界进行采样,并学会在所谓的代理任务中获得良好的性能。在经历了史诗般的十年深度学习之后,代理任务不再有意义地表明CV算法的能力;越来越明显的是,继续追求对它们的高精度可以使我们远离AGI。

通用人工智能

人工智能是一场用机器或一套数学算法复制人类智能的持久战。现代人工智能于1956年在Dartmouth研讨会上正式提出,社区为此开发了大量方法。实现人工智能至少有两种不同的途径:(i)符号人工智能,它试图将世界形成一个符号系统,并使用逻辑算法对其进行推理;(ii)统计人工智能,它试图建立一个数学函数来表述输入和输出之间的关系,但该函数可能是近似的,甚至是无法解释的。在过去的十年里,第二条道路占据了主导地位,特别是深度学习理论,这是连接主义方法思想的一部分。

简而言之,AGI就是学习一个广义函数a=π(s)。尽管形式很简单,但老式的人工智能算法很难使用相同的方法、算法甚至模型来处理所有这些问题。在过去的十年里,深度学习提供了一种有效而统一的方法:人们可以训练深度神经网络来近似函数a=π(s),而不知道它们之间的实际关系。强大的神经网络架构(如transformer)的出现甚至使研究人员能够为不同的数据模式训练一个模型。

版权声明:本文仅做学术分享,版权归原作者所有,若涉及侵权内容请联系删文。

3D视觉开发者社区是由奥比中光给所有开发者打造的分享与交流平台,旨在将3D视觉技术开放给开发者。平台为开发者提供3D视觉领域免费课程、奥比中光独家资源与专业技术支持。

加入【3D视觉开发者社区】学习行业前沿知识,赋能开发者技能提升! 加入【3D视觉AI开放平台】体验AI算法能力,助力开发者视觉算法落地!

往期 · 推荐

1、奥比中光&英伟达第三届3D视觉创新应用竞赛圆满落幕!
2、 速来!2023第三届3D视觉创新应用竞赛决赛即将开启!
3、DeepMIM:MIM中引入深度监督方法​
4、SPM: 一种即插即用的形状先验模块!

猜你喜欢

转载自blog.csdn.net/limingmin2020/article/details/131331275
今日推荐