谷歌发布史上最大「机器人、视觉和语言“通才”」模型PaLM-E 562B

2021年，谷歌曾发表一篇文章，阐述了一种名为 Pathways 的下一代 AI 架构。通过 Pathways 架构，只需训练一个 AI 模型就可以处理上千万种不同的任务。

2022年4月，谷歌发布了一个基于 Pathways 架构的、拥有 5400亿参数的Transformer语言模型，并将之命名为 PaLM，即 Pathways Language Model。

那么，PaLM表现如何？
传送门：谷歌PaLM教AI懂幽默…
当时，在标准任务上，PaLM几乎在所有情况下都比以前的大型机型做得更好。而在高难度的任务上，PaLM实现了突破性的能力。因得益于“思维提示链”策略，在有关推理能力的测评中，PaLM 尤其是在处理算术和常识推理的任务中展现出了令人难以置信的性能。在有关解释生成的测评中，PaLM 向我们证明了它的卓越能力，甚至成功地解释了一些笑话。

2023年3月6日，Robotics at Google、柏林工业大学和 Google Research 团队提出了一个具身多模态语言模型 PaLM-E，通过 PaLM-540B 语言模型与 ViT-22B 视觉Transformer模型相结合，足足有5620亿参数，可以称之为「史上最大视觉语言模型（VLM）」，无需特殊训练就可执行各种任务。PaLM-E 不仅可以理解图像，还能理解、生成语言，而且竟然还能将两者结合起来，处理复杂的机器人指令。

相关研究论文以“PaLM-E: An Embodied Multimodal Language Model”为题，已发表在预印本网站 arXiv 上。

在这里插入图片描述

论文：PaLM-E: An Embodied Multimodal Language Model
机构：Robotics at Google，柏林工业大学，Google Research
作者：Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, et al
论文地址：https://arxiv.org/abs/2303.03378
GitHub地址：https://palm-e.github.io/

据论文描述，PaLM-E 是一个 decoder-only 的 LLM，在给定前缀（prefix）或提示（prompt）的情况下，以自回归方式生成文本补全，其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。

PaLM-E 可以在多样化的实施方案中解决各种具身推理任务，且能够进行跨互联网规模的语言、视觉和视觉-语言域的多样化联合训练。

机器人、视觉-语言领域的「通才」模型

PaLM-E，全称Pathways Language Model with Embodied，是一种具身视觉语言模型。被称为“PaLM- E”，因为它基于谷歌现有的称为“PaLM”的大型语言模型（LLM）。谷歌通过添加感官信息和机器人控制，使PaLM“具体化”。

由于PaLM-E基于语言模型，它采用连续的观测数据，如图像或传感器数据，并将它们编码为与语言标记大小相同的向量序列。这使得模型能够以处理语言的方式“理解”感官信息。

在这里插入图片描述

实验展示：人机交互

在项目的demo中，研究团队展示了 PaLM-E 如何在两个不同的现实具身上规划和执行长跨度任务，如“把抽屉里的米片拿给我”，“给我拿一颗绿星”等。

当发出一个高级命令，比如“把抽屉里的玉米片拿给我”时，PaLM-E 可以为一个带有手臂的移动机器人平台生成行动计划（由Google Robotics开发），并自行执行这些行动。
在这里插入图片描述

图注：发出一个高级命令：“把抽屉里的玉米片拿给我”
demo 1

PaLM-E 562B demo 1

图注：发出一个高级命令：“给我拿一颗绿星”

PaLM-E 也可以根据视觉和语言输入完成一项多阶段的规划，如控制桌面机器人将黄色六边形移到绿色星星上、把绿色块推到乌龟旁边、把红色块推到咖啡杯处。
demo 2

实验展示：视觉-语言生成

在这里插入图片描述

除了释放机器人规划的新能力外，PaLM-E 也是一个视觉-语言模型，可以将一个或多个图像作为提示，从而生成描述性文字。

在这里插入图片描述

图注：问：左边的球员在他的职业生涯中共赢得了多少枚总冠军戒指？请逐步地思考。答：1.左边的（球员）是科比-布莱恩特。2.科比-布莱恩特已经赢得了 5 枚总冠军戒指。（来源：GitHub）

在零样本推理方面，PaLM-E 可以在给定图像的情况下讲述笑话，并展示了包括感知，基于视觉的对话和计划在内的能力。

在这里插入图片描述

PaLM-E是一个通用的、迁移学习的、多具身决策代理

除了机器人技术，因为使用大型语言模型作为PaLM-E的核心，它表现出“正迁移”。这意味着它可以将从一项任务中学到的知识和技能转移到另一项任务中，与单任务机器人模型相比，它的“性能显著提高”。
在这里插入图片描述

其次，研究者还观察到一个模型规模的趋势：“语言模型越大，在进行视觉语言和机器人任务训练时，它就越能保持语言能力–从数量上讲，562B PaLM-E 模型几乎保留了所有的语言能力。”

在这里插入图片描述

PaLM-E是迄今为止报道的最大的VLM，它还表现出诸多新的能力，如多模态思维链推理（CoT），少样本提示和多图像推理。尽管只在单个图像进行训练，但PaLM-E在OK-VQA基准上取得了新的SOTA。

在这里插入图片描述

该研究证明，通过将具身数据混合到多模态大型语言模型的训练中，可以训练出一个通用的、迁移学习的、多具身决策代理。随着深度学习模型随时间的推移变得越来越复杂，PaLM-E应该会有更惊人的表现。

欢迎各位关注我的个人公众号：HsuDan，我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。