《RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control》

对于在互联网规模数据上训练的视觉-语言模型，本文研究了如何将其直接融入到端到端的机器人控制中，以提高其泛化能力并实现新的语义推理能力。我们的目标是使一个单一的端到端训练的模型既能够学习将机器人的观察映射到动作，又能够享受在互联网的语言和视觉-语言数据上进行大规模预训练的好处。为此，我们提出了在机器人轨迹数据和互联网规模的视觉语言任务（例如：visual question answering）上联合微调最先进的视觉语言模型。与其他方法不同，本文提出了一种简单、通用的方法来实现这一目标：为了将自然语言响应和机器人动作整合到相同的格式中，本文将动作表示为 text tokens，并将它们直接纳入到模型的训练集中，，就像自然语言令牌（natural language tokens）一样。我们将这种模型称为 vision-language-action models（VLA），并实现了这样的模型，本文将其称之为RT-2。本文中大量评估（6k evaluation trials）表明，本文的方法引导了高性能的机器人策略（robotic policies）并使得RT-2从互联网规模的训练中获得了一系列新颖功能。其中包括极大提升了对陌生目标的泛化，对于机器人训练数据不存在命令的解释能力（例如：将目标放在特定的数字或图标上），以及响应用户命令时进行初步推理的功能（例如：捡起最小或最大的目标，或是最靠近某个物体的目标）。我们进一步证明，使用思维链推理可使得RT-2进行多阶段语义推理，例如：弄清楚要捡起哪个物体可用来当锤子（(a rock），或者哪种饮料类型最适合疲倦的人（an energy drink）。

1. 引言

在大型互联网规模数据集上预训练的大模型为各种下游任务提供了一个有效而强大的平台：大语言模型不仅能够实现流畅的文本生成（Anil et al., 2023_PaLM2; Brohan et al., 2022; OpenAI, 2023_RT-1），还能够实现emergent的问题求解（Cobbe et al.,2021; Lewkowycz et al.,2022_Verifiers_Solve_Math_Problems; Polu et al.,2022_Mathematics_Statement_Curriculum_Learning），和散文（Brown
et al., 2020_Language_Models_are_Few-Shot_Learners; OpenAI, 2023_GPT-4）和代码（Chen et al.,2021_Evaluating_Large_Language_Models_Trained_on_Code）的创造性生成；另一方面，视觉语言模型可以实现开放词汇表（open-vocabulary）的视觉识别（Kirillov et al.,2023_SAM; Minderer et al.,2022_Open-Vocabulary_Object_Detection; Radford et al.,2021_Learning_Transferable_Visual_Models_From_Natural_Language_Supervision）甚至能够对基于图像的物体-主体交互进行复杂的推理（Alayrac et al.,2022_Flamingo; Chen et al.,2023a_PaLI-X, b_PaLI; Driess et al.,2023_PaLM-E; Hao et al.,2022_Language_Models_are_General-Purpose_Interfaces; Huang et al.,2023_Aligning_Perception_with_Language_Models; Wang et al.,2022_GIT）。这些语义推理、问题求解和视觉解译能力对于必须在真实世界环境中执行各种任务的通用机器人来说是非常有用的。然而，机器人应该如何获得这样的能力还不清楚。尽管一种粗暴的方法可能是需要收集数百万次机器人交互试验，不过最有能力的语言和视觉语言模型是在来自网络的数十亿个令牌和图像上进行训练的，在短期内机器人的数据量是很难与之匹配。另一方面，直接将此类模型应用于机器人任务也并不容易：这些模型是基于语义、标签和 textual prompts 进行推理的，而机器人需要基于实际的底层动作，例如 Cartesian end-effector commands。尽管近期有一些工作试图将语言模型（LLM）和视觉语言模型（VLM）集成到机器人中（Ahn et al.,2022_Grounding_Language_in_Robotic_Affordances; Driess et al.,2023_PaLM-E; Vemprala et al.,2023_ChatGPT_for_Robotics），但这些方法通常只涉及机器人规划的“高层次（higher level）”方面，本质上是扮演一个状态机的角色，来解释命令并将它们解析为单个原语（如拾取和放置物体），然后由单独的低层级（low-level）控制器执行，而这些控制器在训练过程中并没有从互联网规模的模型在训练时丰富的语义知识中获益。因此，本文提出了一个问题：预训练的大型视觉语言模型是否可以直接集成到底层的机器人控制中，来以提高泛化能力并实现新颖（emergent）语义推理？
为此，本文探索了一种既简单又十分有效的方法：本文直接针对 open-vocabulary visual question answering 和 visual dialogue to output low-level robot actions 训练视觉语言模型（vision-language models），并同时训练其解决其它互联网规模的视觉-语言任务。

译者笔记

I. 作者在文中提出已有工作是“将任务转换为底层指令的状态机，无法利用VQA数据的知识”，那本文有解决这个问题吗？

Original

本文在论文中提到：

While a number of recent works have sought to incorporate language models (LLMs) and vision-language models (VLMs) into robotics (Ahn et al.,2022; Driess et al.,2023; Vemprala et al.,2023),such methods generally address only the“higher level”aspects of robotic planning,essentially taking the role of a state machine that interprets commands and parses them into individual primitives (such as picking and placing objects),which are then executed by separate low-level controllers that themselves do not benefit from the rich semantic knowledge of Internet-scale models during training.

Notes

论文是在引言的第二段中提出这个问题的，目的是为了阐明本文的研究动机和目标，即探索如何将大型预训练的视觉-语言模型直接整合到低级机器人控制中，以提高泛化能力并实现新颖的语义推理。

本文是通过以下几个步骤来解决这个问题的：

首先，本文提出了一种简单而有效的方法，即将机器人动作表示为文本标记，并将它们直接纳入模型的训练集中，与自然语言标记一样对待。这样，视觉-语言模型就可以直接训练成为指令跟随的机器人策略。本文将这类模型称为视觉-语言-动作（VLA）模型，并实例化了两个这样的模型，分别基于PaLM-E和PaLI-X，称为RT-2-PaLM-E和RT-2-PaLI-X。
其次，本文采用了联合微调（co-fine-tuning）的策略，即在机器人轨迹数据的基础上，同时使用互联网规模的视觉-语言任务数据（例如视觉问答）来微调预训练的视觉-语言模型。这样可以保持模型在训练过程中不忘记其之前在互联网数据上学习到的概念，并且可以在输出层共享语言和动作任务的模型权重。

在我们看来，RT-2实际上是一个多任务模型，在训练时针对两个任务进行训练，一个是机器人动作任务，一个是视觉-语言任务。这两个任务都是用文本标记来表示的，因此可以共享模型的输出层。这样可以使RT-2同时学习到如何将语言指令映射到机器人动作，以及如何利用互联网规模数据中的语义知识来进行推理。