VoxPose：零样本训练机器人听你的话

VoxPoser是一种从大型语言模型（LLMs）中提取机器人操纵的可供性和约束的方法，它不需要额外的训练，并且可以泛化到开放集的指令。
地址：VoxPoser
VoxPose：零样本训练机器人听你的话
它利用LLMs的编码能力，与视觉语言模型（VLMs）交互，生成3D值地图，将知识映射到机器人的观察空间。这些值地图可以用于运动规划框架，实现零样本合成闭环机器人轨迹。VoxPoser可以处理多种日常操纵任务，如打开抽屉、拿出面包、测量苹果重量等，只需给出自然语言指令和环境的RGB-D观察。

VoxPoser使用了GPT-3作为大型语言模型，它是一个基于Transformer的自回归模型，可以生成自然语言文本。VoxPoser还使用了CLIP作为视觉语言模型，它是一个基于对比学习的模型，可以将图像和文本映射到同一个语义空间。VoxPoser的主要思想是利用GPT-3的编码能力，生成一段代码，这段代码可以与VLM交互，从而生成一系列3D值地图，反映出给定语言指令的可供性和约束。这些值地图可以用于运动规划框架，实现零样本合成闭环机器人轨迹。具体来说，VoxPoser首先将语言指令作为输入，传递给GPT-3，然后GPT-3根据指令生成一段Python代码，这段代码可以调用VLM的API，从而将图像和文本映射到同一个语义空间。这样，GPT-3就可以利用VLM的视觉理解能力，生成与环境中的物体相关的值地图。

例如，如果指令是“打开抽屉”，那么GPT-3就会生成一段代码，这段代码会调用VLM的API，找到环境中最可能是抽屉的物体，并给它一个高的值，同时给其他物体一个低的值或者一个负的值（表示约束）。这样就形成了一个3D值地图，反映了指令的意图。

VoxPoser是一个创新的方法，它利用了大型语言模型和视觉语言模型的强大能力，实现了机器人操纵任务的零样本学习。它不需要任何额外的训练或者预定义的运动原语，只需要自然语言指令和环境观察。它还可以通过在线学习提高对接触丰富交互场景的动力学建模能力。VoxPoser在模拟和真实机器人环境中展示了在超过30种日常操纵任务上的优异表现，并且具有对动态干扰的鲁棒性。

VoxPose：零样本训练机器人听你的话

猜你喜欢