Language Conditioned Spatial Relation Reasoning for 3D Object Grounding【NeurIPS 2022】


code: https://cshizhe.github.io/projects/vil3dref.html
author: 巴黎文理研究院


动机

在这里插入图片描述
为了在现实世界中执行人类指令,机器人应该理解自然语言,并能够在3D环境中ground上述物体。语言表达通常是描述物体在3D场景中的relative spatial relations来指定物体的。比如上图中的这两个例子,就要消除同一类目标中的歧义目标。

鉴于 spatial language 的重要性,许多方法长时间莫3DVG中的空间关系。早期大家使用GNN来建模关系,但是他们只能捕捉最近邻的关系。近年来,Transformer架构被广泛采用,因为它可以直接建模 pair object之间的关系。然而,使用Transformer来理解用自然语言表达的三维空间关系仍然是一个开放的研究问题。

这篇文章中,作者提出了一个视觉和语言的三维关系推理模型(ViL3DRel)来解决三维物体接地中的上述问题。具体有以下贡献:

猜你喜欢

转载自blog.csdn.net/DUDUDUTU/article/details/129979160