Language Conditioned Spatial Relation Reasoning for 3D Object Grounding【NeurIPS 2022】

企业开发 2023-04-08 16:36:18 阅读次数: 0

文章目录

动机
方法
实验
启发
参考文献

code： https://cshizhe.github.io/projects/vil3dref.html
author： 巴黎文理研究院

动机

在这里插入图片描述
为了在现实世界中执行人类指令，机器人应该理解自然语言，并能够在3D环境中ground上述物体。语言表达通常是描述物体在3D场景中的relative spatial relations来指定物体的。比如上图中的这两个例子，就要消除同一类目标中的歧义目标。

鉴于 spatial language 的重要性，许多方法长时间莫3DVG中的空间关系。早期大家使用GNN来建模关系，但是他们只能捕捉最近邻的关系。近年来，Transformer架构被广泛采用，因为它可以直接建模 pair object之间的关系。然而，使用Transformer来理解用自然语言表达的三维空间关系仍然是一个开放的研究问题。

这篇文章中，作者提出了一个视觉和语言的三维关系推理模型（ViL3DRel）来解决三维物体接地中的上述问题。具体有以下贡献：

猜你喜欢

转载自blog.csdn.net/DUDUDUTU/article/details/129979160

Language Conditioned Spatial Relation Reasoning for 3D Object Grounding【NeurIPS 2022】

RIS 系列 TransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer 论文阅读笔记

论文解读：Foreground-Aware Relation Network for Geospatial Object Segmentation in High Spatial Resolution

【论文笔记】Ada3D: Exploiting the Spatial Redundancy with Adaptive Inference for Efficient 3D Object Detec

论文速读 -- Efficient Spatial-Temporal Information Fusion for LiDAR-Based 3D Moving Object Segmentation

VISTA Boosting 3D Object Detection via Dual Cross-VIew SpaTial Attention论文个人总结

点云 3D 天气数据增强 - LiDAR Snowfall Simulation for Robust 3D Object Detection (CVPR 2022)

Relation Networks for Object Detection

图像检测 - PETR: Position Embedding Transformation for Multi-View 3D Object Detection (ECCV 2022)

多模态融合2022|TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers

论文阅读《2020ICML：Inductive Relation Prediction by Subgraph Reasoning》

【点云】M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object Detection with Transformers

relation networks for object detection问答

多模态融合 2022|DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection阅读笔记

论文分享 - Reasoning with Memory Augmented Neural Networks for Language Comprehension

chain of thought prompting elicits reasoning in large language models

论文阅读：chain of thought Prompting elicits reasoning in large language models

Causal Reasoning and Large Language Models: Opening a New Frontier for Causality

Language Models, Agent Models, and World Models: The LAW for Machine Reasoning and Planning

Paper Reading：《LISA: Reasoning Segmentation via Large Language Model》

论文阅读：3D Morphable Models as Spatial Transformer Networks

Global-Local Bidirectional Reasoning for Unsupervised Representation Learning of 3D Point Clouds 笔记

Relation Networks for Object Detection [CVPR 2018]

Relation Networks for Object Detection算法笔记

Relation Networks for Object Detection重点解读

Relation Networks for Object Detection 论文理解

Relation Distillation Networks for Video Object Detection

[Relation Network]Realtion Networks for Object Detection

【论文简述】Learning Optical Flow with Adaptive Graph Reasoning（AAAI 2022）

Attacking Visual Language Grounding with Adversarial Examples

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)