用于3D Visual Grounding的多模态场景图 - 代码天地

用于3D Visual Grounding的多模态场景图

企业开发 2024-01-08 21:37:39 阅读次数: 0

文章目录

引言
方法
- 1. Language Scene Graph Module

Paper：《Free-form Description Guided 3D Visual Graph Network for Object Grounding in Point Cloud》【ICCV’2021】
Code：https://github.com/PNXD/FFL-3DOG

引言

3DVG任务有以下三个挑战：

在复杂、多样的文本描述中找到主要的重点，即找到主语（目标对象）；
理解点云场景；
定位目标对象；

为了解决这些问题，这篇文章分别设计了以下三个模块：

首先，提出了一个语言场景图模块来从复杂的文本描述中，捕捉丰富的结构和短语相关性；
其次，引入proposals之间的关系，并加强了初始proposals的视觉特征；
最后，开发了一个文本描述来引导的三维可视化图模块，通过节点匹配策略对短语和建议的全局上下文进行编码。

图形摘要如下所示：
在这里插入图片描述

直白来讲，本文就是做了以下三件事：

首先，将复杂的文本描述划分为三类短语：名词短语、代词和关系短语，基于这些短语构造一个语言场景图 $G^l$ ，其中节点和边缘分别对应于名词短语+代词和关系短语；
其次，基于VoteNet给出的proposals构造出一个proposal relation 图 $G^o$ ，然后利用语言场景图 $G^l$ 计算出一个matching score $\phi_1$ ，以此对 $G^o$ 中的proposals进行裁剪和细化；
最后，将两个图通过节点匹配进行融合，获得本文称之为 description guided 3D visual graph $G^u$ ，以此来进行3DVG任务。

那么这其中有着以下关键问题：

语言场景图如何对语言进行拆解，又如何构造？
视觉场景图内的关系如何构造？通过距离来计算吗？

方法

方法框架图如下：

在这里插入图片描述

1. Language Scene Graph Module

语言图中的每个节点和边，对应于文本描述L中提到的object和它在L中被提到的与其他object的关系。它是一个有向图。

TODO

猜你喜欢

转载自blog.csdn.net/DUDUDUTU/article/details/130464925

用于3D Visual Grounding的多模态场景图

3D图

unity场景模型适用于3d射击得贫民窟小镇

3D重建中的可视外壳(visual hull)

Facebook 开源 3D 深度学习函数库 PyTorch3D，也可用于二维场景

【论文阅读】NEF：用于从多视图重建 3D 参数曲线的神经边缘场

pygame多图伪3d

3D多图旋转

用于多视图 3D 对象检测的位置嵌入变换(PETR: Position Embedding Transformation for Multi-View 3D Object Detection）

D3 的3d图

Highcharts 3D图

3d饼图

轮转图3D

【论文阅读】PSDF Fusion：用于动态 3D 数据融合和场景重建的概率符号距离函数

Blender一步一步用灰度图生成3D模型用于Gazebo/gzweb

【论文解读】MV3D-Net、AVOD-Net用于自动驾驶的多视图3D目标检测网络

Scientists Complete 3D Visual Map of wordpress webdesign Telomerase Enzyme

Visual Odometry(视觉里程计)： StereoScan Dense 3d Reconstruction in Real-time

3d Max安装失败（Microsoft Visual C++ 2010 Redistributable）

FaceWarehouse: a 3D Facial Expression Database for Visual Computing 论文解析

3D场景的制作步骤

Unity 3D场景管理

Layaair 3D场景使用

场景中的3D模型加载

echarts3D地图+3D柱状图+3D飞线图

3D焦点图插件

3D特效焦点图

Amchart（十一）3D圆环图

Amchart（十）3D圆柱图

Highcharts 3D饼图

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)