CVPR 2023 | 一文看尽12篇Best Paper候选(附合集)

CVPR 2023日前已经放榜,并公布了12篇best paper候选论文。本文就带大家一睹这12篇论文的风采,相关合集点击这里跳转获取。

1、EgoEgo:通过自我头部姿势估计进行自我身体姿势估计

Ego-Body Pose Estimation via Ego-Head Pose Estimation

项目地址:https://lijiaman.github.io/projects/egoego/

从以自我为中心的视频序列估计 3D 人体运动在人类行为理解中起着至关重要的作用,并且在 VR/AR 中有各种应用。然而,天真地学习以自我为中心的视频和人体运动之间的映射是具有挑战性的,因为用户的身体通常不会被放置在用户头上的前置摄像头观察到。此外,通过配对的以自我为中心的视频和 3D 人体动作收集大规模、高质量的数据集需要精确的动作捕捉设备,这通常将视频中的场景多样性限制在类似实验室的环境中。为了消除配对的以自我为中心的视频和人体运动的需要,我们提出了一种新方法,通过自我头部姿势估计(EgoEgo)进行自我身体姿势估计,它将问题分解为两个阶段,由头部运动作为中间表示连接. EgoEgo 首先集成了 SLAM 和学习方法来估计准确的头部运动。随后,利用估计的头部姿势作为输入,EgoEgo 利用条件扩散生成多个似是而非的全身运动。这种头部和身体姿势的分离消除了对具有配对的以自我为中心的视频和 3D 人体运动的训练数据集的需要,使我们能够分别利用大规模的以自我为中心的视频数据集和运动捕捉数据集。此外,为了进行系统基准测试,我们开发了一个合成数据集 AMASS-Replica-Ego-Syn (ARES),其中包含成对的以自我为中心的视频和人体运动。在 ARES 和真实数据上,我们的 EgoEgo 模型的性能明显优于当前最先进的方法。

2、具有最大团(MAC)的3D配准

3D Registration with Maximal Cliques

代码地址:https://github.com/zhangxy0517/3D-Registration-with-Maximal-Cliques

作为计算机视觉中的一个基本问题,3D 点云配准 (PCR) 旨在寻找最佳姿态来对齐点云对。在本文中,我们提出了一种具有最大团 (MAC) 的 3D 配准方法。关键的见解是放松以前的最大集团约束,并在图中挖掘更多的局部共识信息以生成准确的姿势假设:1)构建兼容性图以呈现初始对应关系之间的亲和关系。2) 我们在图中搜索最大派系,每个派系代表一个共识集。然后我们执行节点引导的团选择,其中每个节点对应于具有最大图权重的最大团。3)通过SVD算法为选定的团计算变换假设,并使用最佳假设进行注册。在 U3M、3DMatch、3DLoMatch 和 KITTI 上进行的大量实验表明,MAC 有效地提高了配准精度,优于各种最先进的方法,并提高了深度学习方法的性能。MAC 与深度学习方法相结合,在 3DMatch / 3DLoMatch 上实现了 95.7% / 78.9% 的最先进的配准召回率。

3、OmniObject3D:用于真实感知、重建和生成的大词汇量 3D 对象数据集

OmniObject3D: Large Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation

项目地址:https://omniobject3d.github.io/

由于缺乏大规模的实时扫描 3D 数据库,3D 对象建模的最新进展主要依赖于合成数据集。为了促进现实世界中 3D 感知、重建和生成的发展,我们提出了 OmniObject3D,这是一个包含大量高质量真实扫描 3D 对象的大词汇量 3D 对象数据集。OmniObject3D 有几个吸引人的特性:1) 大词汇量:它包含 190 个日常类别中的 6,000 个扫描对象,与流行的 2D 数据集(例如 ImageNet 和 LVIS)共享通用类,有利于追求可概括的 3D 表示。2) 丰富的注释:每个 3D 对象都使用 2D 和 3D 传感器捕获,提供纹理网格、点云、多视图渲染图像和多个实拍视频。3)现实扫描:专业扫描仪支持具有精确形状和逼真外观的高质量物体扫描。借助 OmniObject3D 提供的广阔探索空间,我们精心设置了四个评估轨道:a) 稳健的 3D 感知,b) 新视图合成,c) 神经表面重建,以及 d) 3D 对象生成。对这四个基准进行了广泛的研究,揭示了现实 3D 视觉未来研究的新观察、挑战和机遇。

4、MobileNeRF:利用多边形光栅化管道在移动架构上进行高效的神经场渲染

MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile Architectures

代码地址:https://github.com/google-research/jax3d/tree/main/jax3d/projects/mobilenerf

神经辐射场 (NeRFs) 展示了从新视角合成 3D 场景图像的惊人能力。然而,它们依赖于基于光线行进的专门体积渲染算法,这些算法与广泛部署的图形硬件的功能不匹配。本文介绍了一种基于纹理多边形的新 NeRF 表示,可以使用标准渲染管道有效地合成新图像。NeRF 表示为一组多边形,其纹理表示二进制不透明度和特征向量。使用 z 缓冲区对多边形进行传统渲染会生成每个像素都具有特征的图像,这些图像由在片段着色器中运行的小型、依赖于视图的 MLP 进行解释,以生成最终的像素颜色。

5、DynIBaR:基于神经动态图像的渲染

DynIBaR: Neural Dynamic Image-Based Rendering

项目地址:http://dynibar.github.io/

我们解决了从描述复杂动态场景的单目视频中合成新视图的问题。基于随时间变化的神经辐射场(又名动态 NeRF)的最先进方法已在该任务上显示出令人印象深刻的结果。然而,对于具有复杂物体运动和不受控制的摄像机轨迹的长视频,这些方法可能会产生模糊或不准确的渲染,从而阻碍它们在现实世界中的应用。我们没有在 MLP 的权重内编码整个动态场景,而是提出了一种新方法来解决这些限制,该方法采用基于体积图像的渲染框架,该框架通过以场景运动感知方式聚合附近视图的特征来合成新视点。我们的系统保留了先前方法在建模复杂场景和视图相关效果方面的优势,而且还能够从具有复杂场景动态和不受约束的相机轨迹的长视频中合成照片般逼真的新颖视图。我们在动态场景数据集上展示了对最先进方法的重大改进,并将我们的方法应用于具有挑战性相机和物体运动的野外视频,在这些视频中,先前的方法无法产生高质量的渲染。

6、面向规划的自动驾驶

Planning-oriented Autonomous Driving

项目地址:https://opendrivelab.github.io/UniAD/

现代自动驾驶系统的特点是按顺序执行模块化任务,即感知、预测和规划。为了执行广泛多样的任务并实现高级智能,现代方法要么为单个任务部署独立模型,要么设计具有独立头部的多任务范例。然而,他们可能会遭受累积错误或任务协调不足的困扰。相反,我们认为应该设计和优化一个有利的框架来追求最终目标,即自动驾驶汽车的规划。以此为导向,我们重新审视感知和预测中的关键组成部分,并对任务进行优先排序,以便所有这些任务都有助于规划。我们介绍统一自动驾驶(UniAD),一个最新的综合框架,将全栈驾驶任务整合到一个网络中。它经过精心设计,可以充分利用每个模块的优势,并从全局角度为代理交互提供互补的特征抽象。任务通过统一的查询接口进行通信,以促进彼此进行规划。我们在具有挑战性的 nuScenes 基准测试中实例化了 UniAD。通过广泛的消融,使用这种理念的有效性通过在所有方面都大大优于以前的最先进技术得到证明。

7、DreamBooth:为主题驱动生成微调文本到图像扩散模型

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

项目地址:https://dreambooth.github.io/

大型文本到图像模型在 AI 的发展中实现了显着飞跃,能够根据给定的文本提示合成高质量和多样化的图像。然而,这些模型缺乏在给定参考集中模仿对象外观以及在不同上下文中合成它们的新颖演绎的能力。在这项工作中,我们提出了一种文本到图像扩散模型“个性化”的新方法。给定主题的几张图像作为输入,我们微调预训练的文本到图像模型,使其学会将唯一标识符与该特定主题绑定。一旦主体被嵌入到模型的输出域中,唯一标识符就可以用于合成主体在不同场景中的新颖逼真图像。通过利用模型中嵌入的语义先验和新的自生类特定先验保存损失,我们的技术能够在参考图像中未出现的不同场景、姿势、视图和光照条件下合成主体。我们将我们的技术应用于几个以前无懈可击的任务,包括主题重构、文本引导视图合成和艺术渲染,同时保留主题的关键特征。我们还为这个主题驱动生成的新任务提供了一个新的数据集和评估协议。

8、关于引导扩散模型的蒸馏

On Distillation of Guided Diffusion Models

代码地址:https://github.com/CompVis/stable-diffusion

无分类器引导扩散模型最近被证明在高分辨率图像生成方面非常有效,它们已被广泛用于大规模扩散框架,包括 DALLE-2、Stable Diffusion 和 Imagen。然而,无分类器引导扩散模型的一个缺点是它们在推理时的计算量很大,因为它们需要评估两个扩散模型,一个类条件模型和一个无条件模型,数十到数百次。为了解决这个限制,我们提出了一种将无分类器引导扩散模型提炼成可以快速采样的模型的方法:给定一个预训练的无分类器引导模型,我们首先学习一个单一模型来匹配结合条件和无条件模型,然后我们逐渐将该模型提炼为需要更少采样步骤的扩散模型。对于在像素空间上训练的标准扩散模型,我们的方法能够在 ImageNet 64x64 和 CIFAR-10 上使用少至 4 个采样步骤生成视觉上与原始模型相当的图像,实现与原始模型的采样速度提高了 256 倍。

9、可视化编程:无需训练的组合视觉推理

Visual Programming: Compositional visual reasoning without training

项目地址:https://prior.allenai.org/projects/visprog

我们介绍了 VISPROG,这是一种神经符号方法,可以在给定自然语言指令的情况下解决复杂的组合视觉任务。VISPROG 无需任何特定任务的培训。相反,它使用大型语言模型的上下文学习能力来生成类似 python 的模块化程序,然后执行这些程序以获得解决方案和全面且可解释的基本原理。生成的程序的每一行都可以调用几个现成的计算机视觉模型、图像处理例程或 python 函数中的一个,以生成可能被程序的后续部分使用的中间输出。我们展示了 VISPROG 在 4 项不同任务上的灵活性——组合视觉问答、图像对零样本推理、事实知识对象标记和语言引导图像编辑。

10、人体草图可以为物体检测做什么?

What Can Human Sketches Do for Object Detection?

项目地址:https://pinakinathc.github.io/sketch-detect

草图具有高度的表现力,本质上捕捉主观和细粒度的视觉线索。然而,对人体草图这种先天特性的探索仅限于图像检索。在本文中,我们第一次培养了草图的表现力,但针对的是目标检测的基本视觉任务。最终结果是一个启用草图的对象检测框架,该框架基于草图 - 斑马(例如,正在吃草的斑马)在一群斑马中进行检测(实例感知检测),并且只有您想要的(例如,斑马的头)(部分感知检测)。我们进一步规定我们的模型在 (i) 不知道在测试时期望哪个类别(零样本)和 (ii) 不需要额外的边界框(根据完全监督)和类标签(根据弱监督)的情况下工作。我们没有从头开始设计模型,而是展示了基础模型(例如 CLIP)和为基于草图的图像检索(SBIR)构建的现有草图模型之间的直观协同作用,这已经可以优雅地解决任务——CLIP 提供模型泛化和 SBIR 来桥接(草图→照片)差距。特别是,我们首先对 SBIR 模型的草图和照片分支进行独立提示,以在 CLIP 的泛化能力的支持下构建高度泛化的草图和照片编码器。然后,我们设计了一种训练范式,使学习到的编码器适应对象检测,这样检测到的框的区域嵌入与来自 SBIR 的草图和照片嵌入对齐。在标准对象检测数据集(如 PASCAL-VOC 和 MS-COCO)上评估我们的框架在零样本设置上优于监督(SOD)和弱监督对象检测器(WSOD)。

11、事件相机的数据驱动特征跟踪

Data-driven Feature Tracking for Event Cameras

代码地址:https://github.com/uzh-rpg/deep_ev_tracker

由于其高时间分辨率、增强的运动模糊弹性和非常稀疏的输出,事件相机已被证明是低延迟和低带宽特征跟踪的理想选择,即使在具有挑战性的场景中也是如此。现有的事件相机特征跟踪方法要么是手工制作的,要么是从第一原理派生的,但需要大量的参数调整,对噪声敏感,并且由于未建模的影响而不能推广到不同的场景。为了解决这些缺陷,我们引入了第一个用于事件相机的数据驱动特征跟踪器,它利用低延迟事件来跟踪在灰度帧中检测到的特征。我们通过一个新颖的框架注意力模块实现了稳健的性能,该模块在特征轨道之间共享信息。通过直接将零样本从合成数据转移到真实数据,我们的数据驱动跟踪器在相对特征年龄方面优于现有方法高达 120%,同时还实现了最低延迟。通过使用新颖的自我监督策略使我们的跟踪器适应真实数据,这种性能差距进一步扩大到 130%。

猜你喜欢

转载自blog.csdn.net/Mikasa33/article/details/131207123