[论文精读]GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis

[论文精读]GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis

前言

这篇文章发表在NeurIPS 2020上,很有意思。文章,代码

摘要

尽管2D生成的对抗网络已经实现了高分辨率图像的合成,但它们在很大程度上缺乏对3D世界和图像形成过程的理解。因此,它们不能提供对相机视点或对象姿势的精确控制。为了解决这个问题,最近的几种方法利用基于中间体素的表示与可区分的渲染结合使用。但是,现有方法要么产生低图像分辨率,要么缺乏摄像头和场景属性,例如,对象标识可能会随着视点而变化。在本文中,我们提出了一个针对辐射场的生成模型,该模型最近证明是成功的单个场景合成的新型视图。与基于体素的表示形式相反,辐射场不仅限于3D空间的粗离散化,而是允许在存在重建歧义的情况下优雅地降低相机和场景属性。通过引入一个基于多尺度斑块的鉴别器,我们在单独从未经未受的2D图像中训练我们的模型时展示了高分辨率图像的合成。我们系统地分析了几个具有挑战性的合成和现实数据集的方法。我们的实验表明,辐射场是生成图像合成的强大表示,导致3D一致的模型以高保真性能.

贡献

在本文中,我们证明可以使用条件辐射场来解决粗糙输出和难缠的潜伏期之间的困境,这是新型视图合成的最近提出的连续表示(NeRF)的条件变体。更具体地说,我们做出以下贡献:
i: 我们提出了GRAF,这是一种用于从未介绍的图像中的高分辨率3D感知图像合成的辐射场的生成模型。除了观点操作外,我们的方法还允许修改生成对象的形状和外观。
ii: 我们引入了一个基于斑块的鉴别器,该鉴别器在多个尺度上采样图像,这是有效学习高分辨率生成辐射场的关键。
iii: 我们会系统地评估合成和真实数据集的方法。我们的方法在视觉保真度和3D一致性方面与最先进的方法相比,同时推广到高空间分辨率。

方法

我们考虑3D感知图像合成(3D-aware image synthesis)的问题,即,在提供对摄像机旋转和平移的明确控制的同时,生成高保真图像的任务。我们主张通过其辐射场来代表一个场景,因为这种连续的表示范围,图像分辨率和内存消耗很好。同时允许基于物理和无参数的投影映射。在下文中,我们首先简要回顾神经辐射场(NERF),该场构成了拟议的生成辐射场(GRAF)模型的基础。

NeRF

辐射场是从3D位置和2D查看方向到RGB颜色值的连续映射[23,33]。Mildenhall等[36]建议使用神经网络来表示该映射。更具体地说,他们首先使用固定位置编码,将3D位置x∈R3和一个观看方向d∈S2映射到更高维的特征表示形式中
在这里插入图片描述
与直接使用X和D作为多层感知器Fθ(·)的输入相比,直接使用X和D的位置编码 γ ( ⋅ ) \gamma(·) γ()可以更好地拟合高频信号。我们通过在我们的SUPP材料中进行消融研究来确认这一点。由于体积颜色C随着观看方向而变化而不是3D位置,因此观察方向通常使用较少的组件进行编码,即Ld < Lx

Volume Rendering

略 建议看原文

Generative Radiance Fields(主要方法)

在这项工作中,我们对辐射领域感兴趣,作为3D感知图像合成的表示。与[36]相反,我们不假设一个场景的大量摆姿势图像。取而代之的是,我们旨在通过对未予以的图像进行训练来学习一个模型来综合新场景。更具体地说,我们利用一个对抗框架来训练辐射场(GRAF)的生成模型。
图2显示了我们模型的概述。GeneratorGθ采用摄像机矩阵K,摄像头姿势ξ,2D采样模式ν和形状/外观代码zs∈Rm/za∈Rn作为输入,并预测图像贴片P’。鉴别器Dφ将合成的贴片P’与从真实图像I提取的贴片P进行了比较。在推理时,我们预测每个图像像素的一个颜色值。但是,在培训时间,这太昂贵了。因此,我们相反预测了一个大小k×k像素的固定斑块,该斑块随机缩放并旋转以提供整个辐射场的梯度
在这里插入图片描述

Generator

我们从姿势分布pξ中取样相机姿势ξ= [r | t]。在我们的实验中,我们在摄像机位置上使用均匀分布,摄像机朝坐标系的起源。根据数据集的不同,我们还统一地改变了摄像机与原点的距离。我们选择k使原点位于图像的中心。
ν=(u,s)确定中心u =(u,v)∈R2和s∈R+我们旨在生成的虚拟的k×k补丁 p(u,s。这使我们能够使用独立于图像分辨率的卷积歧视器。我们从图像域的均匀分布中随机抽取patch中心u,补丁p来自与均匀分布的s,其中 s = m i n ( W , H ) / K s = min(W, H)/K s=min(W,H)/K,w和h表示目标图像的宽度和高度.并且,我们保证整个patch都在图像域内。形状和外观变量zs和za分别由形状和外观分布zs ps和za pa绘制。在我们的实验中,我们使用标准高斯分布的ps和pa

Ray Sampling

K×K贴片P(U,S)由一组2D图像坐标确定
如图3所示,它描述了图像域ω中每个像素的位置。相应的3D射线由p(u,s)唯一确定,摄像机姿势ξ和intinsicsk。我们用r表示像素/射线索引,d表示的归一化3D射线和r = k2, R表示rays数量,其中在训练时r = k2,推理期间r = WH。
在这里插入图片描述

3D Point Sampling

对于辐射场的数值集成,我们沿每个射线r采样n个点{xir}。我们使用[36]的分层抽样方法,请参见Supp。材料以获取详细信息。

Conditional Radiance Field

辐射场由具有参数θ的深度完全连接的神经网络表示,该网络θ映射了3D位置x∈R3的位置编码(参见等式(1)),并查看方向d∈S2到RGB颜色值C和A体积密度σ
请注意,与(2)相反,Gθ在两个附加的潜在代码上进行条件:一个形状代码zs∈RMS,该代码确定对象的形状和一个确定其外观的外观代码za∈RMA。因此,我们称gθ为条件辐射场。
我们条件辐射场gθ的网络体系结构如图4所示。我们首先从x的位置编码和形状代码z的位置编码计算形状编码h。密度头σθ将此编码转换为体积密度σ。为了预测3D位置X的颜色C,我们与D的位置编码和外观代码ZA相连,然后将结果向量传递到颜色头Cθ。我们独立于观点D和外观代码ZA来计算σ,以鼓励多视图一致性,同时从外观上解开形状。这鼓励网络使用潜在代码ZS和ZA分别对形状和外观进行建模,并允许在推断过程中分别操纵它们。
在这里插入图片描述

Discriminator

鉴别剂Dφ被实现为卷积神经网络(有关详细信息,请参见Supp.材料),该网络将预测的贴片P’与从数据分布PD绘制的真实图像I提取的贴片P进行了比较。为了从真实图像I中提取K×K补丁,我们首先从同一分布中绘制ν=(u,s),我们用于绘制上面的生成器贴片。然后,我们通过使用双线性插值在2D图像坐标P(U,S)处查询i来对真实贴片P进行采样。在下文中,我们使用γ(i,ν)表示这种双线性采样操作。请注意,我们的鉴别器类似于Patchgan [21],除了我们允许连续位移u和尺度s,而Patchgan使用s = 1。取而代之的是,在稀疏位置查询I以保留高频细节,请参见图3。在实验上,我们发现一个具有共享权重的单个鉴别器对于所有贴片都足够,即使在具有不同尺度的随机位置进行了采样。请注意,量表决定了斑块的接受场。为了促进培训,我们从较大的接收场的斑块开始,以捕获全局环境。然后,我们逐渐使用较小的接收场采样斑块,以完善本地细节。

Training and Inference

实验

数据集:
两个合成数据集:Photoshapes(椅子),CARLA(汽车)
三个现实数据集: celebA(人脸128),celebA-HQ(人脸512),Cats ,Caltech-UCSD Birds-200-2011

PLATONICGAN[19]生成3D对象的体素网格,并使用可微体积渲染技术将其投影到图像平面
相反,HoloGAN[39]生成一个抽象的体素化特征表示,并使用3D和2D卷积的组合学习从3D到2D的映射。
在这里插入图片描述
生成辐射场与基于体素的方法的性能相比如何?
几种方法都可以理顺目标的身份与视点,但PLATONICGAN在表示薄结构方面有困难,且PLATONICGAN和HoloGAN均会导致可见的伪影.文中认为,GeRF在视角变化较大时还能够保持良好的性能,
3D感知的生成模型是否扩展到高分辨率输出?
可以
是否需要避免学习映射?
由于实验中使用COLMAP做了一致性方面的实验,作者推测,一般来说应该避免学习投射。
生成辐射场是否能够从外观上解出形状?
作者认为其方法学会了可以通过ZS和ZA进行推理期间控制的形状和外观。
多尺度斑块鉴别器有多重要?
很重要
相机内参是否重要?
不是特别重要

猜你喜欢

转载自blog.csdn.net/ll594282475/article/details/125279894
今日推荐