NeRF in the Wild

NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections：无约束照片收集的神经辐射场
摘要：提出了一种基于学习的方法，用于仅使用野外照片的非结构化集合来合成复杂场景的新颖视图。针对NeRF无法在非受控图像中模拟许多普遍存在的真实世界现象，例如可变照明或瞬态变化（行人车辆），进行了扩展。

NeRF的局限：场景都是在一小段时间内进行拍摄，光照影响都保持不变，并且所有场景的内容都保持不变。但是野外场景中的大规模场景，其中输入图像可能相隔数小时或数年拍摄，并且可能包含行人和车辆在其中穿行。解决思路：NeRF 假设场景是在几何、材质和摄影角度上，都是静态的，即场景的密度和辐射场都是静态的。因此，NeRF 需要让两个在相同位置和朝向上，拍摄出的照片必须完全一致，NeRF-wild放宽了限制，主要解决光照变换以及移动遮挡问题。
创新点：
1、在学习到的低维隐空间中，建模图像外观的变化，如曝光、光照、天气和后处理，根据生成潜在优化的框架，优化每个输入图像的外观嵌入，从而赋予NeRF-W通过学习整个照片集合中的共享外观表示来解释图像之间的光度和环境变化的灵活性。学习的潜在空间提供了输出渲染外观的控制。
2、将场景建模为共享元素和图像相关元素的结合，从而使场景内容能够无监督地分解为“静态”和“瞬态”组件。使用二次体积辐射场和数据相关不确定性场对瞬态元素进行建模，其中数据相关不确定场捕获可变观测噪声，并进一步减少瞬态对象对静态场景表示的影响。

背景知识
论文中介绍了NeRF的离散公式，只不过进行了表示上的小变化
在这里插入图片描述
$\mathcal{R}(\mathbf{r}, \mathbf{c}, \sigma)$ 表示体渲染
$\alpha(x)=1-\exp (-x)$
$\delta_{k}=t_{k+1}-t_{k}$
ReLU MLP 来表示体积密度 $\sigma(t)$ $\mathbf{c}(t)$

1、 Latent Appearance Modeling

为了使 NeRF 能够适应不同光照和摄影后处理，采用了生成潜在优化，每张图像 I_i都会赋给一个对应的实值外观嵌入向量 $\boldsymbol{\ell}_{i}^{(a)}$ ,长度为 $n^{(a)}$ ，这类似于学习到的外观特征。如下公式中，强调了颜色c对每张图的依赖性。论文认为NeRF的c和图片标号没有关系，这里c_i介入了一种像素对应图片的依赖性，每张图的外观特征由于光照时间等因素都是不一样的。在这里插入图片描述
$\mathbf{z}(t)$ 表示的是将位置输入MLP中得到的输出，将中间输出，外观特征，观看方向编码输入MLP₂中，就能得到每张照片的颜色值， $\hat{\mathbf{C}}_{i}$ 表示对每张图片的依赖。

2、Transient Objects

使用两种设计来解决动态现象
1、把原始NeRF中的MLP当作静态的MLP来预估地标建筑的颜色和密度，记作静态头（head），然后再加一个瞬态头（transient head），该头部发射自己的颜色和密度，其中允许密度在训练图像中变化，这个方法的好处是能够让网络在重建后面的静态场景时不会把遮挡物的伪影加到建筑上。
2、并不假设所有观测像素颜色都是同样可靠的，允许瞬态部分发射出不确定性（ uncertatinty）场（类似于颜色和密度），可以让模型调整重构损失，让网络通过损失函数忽略那些离群点（不可靠的像素和 3D 位置，这些位置很可能包含遮挡物）。
将每个像素的颜色建模为各向同性正态分布，其可能性将最大化，并使用NeRF使用的相同体积渲染方法“渲染”该分布的方差。这两个模型组件允许NeRF-W在没有明确监督的情况下解开静态和瞬态现象。
各向同性正态分布
用瞬态部分的 $\sigma_{i}^{(\tau)}(t)$ 和 $\mathbf{c}_{i}^{(\tau)}(t)$ 来增强静态密度和亮度，下面的公式是最终的渲染公式，静态与动态相加在进行累加计算。在这里插入图片描述
优化
为了让场景的瞬态分量在不同的图像上变化，我们给每个训练图像I_i指定第二个嵌入 $\ell_{i}^{(\tau)} \in \mathbb{R}^{n^{(\tau)}}$ ,作为瞬态 MLP 的输入,下面公式中，第三个MLP得到的输出为瞬态（前面遮挡）的密度，颜色，不确定性，不确定性经过第二行公式进行了一个变化，

在这里插入图片描述
图像 i上射线 r对真值颜色 C_i（r）的损失是，这是一个最大似然函数以及后验估计的估计（不确定性服从正态分布的情况下）

对于这里的推导可以看这个视频

下图是整体架构图在这里插入图片描述

损失函数
类似于 NeRF，我们同时优化 F_θ的两个网络：精细模型使用上述的模型和损失；粗糙模型只使用隐外观的建模分量。和参数 θ一起，我们优化每张图像的外观嵌入 $\left\{\boldsymbol{\ell}_{i}^{(a)}\right\}_{i=1}^{N}$ 和瞬态嵌入 $\left\{\ell_{i}^{(\tau)}\right\}_{i=1}^{N}$
,NeRF-W 的损失函数为
在这里插入图片描述

1、 Latent Appearance Modeling

2、Transient Objects

猜你喜欢