NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor Multi-view Stereo

NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor Multi-view Stereo:室内多视角立体视觉神经辐射场的引导优化
摘要:该方法在最近提出的神经辐射场(NeRF)上利用了传统的SfM重建和基于学习的先验。关键是利用基于学习的先验来指导NeRF的优化过程。系统首先通过对稀疏SfM重建进行微调,在目标场景上调整单目深度网络。然后,证明了NeRF的形状辐射模糊性在室内环境中仍然存在,并提出通过使用自适应的深度先验来监控体绘制的采样过程来解决该问题。

1、网络架构

首先用COLMAP得到的深度训练一个专属于当前场景的单目深度网络。之后用这个单目深度网络预测的深度图来指导NeRF的学习。最后我们根据视角合成的结果利用滤波器去进一步提升深度图的质量。
方法的核心是用网络预测出来的深度先验去引导神经辐射场的优化过程。下图是系统的架构,将基于学习的先验中的附加信息集成到NeRF训练pipeline中
在这里插入图片描述

2、场景敏感的深度先验

方法旨在利用基于学习的深度先验来帮助优化测试时的几何结构。然而,与对所有测试场景使用相同的单目深度网络不同,论文中将网络适配到每个场景以获得场景特定的深度先验。根据经验,这种测试时间自适应方法大大提高了最终深度输出的质量。
关于调整场景特定深度先验的建议是在传统SfM重建的基础上微调(finetune)单目深度网络,这一步的目的其实是让这个深度网络过拟合在当前场景上。具体方法:使用了COLMAP算法得到了多视角融合的点云,并将点云投影到各个视角下得到每个视角的稀疏深度。由于多视角融合的点云是经过了几何一致性校验的,因此虽然深度是稀疏的,但也是相对准确的。此外,由于尺度歧义的问题,我们使用了尺度不变的损失函数:在这里插入图片描述
其中Dpi是预测深度图,DSfMi是从COLMAP获取的稀疏深度。通过在损失公式中使用比例因子α(Dpi,DSfMi),将预测深度图的比例与稀疏深度监控对齐,可以通过对所有有效像素的差异进行平均来计算:
在这里插入图片描述
微调的单目深度网络是一个更强大的先验,适合特定的目标场景。通过对NeRF的引导优化,可以进一步提高自适应深度先验的质量

3、神经辐射场的引导优化

通过整合上述自适应深度先验,直接优化隐式体积。NeRF的相关原理论文进行了简要的介绍,并提出,NeRF通常在纹理较差的区域表现不好,下图中墙壁部分(无纹理区域)存在形状辐射歧义现象。NeRF可以很好地拟合出训练视角的RGB图片(图(a)),但却没有学到正确的场景3D结构(图©)。 造成这个问题的本质原因是对于同一组RGB图片,会有多个神经辐射场与之对应。此外,现实室内场景的RGB图片会比较模糊并且图片之间的位姿变换也会比较大,这导致了网络的学习能力下降,加剧了这个问题。在这里插入图片描述
通过明确限制采样范围分布在深度先验周围,我们避免了室内场景中NeRF的大多数退化情况。这通过直接优化RGB图像来实现精确的深度估计。首先通过几何一致性检查获取自适应深度先验的误差图。对于N个输入视图,将适配的深度先验表示为{Di}i=1~N。将每个视图的深度图投影到所有其他视图:
在这里插入图片描述
K是相机内部函数,Ti–>j 是相对姿势,pi–>j,Di–>j,是第j个视图中投影的2D坐标和深度,接着使用Dj′和Di–>j之间的相对误差来计算深度冲投影误差,注意,有些像素在某些视图对上不重叠。因此,将每个视图ei的深度先验的误差图定义为顶部K最小交叉视图深度投影误差的平均值。
将每个视角的深度投影到其它视角下并与其它视角的深度计算相对误差,使用误差图{ei}Ni=1来计算每个相机光线的自适应样本范围[tn,tf]
在这里插入图片描述
NeRF中每个视角下每条ray的采样中心点为对应位置处的深度先验,采样范围由误差图决定。误差越小,深度先验的置信度越高,那么采样范围就越小;反之,误差越大,深度先验的置信度越低,那么采样范围就越大。

如下图,对自适应深度先验进行多视图一致性检查,以获得误差图,这有助于计算每个相机光线到采样点的自适应深度范围
在这里插入图片描述

4、推理和视图合成

为了进行推断,可以通过在范围公式中定义的采样范围内重新采样并应用下式来计算期望值,从而直接预测每个输入视图的深度图。这为配备了我们提出的引导优化方案的NeRF提供了准确的输出深度。
对下式的解释:在体绘制期间,NeRF采用从稀疏3D重建计算出的近边界tn和远边界tf来监测沿每条射线的采样空间。具体来说,它将[tn,tf]划分为M个箱,并以均匀分布为每个箱随机采样一个查询点
在这里插入图片描述

为了进一步提高深度质量,利用NeRF的视图合成结果来计算预测几何体的每像素置信度。如果特定像素处的渲染RGB与输入训练图像不匹配,则我们为该像素的深度预测附加相对较低的置信度。第i个视图中第j个像素的置信度Sji具体定义为
在这里插入图片描述
这部分详细解释参考https://zhuanlan.zhihu.com/p/407123751?utm_id=0

虽然所提出的引导优化策略需要自适应深度先验作为沿相机射线引导点采样的输入,但我们仍然可以通过直接使用来自最近可见视图的自适应深度先验来执行新的视图合成。

猜你喜欢

转载自blog.csdn.net/qq_44708206/article/details/129092692