ICLR 2023 Spotlight | 提升20倍训练速度的体素神经表面重建方法

本文首发于 CVHub,白名单账号转载请自觉植入本公众号名片并注明来源,非白名单账号请先申请权限,违者必究。

Title: Voxurf: Voxel-based Efficient and Accurate Neural Surface Reconstruction

Paper: https://arxiv.org/abs/2208.12697

Code: https://github.com/wutong16/Voxurf

导读

神经表面重建旨在基于多视图图像重建准确的3D表面。以往基于神经体素渲染的方法主要使用多层感知机(MLP)训练全隐式模型,通常需要数小时的训练才能处理一个场景。最近的研究工作通过学习可学习的体素网格来加速优化过程,以保存重要信息。然而,现有的基于体素的方法在重建细粒度几何结构时经常遇到困难,即使与基于SDF的体素渲染方案结合使用也是如此。论文发现,这是因为:1)体素网格往往破坏了有助于学习细几何结构的颜色-几何依赖关系;2)不完全约束的体素网格缺乏空间连贯性,容易陷入局部最小值。在本工作中,论文提出了Voxurf,一种高效准确的基于体素的表面重建方法。Voxurf通过几个关键设计来解决上述问题,包括:1)采用两阶段训练过程,先获取一致的粗略形状,然后逐步恢复细节;2)采用双重颜色网络来维持颜色-几何依赖关系;3)采用分层几何特征来促进信息在体素之间的传播。大量实验证明,Voxurf实现了高效率和高质量的同时。在DTU基准测试中,与以往的全隐式方法相比,Voxurf在训练速度上提高了20倍,并获得更高的重建质量

贡献

  1. 论文方法相较于最先进的方法实现了约20倍的训练加速,将在单个Nvidia A100 GPU上的训练时间从超过5个小时减少到15分钟。
  2. 论文方法在表面重建精度和新视角合成质量方面表现出色,相较于以前的方法,能更好地表示细节,既在表面恢复方面,也在图像渲染方面。
  3. 论文研究对显式体素表示框架的架构设计进行了深入的观察和分析,提供了有价值的观察和分析结果。

方法

论文进行了一些实验,探讨了baseline模型的不同变体以确定架构设计中的关键因素。论文采用了一个浅层MLP作为颜色网络,并考虑了局部特征和法向量作为输入。实验结果表明,局部特征可以提高表面重建的连贯性和表示能力,而保持颜色-几何依赖可以提高几何细节的准确性。因此,论文提出了几个关键设计:

  1. 采用两阶段训练,先获得连贯的粗糙形状,再逐步恢复细节;
  2. 引入双重颜色网络,维持颜色-几何依赖关系,恢复精确的表面和新视图图像;
  3. 设计分层几何特征,促进体素之间的信息传播,实现稳定的优化;4)引入平滑先验,包括梯度平滑损失,提升视觉质量。

Coarse Shape Initialization

首先使用椭球状的零水平集初始化SDF体素网格 V ( s d f ) V^{(sdf)} V(sdf),将其放置在一个预定的区域内进行重建,然后训练一个浅层MLP,其中法向量 n n n 和局部特征 f f f 作为输入,同时还包括嵌入位置 p p p和观察方向 v v v。为了确保稳定的训练过程和平滑的表面,论文建议在平滑的体素网格上进行插值,而不是使用原始的 V ( s d f ) V^{(sdf)} V(sdf)数据,论文使用3D卷积和高斯核进行平滑处理,并通过查询平滑后的SDF值进行重建和计算损失。

Fine Geometry Optimization

Dual color network

如图3所示,论文设计了一个双重颜色网络,利用从可学习特征体素网格中插值得到的局部特征,同时保持颜色与几何之间的依赖关系。我们使用两个浅层MLP进行训练,一个接收分层几何特征(Hierarchical geometry feature)作为输入得到,另一个接收简单几何特征(如表面法线)和局部特征作为输入。这两个网络以残差方式组合,通过重建损失来监督其输出与真实图像的一致性:

Hierarchical geometry feature

为了扩大感知范围和促进信息传播,我们通过观察SDF场的较大区域,并将相应的SDF值和梯度作为颜色网络的辅助条件。我们以半个体素尺寸为步长,定义了每个位置的邻居,然后将不同级别的邻居连接在一起,形成一个层级结构。这样可以在颜色网络中获取更多的局部信息,并促进信息在体素之间的传递:

其中, d l x d_{l}^{x} dlx 表示从 V sdf V_{\text{sdf}} Vsdf 中查询的位置 p l − x p_{l-}^{x} plx p l + x p_{l+}^{x} pl+x 处的 SDF 值。此外,论文还将梯度信息 δ x l = ( d x l + − d x l − ) / ( 2 ∗ l ∗ v s ) \delta_{x}^{l}=\left(d_{x}^{l+}-d_{x}^{l-}\right) /\left(2 * l * v_{s}\right) δxl=(dxl+dxl)/(2lvs)纳入到几何特征中,将 [ δ x l , δ y l , δ z l ] \left[\delta_{x}^{l}, \delta_{y}^{l}, \delta_{z}^{l}\right] [δxl,δyl,δzl]归一化为l2-范数为1,记为 n l ∈ R 3 n^l∈\mathbb{R}^3 nlR3。正常状态的层次化版本被表述为:

最后,对于预定义的级别 l ∈ [ 0.5 , 1.0 , 1.5 , . . . ] l \in [0.5, 1.0, 1.5, ...] l[0.5,1.0,1.5,...],点 p p p 的分层几何特征是通过以下方式组合上述信息:

如图3所示, f p g e o ( l ) f_p^{geo}(l) fpgeo(l)被输入到MLP g g e o g_{geo} ggeo中,以辅助几何学习。

smoothness proirs

论文采用了两种有效的正则化项来促进训练过程中的表面平滑。

  1. 首先,论文采用了总变差(Total Variation,TV)正则化项:

  1. 论文还假设表面在局部区域上是平滑的,引入了一个平滑正则化项,表示为:

总的损失为:

实验

如表1所示,在DTU数据集上的表面重建实验中,通过定量结果表明论文的方法在相同设置下具有更低的Chamfer距离。在图4和图5定性比较中,论文的方法与NeuS相比能够准确连续地恢复表面,并在恢复细微几何细节方面表现出优势。NeuS作为完全隐式模型具有内在的连续性和局部平滑性,但有时会过度平滑而无法恢复细节。

在表2中对论文的方法进行了广泛评估,包括表面重建、新视角合成和训练时间。在所有指标上,论文的方法明显优于DVGO和NeuS。同时,与NeuS相比,论文的方法在生成高质量表面重建方面实现了约20倍的加速。

总结

本文提出了Voxurf,一种基于体素的高效准确的神经表面重建方法。它包括了几个关键设计:两阶段框架逐步获得连贯的粗糙形状并恢复细节;双重颜色网络有助于保持颜色-几何依赖关系,而分层几何特征则促进了体素之间的信息传播;有效的平滑先验包括梯度平滑损失,进一步提高了视觉质量。大量实验证明,Voxurf在效率和质量方面取得了高水平的表现。

猜你喜欢

转载自blog.csdn.net/CVHub/article/details/131625377