EPP-MVSNet

EPP-MVSNet: Epipolar-assembling based Depth Prediction for Multi-view Stereo(ICCV 2021):基于极点装配的多视点立体深度预测
名词:
深度假设:深度预测流程中,像素对应三维点可能位于的深度假设平面。
深度间隔:深度预测流程中,深度假设平面之间的间隔。
对极线:物体的某个真实三维点,与主/辅助视图的相机中心连线构成极平面,极平面与辅助视图的交线称为对极线。
主视图:深度预测流程中,需要进行深度预测的图像。
辅助视图:深度预测流程中,与主视图关联度最高的图像集合。
Cost Volume:深度预测流程中,主视图上像素在预设的深度假设范围内,与辅助视图上对应采样点之间的匹配关系构成的集合。
摘要:EPP-MVSNet能够在高分辨率下精确地聚合特征到有限的成本体积和最佳深度范围,从而实现有效和高效的3D构建。EPP-MVSNet不同于现有的在离散位置测量特征代价而影响三维重建精度的工作,引入了基于极线组装的内核,该内核在沿极线的自适应区间上运行,以充分利用图像分辨率。进一步,引入了一种基于熵的细化策略,其中成本体积描述空间几何与少量冗余。此外,设计了一个集成伪三维卷积的轻量级网络,以达到较高的精度和效率。

创新:
1、引入了一种极线组装模块,用于将高分辨率信息组装到有限大小的成本卷中。
2、提出了一个基于熵的过程,调整深度范围以减少冗余和信息丢失。
3、应用轻量级3D正则化网络,极大地提高了学习和推理效率。

1、网络结构

coarse-to-fine稠密重建方法主要分为以下几个步骤:二维特征提取、cost volume构建、3D正则、深度结果预测。EPP-MVSNet的主要创新点使用EAM与ER模块(极线聚合模块和基于熵的改进策略)进行关键步骤cost volume构建,网络结构下图所示。在这里插入图片描述

2、代价体构建

代价体是通过计算参考和源特征之间的相关来构建的。首先利用可微单应性变化构建特征体。然后,利用极线聚合模块(epipolar-assembling)计算参考特征与源特征体之间的匹配代价,并相应地在粗阶段和细阶段进行基于熵的改进,从而构建代价体。

2.1极线聚合模块

coarse阶段需要设置全局深度范围下的若干深度假设,同时为了控制cost volume的大小,该阶段往往只能设置一个相对较小的深度假设数量。这就导致了coarse阶段的深度假设间隔相对较大,具体反映到源视图上,呈现出对极线采样点分布相对稀疏的情况,容易遗漏关键特征点。
EAM(epipolar assembling module)模块,通过提前计算默认深度假设范围情况下辅助视图上原始采样点的分布情况,根据其分布间隔适应性地插入新的采样点。通过这个策略,EPP-MVSNet能够根据主视图和不同辅助视图之间由于空间几何关系不同产生的不同采样点分布情况,自适应地维持采样点的密集程度,减少遗漏关键特征点的可能。
在这里插入图片描述

如上图所示,对于每个参考点pr,对应源点pms在不同深度假设dm沿极极线离散采样。在粗阶段固定假设范围,增大假设数M可以缩小采样源点pms之间的间隔,但不可避免地会导致体积的增大和内存和计算成本的增加。为此,我们的目标是通过将自适应区间的特征集成到沿极极线分布的采样点上,打破利用高分辨率成本体积的网络效率约束:在这里插入图片描述
其中α表示采样点pms之间的间隔,Ω(·)表示极线聚合。对方程进行离散化,实现极线聚合模块

首先,利用深度假设dm的采样源点的位置,然后以半像素的最大间隔作为最优区间,沿极线插值偶数个点,通过测量参考点与密集插值点之间的群相关,构建高分辨率代价体。假设深度是使用逆深度设置生成的,因此采样点之间的间隔相对均匀。然后,通过下图所示的网络聚合由内插点构成的代价体,来缩小代价体。该聚合网络由聚合和池化组成。考虑到高分辨率的代价体,每个体使用3×1×1核的卷积层来聚合邻近的特征,以获得适当的感受野。此外,通过沿深度方向的最大池化操作减小代价体,池化窗口大小自适应插值速率。
在这里插入图片描述
经过EAM模块处理后的代价体,依旧维持了原始形状,但是每个cost voxel都汇聚了邻近插值采样点的信息,其感受野要远优于处理之前,从而能够做出更为精准的深度预测。而且不仅充分利用了图像信息,而且不受相机位置多样性引起的深度间隔变化的影响,能自适应地以最优分辨率聚合特征。

2.2基于熵的改进策略

采用多级结构,将深度图Dk+1细化到更窄的范围内进行预测。因此,确定了精细成本量的深度假设。如图所示,对于每个像素,假设深度{dm k+1}m=1-M图像的中心为k阶段的预测深度,假设范围通常由实验确定的固定因素缩小。用一个固定的因子缩小范围,既可能在粗深度预测不好的情况下导致真深度定位被排除在细化范围之外,也可能在大范围内引入冗余来细化精确的深度。在这里插入图片描述

论文中提出了基于熵的细化策略,在最后阶段预测置信度的基础上,缩小假设范围,减少冗余。该模块可以根据当前阶段的深度预测情况自适应调整下个阶段的深度假设范围。ER模块利用了“熵”的性质,其表达了模型对于预测结果的置信度:熵越大,代表模型对于预测结果越不置信。
即变量的熵是变量可能结果中固有的“信息”和“惊奇”的平均水平。在我们的例子中,给定M个可能的结果,Ek估计阶段k深度预测中“惊喜”的数量,M E k ( p ) ‾ \overline{Ek(p)} Ek(p)是描述“惊喜”的足够状态数。
给定概率体积Pk在这里插入图片描述
E代表熵,k代表当前处于的阶段,M代表当前阶段的深度假设数量,P代表深度预测概率,像素p的深度值为假设深度dmk的概率,p代表像素位置,d代表相应的深度假设。

熵越大表示Dk的置信度越低(系统相对越混乱),自然需要的假设深度范围越大。k+1阶段的假设深度范围由以下决定:在这里插入图片描述
r代表深度范围,计算得到当前阶段深度图上每个点对应的熵之后,根据上述公式获取下一个阶段的深度假设范围。由于深度图的置信度是通过简单地平均像素的熵来近似的, 因此引入了一个超参数λ来调整假设深度范围的缩小因子。ER模块可以根据每个阶段的深度预测情况自适应地确定下个阶段适宜的深度假设范围,从而进一步改进深度预测精度的同时,减少错误地将真值排除在深度假设范围之外的情况。

3、轻量级正规化

采用了两个3D U-net对代价体进行正则化和融合,进一步优化网络。在粗阶段,参考Vis-Mvsnet采用了加权聚合的方式,给定每对参考和源特征体积F0和Fn的代价体,对代价体进行两两正则化,即两块3D U-net,并联合推断可见性图。融合的代价体是由成对的代价体的线性组合构成的,使用可见性地图作为权重。为了节省计算量,只在coarse阶段生成作为权重的可见性图,后续阶段通过上采样的方式复用权重。
然后,通过两块三维U-net网络进一步正则化融合成本体积。最后,利用soft argmin运算从代价体积回归粗深度。对于精细阶段,我们使用粗阶段推断的上采样可见性图直接融合成对的代价体积,并通过融合正则化网络对合并的代价体积进行正则化。

下图中,a为三维卷积,b为论文中使用的伪三维卷积,所提出的伪三维在空间维度和深度维度上分别采用了CNN。对于核大小为1×3×3的空间卷积,对相邻像素的代价体积进行卷积,在深度域上对不同深度假设下像素的代价体积进行3× 1× 1的卷积。明显地降低了计算量,提高了重建质量。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_44708206/article/details/129056351
今日推荐