PVA-MVSNet

Pyramid Multi-view Stereo Net with Self-adaptive View Aggregation ：自适应视图聚合的金字塔多视图立体网络

摘要：在本文中提出了一种金字塔多视点立体(MVS)网络，该网络具有自适应视图聚合，用于精确和完整的密集点云重建。与以往基于深度学习的MVS方法中使用均方方差来生成成本量不同，VA-MVSNet通过引入两种新的自适应视图聚合:像素级视图聚合和体素级视图聚合，将不同视图中的成本方差与额外的内存消耗相结合。为了进一步提高三维点云重建的鲁棒性和完整性，将输入金字塔多尺度图像的VA-MVSNet扩展为PVA-MVSNet，其中利用多度量约束在较粗尺度上聚合可靠的深度估计，以填充较细尺度上的不匹配区域。

创新点：
1、不同视角的图像由于光照、几何参数、场景内容可变性等原因导致捕获特征的异质性。通过自适应融合从多个代价体中的差异，合并不同视图的图像之间的元素方差，引导多个代价体聚合成规范化的代价体。
2、将有多度量约束并行生成的多比例尺金字塔深度图聚合到细化深度图，通过多度量金字塔深度图聚合来融合多尺度信息。

1、VA-MVSNet总体架构

在这里插入图片描述

1、特征提取

设计了一个2D U-Net网络，输入的N张图像中提取出N个特征映射，大小为[W/4,H/4,32]。并进行特征体构建，应用微分单应性变化，得到特征体Vi，这一步与MVSNet类似。

2、自适应视图聚合

在MVSNet中，特征体通过计算方差得到代价体，这是认为每个视图的权重是相同的情况下，这里提出自适应试图聚合，考虑遮挡、光照、位置等信息，学习潜在的不同视图方差，这里设计了两种自适应试图聚合方法：pixel-wise view aggregation和voxel-wise view aggregation

2.1 像素级视图聚合

在这里插入图片描述

像素级视图聚合在高度和宽度维度上考虑深度数共用聚焦权重的假设，引入选择性加权注意图。只在宽和高的维度上计算各像素的方差选择权重，利用权重注意力图来聚合得到代价体。得到正则化代价体C_d,h,w
在这里插入图片描述
公式1表示需要为i为特征体的序号（即各特征图做微分变换后得到的的N个），d为深度，h,w为高和，减去序号为0（也就是参考视图的特征体），对两个特征体上各通道各像素位置求残差。
从残差特征体中沿深度方向进行max pooling和average pooling并concat在一起作为训练特征，输入到一个2D的PA-Net（包含几个2D卷积层和ResNet块）当中进行训练，输出是一张以像素为单位的选择注意力权重图。公式如下图，公式4为拼接两个pooling，公式3将得到的特征，输入PA-Net得到权重图w_h，w

在这里插入图片描述
最后根据公式2，令第i个残差特征体v’ 沿宽和高组成的各通道与该权重图逐元素点乘，并对各特征体操作后的结果求均值，这样来实现不同视图特征体使用不同权重的效果，权重聚合得到代价体C。

2.2 体素级视图聚合

在这里插入图片描述
每个具有不同深度层假设d的像素被区别对待，在深度方向上计算方差选择权重，其中3D特征体中的每个体素学习自己的重要性，用3D卷积来计算出一个深度方向上的3D权重选择块，之后在深度方向上根绝权重计算出代价体。在这里插入图片描述
下图是两个聚合网络

3、深度图估计

该步骤与MVSNet相同，利用3D Unet正则化代价体得到概率体，然后沿深度方向求期望，得到深度图。
损失函数为，x_valid表示ground truth中有效像素的集合，d(x)和d(x)^分别表示估计的深度图和ground truth。在这里插入图片描述

2、PVA-MVSNet架构

VA-MVSNet为点云重建生成了深度图，为了进一步提高重建的鲁棒性和完整性，提出多度量金字塔深度聚合方法，替换不匹配误差，降低分辨率深度图中的可靠深度估计聚合到高分辨率深度图中。
在这里插入图片描述
可以看出k层为分辨率较高的一层，利用光度一致性、几何一致性两个度量，筛选出小尺度上大于可信阈值上的点，通过上采样得到与大尺度图片上一致的尺寸，若大尺度对应位置的可信度小于阈值，则替换，从而实现金字塔自下而上（小->大）的深度聚合，直到最终细化到k = 0尺度在这里插入图片描述

4、实验

论文中最后用的是VA+MMP，也就是体素级聚合和多尺度金字塔深度兔聚合。