一、论文简述

1. 第一作者：Feiyang Pan

2. 发表年份：2023

3. 发表期刊：sensors

4. 关键词：MVS，数据增强，块匹配，自适应传播

5. 探索动机：错误的特征信息，如从图像的高亮区域提取出来，会对最终的深度图构建产生错误的指导，影响最终的重建结果。

The wrong feature information will still be extracted from the highlighted areas of the image. Therefore, it will generate wrong guidance for the final depth map construction, and ultimately affect the final reconstruction results.

6. 工作目标：可以对图像的高亮区域采用丢弃策略，避免错误引导。在《Self-supervised Multi-view Stereo via Effective Co-Segmentation and DataAugmentation》中，将数据增强策略应用于自监督MVS网络，以减少实际过程中光度一致性假设的误差，取得了良好的效果。

7. 核心思想：本文提出了一种基于数据增强的多视图立体视觉块匹配算法(Data-Augmentation PatchmatchNet)。

In the data input stage, the robustness of the network to the image is enhanced by changing the brightness, contrast, and hue of the input image and randomly removing some regional pixels from the image.

In the depth estimation stage, the method of dynamic interval d is adopted to obtain more image information.

In addition, we also utilize the feature information of the neighborhood pixel to construct the cost volume of the pixel through the patchmatch algorithm, thus completing the optimal estimation of the depth value.

More importantly, the data augmentation strategy can greatly simulate the error information contained in a single picture, making the network more robust.

8. 实验结果：效果一般

Extensive experiments on the DTU and Tanks and Temples datasets show that our algorithm is very competitive in completeness, speed and memory.

9.论文下载：

扫描二维码关注公众号，回复： 14761054 查看本文章

https://pdfs.semanticscholar.org/fda4/3a78cfbed44ca1021d518dd83104187bb1e9.pdf?_gl=1*c8czi6*_ga*MTg5ODE5MzY1Ni4xNjYwNjU5NDg3*_ga_H7P4ZT52H5*MTY4MDYyNDU0OC4xLjAuMTY4MDYyNDU0OS4wLjAuMA..

二、实现过程

1. DA-PatchmatchNet概述

网络结构如下图所示。主要包括深度估计分支和数据增强分支。在深度估计分支中，利用图像金字塔提取图像信息，利用块匹配和自适应代价聚合构造代价体，最后回归预测的深度图。在数据增强分支中，对图像的亮度、色调、饱和度等信息进行调整，并随机丢弃一些像素，以减小图像反射区域对重建深度图的影响。

2. 多尺度特征提取

参考图像I0和N−1个源图像Ii长和宽分别为W×H，采用了类似于特征金字塔网络(FPN)由粗到细提取特征，其输出尺寸为W/2k×H/2k(k=1,2,3)。

3. 基于学习的Patchmatch

结合传统的区域匹配算法和基于学习的深度估计算法，对PatchmatchNet进行了改进。

3.1. 初始化和局部扰动

在第一个区域匹配中，由于网络没有初始深度图，所以需要初始化深度图。初始化以随机方式执行。在每帧图像的深度范围[dmin, dmax]内，对每个图像像素的假设图像深度Df进行均匀采样，以保证初始化的多样性。这种方法便于将模型应用于大规模场景重建。

此外，在得到初始深度图后，在后续k阶段的迭代中引入局部扰动对深度图进行不断优化。具体如下:在原始深度图的深度范围Rk和更小的阶段k中，对每个像素Pk进行深度假设，从而增加局部扰动。降低范围Rk以更精细地优化性能。对于每个阶段的深度图，进行了多次迭代以达到最优效果。当它是下一个阶段的输入时，我们会对它进行上采样，这样深度图就可以在更大的规模上进行优化。

3.2. 自适应传播

图像中目标的深度值具有一定的空间相关性;然而，它仅由对象表面的像素表示。采用PatchmatchNet策略实现邻域像素的自适应传播。通过这种自适应传播，可以最大限度地获得物体表面像素深度值的空间相关性，使模型快速收敛到更精确的深度值。

具体来说，网络的自适应传播是通过一个可变卷积来实现的。Kp表示参考图像像素p对应的预测深度值，二维附加偏移量为{∆oi(p)}kp，这些都是通过模型来学习的。

其中D是通过前一次迭代输出的深度图上采样得到的。

3.3. 自适应评估

特征映射。通过单应性变化得变化后的特征。

代价匹配。在多视图立体视觉中，代价匹配是将指定数量的相邻帧图像{Ii} In =−11和参考图像I0的信息融合为单个像素p和假设深度dj。从最小尺度的图像中获取像素视图权值。通过像素视图权值进行特征融合。通过计算参考图和源视图的内积计算相似性。

本文采用像素视点权重策略。像素视图权值表示参考图像和源图像的像素可见性信息。{wi(p)}表示像素视图的权重。Wi(p)仅在最小尺度的第一次迭代中通过初始化深度假设得到，只计算一次。通过连续上采样，可以得到更精细的图像信息。3D卷积构建了一种提取像素视图权值的网络，该网络由1×1×1无偏差的卷积核和sigmoid层组成。相似度集合Si对应于0到1之间的一个数字，表示像素输出。pi ∈ RW×H×D表示深度对应像素的置信度。具体公式如下：

Pi(p, j)表示像素p在假设深度第j层的可见性置信度。S(p, j)表示最终参考图像与源图像的特征相似度集合，由Si(p, j)与wi(p)的加权和得到。

其中S(p, j)∈W×H×D×C。通过包含1×1×1卷积核的3D卷积，将特征相似度集转换为匹配代价C∈W×H×D。

自适应空间代价聚合。与自适应传播算法相似，传统的MVS匹配算法利用规则窗口来实现代价聚合。但这种规律的窗口不利于代价汇总的稳定性和平滑性。因此，采用PatchmatchNet的自适应代价聚合策略来改善该缺陷。对每个像素p提出{pk}Ke，其中Ke为空间窗口。学习时，空间窗口下每个像素的偏移量为{△pk}Ke。代价聚合定义：

Wk表示空间相似性。在参考图像特征图中，对像素点p周围位置的特征相似度进行采样，然后通过三维卷积输出像素与采样点的相似度的归一化权重。然后通过三维卷积得到像素与采样点相似度的归一化权重。Dk表示深度假设相似度。得到采样点和像素p假设深度的绝对值，归一化后进行sigmoid运算，最终输出深度权值。

深度回归。与MVSNet类似，使用softmax将自适应代价聚合得到的代价体转换为置信体。最后通过求期望得到深度图。

4. 动态间隔d

在大多数基于学习的MVS中，深度采样范围设置为[dmin, dmax]。在深度范围内固定采样深度层数，然后确定采样间隔。但在多尺度特征提取中，对于不同尺度的图像，固定的采样间隔会丢失图像的特征信息。因此，采用动态采样区间策略。根据图像在不同阶段的像素差来确定采样间隔。具体处理方法如下图所示。通过设置不同的像素差，由图像和摄像机的参数计算采样间隔。计算公式如下：

∆p'i,j为投影视图上相邻像素的差值。间隔d仅在图像比例变化时更新。

5. 数据增强

近年来的一些研究结果表明，数据增强对基于学习的重建结果有积极的影响。直观的理解是，数据增强为训练带来了更丰富的样本，从而影响了结果输出。事实上，数据增强为模型带来了一些原始训练数据所不具备的特征。这提高了模型的鲁棒性和泛化能力。具体地说，数据增强定义了一个随机向量θ。任意增大图像I的τθ 表示为I→Iτθ 。数据增强的引入可能导致损失函数不收敛。将原始数据的输出结果与增强数据相结合，进行正则化处理，提高了数据的一致性。

5.1. 视图掩码

众所周知，MVS重建中存在的视图遮挡和图像高亮问题会对重建结果产生不可弥补的影响。由于高亮区域的遮挡和错误信息，网络会重建出一个远离真实场景的模型。为了减少在多视图情况下视图遮挡和高亮对图像的影响，随机生成一个二维掩码Mτθ1遮挡部分参考图像。然后将二维掩码投影到相邻帧图像上，对图像中相应的区域进行分块。假设剩余区域I−Mτθ1在不受影响的情况下，对原始数据与增强后的数据输出结果之间的有效区域进行比较。

5.2. 伽马校正

与JDACS类似，gamma校正采用非线性方法来调整图像的亮度。通过这种方法，模拟了不同的视图由于光照条件的变化而对输出结果的影响。θ2是有定义的，τθ2 表示伽马校正对原始数据的变化。

5.3. 颜色变换和模糊

现在，许多图像变换都可以为图像的颜色添加一些随机性。例如，它可以使图像的颜色随机波动，随机模糊，相图像添加随机噪声。这种变换在一定程度上提高了数据的不可靠性，因此需要使模型对颜色变换具有鲁棒性，提高模型的泛化能力。τθ3 表示通过颜色变换对训练数据进行增强操作。通过改变图像的均值和方差来改变图像的性质。具体来说，使用Pytorch中的transforms函数来实现这一操作。此外，在图像中加入高斯噪声，模拟真实场景中不利因素对图像的影响。该策略提高了算法的鲁棒性。总之，τθ 表示数据扩充。定义为：