一、论文简述

1. 第一作者：Rafael Weilharter

2. 发表年份：2022

3. 发表期刊：ICPR

4. 关键词：MVS、3D重建、局部注意力、特征提取、代价体正则化

5. 探索动机：上下文特征没有得到足够好的利用，在低纹理、重复、镜面和反射区域中仍然存在精确匹配问题。

While these methods are able to achieve impressive results, accurate matching problems still remain in low-textured, repetitive, specular and reflective regions. A possible reason for this is that context-aware features have not been leveraged well enough yet.

6. 工作目标：使用注意力解决上述问题。然而，全局注意力层关注输入的所有空间位置，因此仅限于小的输入。

Nevertheless, these works rely on global attention layers, which attend to all spatial locations of an input and are therefore limited to a small input.

7. 核心思想：提出了ATLAS-MVSNet，利用局部注意力层（ATLAS）进行特征提取和3D正则化，以显著提高普通CNN解决方案的性能。

We introduce a multi-stage feature extraction network with hybrid attention blocks (HABs) to extract dense features and capture important information for the later matching and depth inference tasks.
We extend the local 2D attention layers proposed by [26] to 3D in order to be able to adopt our HABs for the 3D regularization network.
We produce clean depth maps prior to applying any filtering technique with an end-to-end neural network that is fully trainable on a single consumer grade GPU with only 11GB of memory.

8. 实验结果：

We perform extensive evaluations to show that our ATLAS-MVSNet ranks amongst the top methods on the DTU and the more challenging Tanks and Temples (TaT) benchmarks.

9.论文及代码下载：

GitHub - rafael-weilharter/ATLAS-MVSNet: Attention Layers for Feature Extraction and Cost Volume Regularization in Multi-View Stereo

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9956633

二、实现过程

1. ATLAS-MVSNet概述

架构概述:首先，利用2D的多阶段特征提取网络将HABs应用于给定的一组图像。不同尺度的特征通过单应性扭曲聚合成一个成本体。最粗略尺度(阶段n - 1)的成本体积通过3D CNN和3D HAB进行正则化，并通过回归产生深度估计。估算用于初始化后续阶段的成本量。这个过程重复n个阶段，以获得最终的深度图。

2. 特征提取

采用U-NET结构的多级网络。一开始，应用4个卷积层，其中层1的步长设置为2。然后，在阶段0所获得的特征图通过2D HAB。

2D混合注意力块。HAB构造为残差块，使用卷积和局部注意力层的混合组合（见上图）。为了减少局部注意力层的内存需求，输入首先通过步长为2的卷积层，然后是组归一化（GN）和ReLU层。然后应用一个带有LayerScale的局部注意力层。局部注意力层的实现如下图所示。

与卷积类似，输入是以感兴趣的像素xij为中心的大小为s×s（s=3）的局部区域R。与只有1个变换的卷积层相比，查询、键和值学习了3个不同的变换。根据R，通过softmax运算σ(·)计算像素输出yij：

其中查询qij＝Wqxij，键kab＝Wkxab和值vab＝Wvxab是具有它们各自的权重矩阵Wq、Wk和Wv的可学习的线性变换。这种公式的缺点是没有位置信息被编码，这导致排列等价，限制了视觉任务的性能。因此，通过向键添加可学习的参数来引入的相对位置嵌入。使用输出通道的一半维度对行方向进行编码，另一半维度对列方向进行编码。在实践中，这可以通过将2D编码布置为向量rab来完成，从而产生：

通过这种方式，注意力层可以像卷积层一样集成到网络中。

作为一种规范化策略，应用了LayerScale。形式上，通过将对角矩阵乘以注意力层之后的输出Xatt来完成的：

其中Y是HAB的最终输出，Xdown是下采样的输入。参数λ1至λn是可学习的权重。

最低比例的最后一个输出产生最粗糙的特征图。对于后续阶段，将以前的HAB输出扩大2倍，并将这些特征与当前阶段的HAB输出来连接。在连接之后应用额外的卷积层。

3. 代价体构建

通过单应性变化及方差的方式构建代价体。在最粗糙阶段构建覆盖整个深度范围的最小代价体。随后的代价体基于先前的代价体的深度图在较窄的深度范围上建立。

4. 代价体正则化

以粗到细的模式预测深度图。通过3D正则化网络及soft argmin运算对深度进行回归。3D正则化网络由两个3D卷积层的5个块组成，具有残差连接，接着是3D HAB。

3D混合注意力块。设计原理与上图所示相同，但没有下采样，因此代价保持在不变的尺度。通过将权重矩阵Wq、Wk和Wv扩展到三个维度来扩展局部2D注意力层。为了将位置编码扩展到3D，需要为深度方向添加另一个可学习参数向量。这意味着现在跨3个维度进行因子分解，将输出通道维度分为1/3，作为每个编码嵌入。

网络只在最粗阶段使用3D HAB，原因有以下两个：1）HAB是以增加GPU内存消耗为代价的，因为必须为每个查询、键和值学习不同的转换。这导致GPU内存需求呈指数级增长。2）最关键的是在覆盖整个深度范围的最粗略阶段获得正确的深度估计，因为这种预测将传播到其他阶段。

5. 损失函数

具有n个阶段，产生n−1个中间输出和1个最终深度预测。计算每个阶段的平均绝对误差作为损失：

其中λk是损失权重，在每个阶段减少1/2。

6. 实验

6.1. 实现细节

最终网络的阶段数设置为5，从最粗阶段4到最细阶段0，深度假设的数量分别设置为32、8、8、4。训练输入图像的数量为3，图像分辨率为1600×1152，训练总共18个epoch。网络可在具有11GB内存的单个消费级GPU上进行端到端训练（例如，Nvidia GeForce GTX 1080 Ti、Nvidia GeForce RTX 2080 Ti）。测试输入图像的数量为5。

6.2. 与先进技术的比较

Note, that there is a trade-off between these measurements, which is dependent on the fusion parameter τ.在这些测量之间有一个权衡，依赖于融合参数τ。

【论文简述】ATLAS-MVSNet: Attention Layers for Feature Extraction and Cost Volume Regularization ICPR 2022