今天读的是发表于CVPR2023的文章，作者全部来自于华中科技大学。
文章链接：Iterative Geometry Encoding Volume for Stereo Matching
项目地址：GitHub

Abstract

Recurrent All-Pairs Field Transforms（RAFT）在匹配任务中显示出巨大的潜力。然而，all-pairs correlations缺乏非局部几何知识，并且难以解决不适定区域中的局部模糊性。本文提出了迭代几何编码体（IGEV-Stereo），这是一种用于立体匹配的新深度网络架构。所提出的 IGEV-Stereo 构建了一个组合的几何编码体，该体对几何和上下文信息以及局部匹配细节进行编码，并对其进行迭代索引以更新视差图。为了加速收敛，利用 GEV 来回归 ConvGRU 迭代的准确起点。IGEV-Stereo 在 KITTI 2015 和 2012 (Reflective) 上所有已发布的方法中排名第一，并且是前 10 名方法中最快的。此外，IGEV-Stereo具有很强的跨数据集泛化能力以及较高的推理效率。我们还将 IGEV 扩展到MVS，即 IGEV-MVS，它在 DTU 基准上实现了有竞争力的精度。

1 Introduction

介绍了stereo和mvs相关的内容。

2 Related Work

介绍了以代价体为基础的方法，比如GCNet、ACVNet、GwcNet；介绍了迭代优化的方法，比如RAFT-Stereo。

3 Method

在这里插入图片描述

3.1 Feature Extractor

构造了2个特征提取器，一个是提取多尺度特征用于构建代价体，并指导代价体聚合，一个是上下文网络提取语境特征，用于ConvGRU里hidden state的初始化和更新。

3.2 Combined Geometry Encoding Volume

给定左右特征，创建一个group-wise correlation volume，把特征沿着channel维度分为8组，计算correlation maps。
只是基于feature correlations的代价体 $C_{corr}$ 缺乏捕捉全局几何结构的能力，为了解决这个问题，进一步使用3D正则化网络得到几何编码代价体 $C_{G}$ 。这个正则化网络是基于轻量3D UNet的，包含3个下采样模块和3个上采样模块。进一步，为了增大感受野，把视差pool得到一个两层的 $C_{G}$ 金字塔和all- pairs correlation volume $C_{A}$ 将 $C_{G}$ 和 $C_{A}$ 结合起来得到combined geometry encoding volume。

3.3 ConvGRU-based Update Operator

使用soft argmin来regress $C_{G}(d)$ 得到最初的视差 $d_{0}$ ，其中d是1/4分辨率时一组预定的视差indices。然后从 $d_{0}$ ，我们可以使用三层ConvGRU来迭代视差。
这一个部分和RAFT-Stereo类似。

3.4 Spatial Upsampling

通过 1/4 分辨率下预测视差 $d_{k}$ 的加权组合输出全分辨率视差图。与 RAFT-Stereo 以 1/4 分辨率从隐藏状态 $h_{k}$ 预测权重不同，我们利用更高分辨率的上下文特征来获得权重。我们对隐藏状态进行卷积以生成特征，然后将它们上采样到 1/2 分辨率。上采样的特征与左图像中的 $f_{l,2}$ 连接以产生权重 $\mathbb{R}^{H×W×9}$ 。我们通过粗分辨率邻居的加权组合输出全分辨率视差。

3.4 Loss Function

在这里插入图片描述

其中 $\gamma=0.9$ 。

4 Experiment

4.1 Implementation Details

使用Adam W优化器，在3090显卡上训练了200k次，batchsize=8，在KITTI 2012和2015上finetune，并使用了crop和数据增强。

4.2 Ablation Study

做了一些消融实验。
在这里插入图片描述

4.3 Comparisons

和SOTA方法做对比并且表现最好。

4.4 Zero-shot Generalization

因为大型的真实世界数据集很难获得，所以泛化能力就显得尤为关键了。直接在Middlebury 2014和ETH3D上进行测试，也获得了很好的效果。
在这里插入图片描述

4.5 Extension to MVS

在DTU上重新训练32个epoch，mvs版本相比起stereo版本移除了context network，这意味着ConvGRUs不会接触context stream。在DTU上获得了还行的效果，其实远不是SOTA，文章没有和最新的方法比。
在这里插入图片描述

5 Conclusion and Future Work

总结不说了，重点是未来工作。
使用轻量级 3D CNN 来过滤成本量并获得 GEV。然而，当处理表现出较大视差范围的高分辨率图像时，使用 3D CNN 处理由此产生的大尺寸成本量仍然会导致较高的计算和内存成本。未来的工作包括设计一个更轻量级的正则化网络。此外，我们还将探索级联成本量的利用，使我们的方法适用于高分辨率图像。

【论文精读】IGEV-MVS：Iterative Geometry Encoding Volume for Stereo Matching

目录