【论文精读】IGEV-MVS:Iterative Geometry Encoding Volume for Stereo Matching

今天读的是发表于CVPR2023的文章,作者全部来自于华中科技大学。
文章链接:Iterative Geometry Encoding Volume for Stereo Matching
项目地址:GitHub

Abstract

Recurrent All-Pairs Field Transforms(RAFT)在匹配任务中显示出巨大的潜力。 然而,all-pairs correlations缺乏非局部几何知识,并且难以解决不适定区域中的局部模糊性。 本文提出了迭代几何编码体(IGEV-Stereo),这是一种用于立体匹配的新深度网络架构。 所提出的 IGEV-Stereo 构建了一个组合的几何编码体,该体对几何和上下文信息以及局部匹配细节进行编码,并对其进行迭代索引以更新视差图。 为了加速收敛,利用 GEV 来回归 ConvGRU 迭代的准确起点。IGEV-Stereo 在 KITTI 2015 和 2012 (Reflective) 上所有已发布的方法中排名第一,并且是前 10 名方法中最快的。 此外,IGEV-Stereo具有很强的跨数据集泛化能力以及较高的推理效率。 我们还将 IGEV 扩展到MVS,即 IGEV-MVS,它在 DTU 基准上实现了有竞争力的精度。

1 Introduction

介绍了stereo和mvs相关的内容。

2 Related Work

介绍了以代价体为基础的方法,比如GCNet、ACVNet、GwcNet;介绍了迭代优化的方法,比如RAFT-Stereo。

3 Method

在这里插入图片描述

3.1 Feature Extractor

构造了2个特征提取器,一个是提取多尺度特征用于构建代价体,并指导代价体聚合,一个是上下文网络提取语境特征,用于ConvGRU里hidden state的初始化和更新。

3.2 Combined Geometry Encoding Volume

给定左右特征,创建一个group-wise correlation volume,把特征沿着channel维度分为8组,计算correlation maps。
只是基于feature correlations的代价体 C c o r r C_{corr} Ccorr缺乏捕捉全局几何结构的能力,为了解决这个问题,进一步使用3D正则化网络得到几何编码代价体 C G C_{G} CG。这个正则化网络是基于轻量3D UNet的,包含3个下采样模块和3个上采样模块。进一步,为了增大感受野,把视差pool得到一个两层的 C G C_{G} CG金字塔和all- pairs correlation volume C A C_{A} CA C G C_{G} CG C A C_{A} CA结合起来得到combined geometry encoding volume。

3.3 ConvGRU-based Update Operator

使用soft argmin来regress C G ( d ) C_{G}(d) CG(d)得到最初的视差 d 0 d_{0} d0,其中d是1/4分辨率时一组预定的视差indices。然后从 d 0 d_{0} d0,我们可以使用三层ConvGRU来迭代视差。
这一个部分和RAFT-Stereo类似。

3.4 Spatial Upsampling

通过 1/4 分辨率下预测视差 d k d_{k} dk 的加权组合输出全分辨率视差图。 与 RAFT-Stereo 以 1/4 分辨率从隐藏状态 h k h_{k} hk 预测权重不同,我们利用更高分辨率的上下文特征来获得权重。 我们对隐藏状态进行卷积以生成特征,然后将它们上采样到 1/2 分辨率。 上采样的特征与左图像中的 f l , 2 f_{l,2} fl,2 连接以产生权重 W ∈ R H × W × 9 W ∈ \mathbb{R}^{H×W×9} WRH×W×9。 我们通过粗分辨率邻居的加权组合输出全分辨率视差。

3.4 Loss Function

在这里插入图片描述
在这里插入图片描述
其中 γ = 0.9 \gamma=0.9 γ=0.9

4 Experiment

4.1 Implementation Details

使用Adam W优化器,在3090显卡上训练了200k次,batchsize=8,在KITTI 2012和2015上finetune,并使用了crop和数据增强。

4.2 Ablation Study

做了一些消融实验。
在这里插入图片描述
在这里插入图片描述

4.3 Comparisons

和SOTA方法做对比并且表现最好。

4.4 Zero-shot Generalization

因为大型的真实世界数据集很难获得,所以泛化能力就显得尤为关键了。直接在Middlebury 2014和ETH3D上进行测试,也获得了很好的效果。
在这里插入图片描述

4.5 Extension to MVS

在DTU上重新训练32个epoch,mvs版本相比起stereo版本移除了context network,这意味着ConvGRUs不会接触context stream。在DTU上获得了还行的效果,其实远不是SOTA,文章没有和最新的方法比。
在这里插入图片描述

5 Conclusion and Future Work

总结不说了,重点是未来工作。
使用轻量级 3D CNN 来过滤成本量并获得 GEV。 然而,当处理表现出较大视差范围的高分辨率图像时,使用 3D CNN 处理由此产生的大尺寸成本量仍然会导致较高的计算和内存成本。 未来的工作包括设计一个更轻量级的正则化网络。 此外,我们还将探索级联成本量的利用,使我们的方法适用于高分辨率图像。

猜你喜欢

转载自blog.csdn.net/YuhsiHu/article/details/131564462