【論文精読】IGEV-MVS: ステレオマッチングのための反復幾何符号化編

今日読んだのはCVPR2023に掲載された論文で、著者は全員華中科技大学の出身です。
記事リンク:ステレオ マッチングのための反復ジオメトリ エンコーディング ボリューム
プロジェクトのアドレス: GitHub

概要

Recurrent All-Pairs Field Transforms (RAFT) は、タスクのマッチングにおいて大きな可能性を示しています。ただし、全ペア相関には非局所的な幾何学的な知識が不足しており、不適切な設定の領域における局所的な曖昧さを解決するのは困難です。この論文では、ステレオ マッチングのための新しいディープ ネットワーク アーキテクチャである Iterative Geometric Encoding Volume (IGEV-Stereo) を提案します。提案された IGEV ステレオは、ジオメトリ情報とコンテキスト情報、およびローカル マッチングの詳細をエンコードする結合ジオメトリ エンコード ボリュームを構築し、視差マップを更新するために反復的にインデックス付けされます。収束を高速化するために、GEV を利用して ConvGRU 反復の正確な開始点を回帰します。IGEV-Stereo は、KITTI 2015 と 2012 (Reflective) で公開されたすべてのメソッドの中で 1 位にランクされ、トップ 10 のメソッドの中で最も高速でした。さらに、IGEV-Stereo は、強力なデータセット間汎化能力と高い推論効率を備えています。また、IGEV を MVS、IGEV-MVS に拡張し、DTU ベンチマークで競争力のある精度を実現します。

1 はじめに

ステレオとmvに関するコンテンツを紹介しました。

2 関連作品

GCNet、ACVNet、GwcNet などのコスト ボディに基づく手法を導入し、RAFT-Stereo などの反復最適化手法を導入しました。

3 方法

ここに画像の説明を挿入

3.1 特徴抽出器

2 つの特徴抽出器が構築されます。1 つはマルチスケール特徴を抽出してコスト本体を構築し、コスト本体の集約をガイドするもので、もう 1 つは初期化と更新に使用されるコンテキスト ネットワークによってコンテキスト特徴を抽出するものです。 ConvGRU の非表示状態の。

3.2 結合ジオメトリエンコーディングボリューム

左右の特徴を考慮して、グループごとの相関ボリュームを作成し、チャネル次元に沿って特徴を 8 つのグループに分割し、相関マップを計算します。
機能相関に基づくコスト本体C corr C_{corr}のみC間違っています全体的な幾何学的構造をキャプチャする能力が欠如しているため、この問題を解決するために、さらに 3D 正則化ネットワークを使用して幾何学的エンコードコストボディCG C_{G}を取得します。CGこの正規化されたネットワークは軽量 3D UNet に基づいており、3 つのダウンサンプリング モジュールと 3 つのアップサンプリング モジュールが含まれています。さらに、受容野を増やすために、視差プールを使用して 2 層CG C_{G}を取得します。CGピラミッドと全ペアの相関ボリュームCA C_{A}CCG C_{G}をしますかCGそしてCA C_{A}C結合して、結合されたジオメトリ エンコーディング ボリュームを取得します。

3.3 ConvGRU ベースの更新オペレーター

ソフト argmin を使用してCG ( d ) C_{G}(d)を回帰しますCG( d )初期視差d 0 d_{0}d0ここで、d は 1/4 解像度での視差インデックスの所定のセットです。次にd 0 d_{0}からd0、3 層の ConvGRU を使用して視差を反復処理できます。
この部分はRAFT-Stereoと似ています。

3.4 空間アップサンプリング

視差dk d_{k} を1/4 の解像度で予測しますdの重み付けされた組み合わせにより、フル解像度の視差マップが出力されます。隠れ状態から 1/4 解像度の RAFT ステレオを使用hk h_{k}h予測の重みは異なり、高解像度のコンテキスト特徴を利用して重みを取得します。隠れ状態を畳み込んで特徴を生成し、それらを 1/2 解像度にアップサンプリングします。アップサンプリングされた特徴は、左の画像のfl , 2 f_{l,2}と同じです。fl 2連結して重みW ∈ RH × W × 9 W ∈ \mathbb{R}^{H×W×9}WR高さ×× 9粗解像度の近傍の重み付けされた組み合わせを通じて、フル解像度の視差を出力します。

3.4 損失関数

ここに画像の説明を挿入
ここに画像の説明を挿入
ここで、γ = 0.9 \gamma=0.9c=0.9

4 実験

4.1 実装の詳細

Adam W オプティマイザーを使用し、3090 グラフィックス カード、バッチサイズ = 8 で 20 万回トレーニングし、KITTI 2012 および 2015 で微調整し、クロップとデータ拡張を使用しました。

4.2 アブレーション研究

いくつかのアブレーション実験を行いました。
ここに画像の説明を挿入
ここに画像の説明を挿入

4.3 比較

SOTA メソッドと比較し、最高のパフォーマンスを発揮します。

4.4 ゼロショットの一般化

大規模な現実世界のデータセットは入手が難しいため、一般化能力が特に重要です。Middlebury 2014 と ETH3D で直接テストしたところ、良好な結果が得られました。
ここに画像の説明を挿入

4.5 MVS への拡張

DTU で 32 エポックの再トレーニングを行うと、mvs バージョンではステレオ バージョンと比較してコンテキスト ネットワークが削除されます。これは、ConvGRU がコンテキスト ストリームに触れないことを意味します。DTU では効果は悪くありませんが、SOTA には遠く及ばず、記事は最新の方法と比較されていません。
ここに画像の説明を挿入

5 結論と今後の課題

総括はもちろん、今後の取り組みに焦点が当てられています。
軽量の 3D CNN を使用してコスト ボリュームをフィルタリングし、GEV を取得します。ただし、大きな視差範囲を示す高解像度画像を扱う場合、3D CNN を使用した処理のサイズが大きくなり、依然として高い計算コストとメモリ コストが発生します。今後の作業には、より軽量な正規化ネットワークの設計が含まれます。さらに、この方法を高解像度画像に適したものにするために、カスケード コスト ボリュームの利用を検討します。

おすすめ

転載: blog.csdn.net/YuhsiHu/article/details/131564462