[論文概要] Pixelwise Visibility-AwareMulti-View Stereo の逆深度回帰の学習 (IJCV 2022)

1. 論文の簡単な紹介

1.筆頭著者: Qingshan Xu

2.発行年: 2022年

3. 発行誌: IJCV

4. キーワード: MVS、3D 再構築、可視性情報、アンチノイズ トレーニング、逆深度回帰、平均グループ相関

5. 探索の動機:可視性情報は無視されます。

したがって、可視性の推定は、ほとんどすべてのネットワークで完全に無視されます。ただし、各ソース イメージを同等に扱うと、無関係なソース イメージからのノイズの影響を受けやすくなります。これにより、ベースラインが広い ETH3D 高解像度ベンチマークなどのデータセットに対する学習ベースの方法のパフォーマンスが大幅に制限されます。可視性情報を推定して学習ベースの MVS のパフォーマンスを向上させる 2 つの同時作業が存在することに注意してください。ただし、これらの 2 つの作業は依然としてベースラインが狭いデータセットに焦点を当てているため、ベースラインが広いデータセットではパフォーマンスが制限されます。

6. 作業目標:学習ベースの MVS メソッドを実際に真に実行可能にするためには、ディープ ニューラル ネットワークでソース画像のピクセルごとの可視性情報を学習することが非常に重要です。

学習ベースの MVS メソッドを実際に真に実行可能にするためには、ディープ ニューラル ネットワークでソース画像のピクセル単位の可視性情報を学習することが重要です。

7. コア アイデア:相関コスト ボリュームを使用したマルチビュー ステレオの学習逆深度回帰と PVSNet: ピクセルワイズ ビジビリティ アウェア マルチビューステレオ ネットワークの 2 つの論文の 2 つを 1 つにまとめたバージョン。

  1. 軽量のコストボリュームを構築するために、ピクセルジーの可視性を意識したグループごとの相関類似性測定を提案します。この手段により、ネットワークが強い視点変更を伴うデータセットに真に適用されるだけでなく、ネットワークのメモリ負荷が大幅に軽減されます。
  2. 2 ビュー コスト ボリュームから 2D 可視性マップを回帰するためのピクセル単位の可視性推定ネットワークを提案し、ネットワークをトレーニングするためのアンチノイズ トレーニング戦略を開発します。可視性マップは、オクルージョン、イルミネーション、構造化されていない表示ジオメトリの影響を反映できます。これにより、最終的なコスト ボリューム表現で、優れたビューの重みを大きくすることができます。
  3. マルチビュー深度推論問題を逆深度回帰タスクとして扱い、逆深度回帰が大規模なシーンでより堅牢で正確な結果に到達できることを示します。 
  4. 高解像度の深度マップの改良のために、序数ベースの不確実性推定戦略を設計します。この戦略は、大規模なシーンの 3D 再構築に適しています。

8. 実験結果:

私たちのネットワークは、DTU データセット、Tanks and Temples データセット、および ETH3D 高解像度ベンチマークで有望な再構成結果を達成しています。

9. 論文のダウンロード:

ピクセルごとの可視性を意識したマルチビュー ステレオ ネットワークの逆深度回帰の学習 | Celent スプリンガーリンク

2. 実施プロセス

PVSNetの概要

PVSNet は、ベースラインと高解像度推定の 2 つの部分で構成されています。

エピポーラ (VisCIDER):重み共有の深い特徴抽出モジュールによる参照画像とソース画像の特徴マップ抽出。ソース画像の特徴マップは、均一な逆深度値でホモグラフィック変換され、参照画像の座標に投影されます。参照ビューと各ソース ビューのデュアル ビュー コスト ボリュームは、グループ相関モジュールによって構築され、ビジビリティ マップは、(a )。複数のデュアル ビュー コスト ボリュームは、可視性マップによって重み付けされた統合コスト ボリュームにさらに集約されます。予測された深度マップは、コスト ボリュームをフィルター処理して回帰することによって取得されます。

b 高解像度推定:適応逆深度仮説を生成するために、前の段階で得られた確率量に基づいて序数ベースの不確実性が計算されます。適応逆深度値を使用して、ホモグラフィの変動とグループ相関によって、薄いデュアル ビュー コスト ボリュームが構築されます。複数のデュアルビュー コスト ボリュームは、前のスケールで取得されたアップサンプリングされたビジビリティ マップによって重み付けされ、統合されたコスト ボリュームに集約されます。参照画像の高解像度深度マップは、3D U-Net と逆深度回帰によって生成されます。このプロセスは、参照画像と同じ解像度の深度マップが取得されるまで繰り返されます。

 詳細な構造については、https: //zhuanlan.zhihu.com/p/558191511を参照してください。

おすすめ

転載: blog.csdn.net/qq_43307074/article/details/129618261