[論文概要] PVSNet: Pixelwise Visibility-Aware Multi-ViewStereo Network (arxiv 2020)

1. 論文の簡単な紹介

1.筆頭著者: Qingshan Xu

2.発行年: 2020年

3. 雑誌発行: arxiv

4. キーワード: MVS、3D 再構成、可視性、コスト量、トレーニング戦略

5. 探索の動機: ETH3D ベンチマークによって提供される画像には、ビューの大幅な変更が含まれているため、MVS メソッドでは、隣接するさまざまな画像のピクセル可視性情報を考慮する必要があります。既存の学習ベースの方法は、ビューが連続的に変化するビデオ シーケンスに合わせて調整されています。参照画像と可視性の相関が強い隣接画像が存在することを前提としているため、これらの画像は通常、グローバル ビュー選択の観点から入力として選択され、これらの画像は均等に扱われ、無差別多視点集約コスト ボリュームが構築されます。したがって、これらのネットワークでは可視性の推定は完全に無視されます。ただし、隣接する各画像を同等に扱うと、コスト ボリュームは、相関関係のない隣接する画像からのノイズの影響を受けやすくなります。

  1. Tanks and Temples データセットとは異なり、ETH3D の高解像度ベンチマークによって提供される画像には、視点に大きな変化が含まれているため、可視性の関連付けが複雑になります。これには、隣接するさまざまなイメージのピクセルごとの可視性情報を考慮する MVS メソッドが必要です。
  2. 既存の学習ベースの方法は、視点が連続的に変化するビデオ シーケンスに合わせて調整されています。参照画像と可視性の関連性が強い隣接画像が存在すると想定しているため、通常はこれらの画像をグローバル ビュー選択の観点から入力として選択し、これらの画像を均等に処理して、無差別の多視点集計コスト ボリュームを構築します。したがって、可視性の推定は、これらのネットワークでは完全に無視されます。ただし、隣接する各画像を同等に扱うと、関連性のない隣接する画像からのノイズの影響を受けやすくなります。これにより、ETH3D 高解像度ベンチマークなどのデータセットに対する学習ベースの方法のパフォーマンスが大幅に制限され、視点が大きく変化します。

6. 作業目標:ディープ ネットワークで隣接する画像のピクセル可視性情報を学習することは、解決すべき緊急の問題です。

現実世界のシナリオ、特に大規模な 3D 再構築では、通常、入力画像の視点が大きく変化します。したがって、学習ベースの方法を実際に真に実行可能にするためには、ディープ ネットワーク内の隣接する画像のピクセル単位の可視性情報を学習することが緊急の課題です。

7. コアアイデア:

  1. 堅牢なマルチビュー深度推定のために、Pixelwise Visibility-aware multiview Stereo Network (PVSNet) を提案します。私たちの知る限りでは、PVSNet は、隣接する画像の可視性情報を取得でき、視点が大きく変化するデータセットに真に適用できる最初の深層学習フレームワークです。
  2. 2 ビュー コスト ボリュームから 2D 可視性マップを回帰する方法を提案します。可視性マップは、オクルージョン、イルミネーション、構造化されていない表示ジオメトリの影響を反映できます。これにより、最終的なコスト ボリュームの表現において、優れたビューがより多くのウェイトを占めることができます。
  3. ピクセルごとの可視性ネットワークの堅牢性を向上させるために、邪魔なビューを導入する新しいトレーニング戦略を提示します。

8. 実験結果:

  1. その後の実験で検証された可視性の推定は、ETH3D 高解像度ベンチマークのような強い視点変更を伴うデータセットに必要なだけでなく、Tanks and Temples データセットのようなビデオ シーケンスを入力として持つデータセットにも重要です。
  2. 提案されたピクセルごとの可視性を意識したマルチビュー類似度測定の優位性を詳しく説明するために、広範な実験が行われました。新しい PVSNet がさまざまなデータセットで最先端のパフォーマンスを達成することを実証します。

9. 論文のダウンロード:

https://arxiv.org/pdf/2007.07714.pdf

2. 実施プロセス

1.PVSNetの概要

PVSNetの全体構造を下図に示します。参照画像Irefとソース画像Isrcが与えられると、最初にすべての入力画像に対して共有特徴抽出モジュールを使用して、マルチスケール画像特徴を抽出します。次に、各ソース画像と参照画像の間の 2 ビュー コスト ボリュームが、ホモグラフィ変換によって構築されます。複数のデュアルビュー コスト ボリュームを直接平均または分散計算するほとんどの既存の方法と比較して、この方法の主な新規性は、集約されたコスト ボリュームを計算する前に、異なるソース イメージのピクセル可視性情報を推定することです (図 .赤いボックス) 可視性情報に基づいて、2 つのビューのコスト ボリュームが加重コスト ボリュームに集約されます。最後に、コスト ボリューム フィルタリングと深度推定によって、参照画像の深度マップが予測されます。

2. マルチスケール特徴抽出

8 層の 2D  CNNを使用して、元の画像サイズ(3×H×W)を F×H/4×W/4 にダウンサンプリングします。ここで、 F=32は特徴チャネルの数です。

3. ピクセル可視化コスト ボリューム構築

まず、各ソース画像と参照画像の間に 2 つのビューのコスト ボリュームが構築されます。各ソース イメージの可視性マップは、各コスト ボリュームに従って回帰されます。これらの可視化マップを通じて、複数のデュアル ビュー コスト ボリュームがさらに統合されたコスト ボリュームに集約されます。

ツービューコストボディコンストラクション複数のサンプリング深度の仮定に基づいて、各ソース画像から抽出された深度特徴が参照画像のカメラ座標に変更され、変更されたソース画像の特徴と参照画像の特徴の間のマルチチャネル類似度マップがグループ相関によって計算されます。2 ビューのコスト ボディを作成します。次に、Dサンプリング深度の仮定に従って、 D類似度グラフが計算されます。これらの同様のグラフをパックして、G×H/4×W/4×D のサイズの 2 ビュー コスト ボディを構築します。ここで、G=8 はチャネルの数です。

ピクセルの可視性コスト ボリューム集計。2 ビュー コスト ボリュームは、異なるサンプリング深度の信頼度をエンコードするため、2 ビュー コスト ボリュームを取得した後、ソース イメージの可視性マップを回帰するために使用されます2 ビュー コスト ボリュームの分布は通常は区別できないため、最初に3D U-Net が変調に適用されます。ここで、 U-Net は3 スケール エンコーダー-デコーダー構造を使用して受容野を増加させます。チャネル特徴を生成する最後の畳み込み層を除き、その後にシグモイド活性化関数が続き、他の畳み込み層の後にはBN層とReLU が続きます。ソース画像の可視性マップ Vi は次のように定義されます。

P(j,p )は、 j 番目のサンプリング深度値におけるピクセルPの確率推定値です無関係なソース画像の影響をさらに取り除くために、可視確率が特定のしきい値を下回る画像が削除されます。次に、各ソース イメージの可視性マップを次のように変更します。

ここで、τ = 0.05 は、ソース イメージのアクティブ化を制御するしきい値です。上記の方程式はReLUに似ており、バックプロパゲーションによってネットワーク全体をエンドツーエンドでトレーニングできます。最終集計の原価本体は、次のもので構成されます。

4. コスト ボリュームフィルタリングと深度推定

空間ドメインと深度ドメインのコンテキストをさらに集約するために、集約されたコストボリュームをフィルタリングするために、正則化モジュールが積み重ねられた 3D CNN が適用されます。フィルタリング モジュールは、1 つの3D ResNet と 2 つの 3D U-Net で構成されます。大規模なシーン再構成に適応し、サブピクセル深度推定を実現するために、逆深度回帰を使用して深度予測を取得します。

P(j,p )は、深さ方向に沿ったソフトマックス操作によって正規化された確率ボリュームです。3 つの正則化モジュールの場合、ネットワークは 3 つの深度予測Dpred0、Dpred1、およびDpred2を生成しますL1損失関数は、ネットワークのトレーニングに使用されます。低解像度予測の損失関数は次のように定義されます。

5. 高解像度推定の拡張

低解像度の可視性の見積もりを使用して、シン コスト ボリュームの構築を支援します。具体的には、特定の段階の予測順序数と確率ボリュームを取得した後、分散に基づく不確実性推定を使用して、次の段階の深度サンプリング範囲を計算します。前のステージからの可視性マップは、現在のステージに直接アップサンプリングされ、可視性に敏感なシン コスト ボリュームが計算されます。次に、単純な 3D U-Net を使用して確率ボリュームを取得し、逆深度回帰を使用して深度マップを推測します。深度マップが元の画像解像度に達するまで、同じプロセスを繰り返します。高解像度予測のトレーニング ロスは次のように定義されます。

Dpred3と Dpred4 は、第 2 段階と第 3 段階の予測深度マップです。

6. アンチノイズトレーニング戦略

以前のすべての学習ベースの方法[ MVSNetに続く] では、グローバル ビューを使用して、モデルのトレーニングに最適な 2 つの隣接するビューを選択します。ただし、選択した 2 つのビューには可視性の関連性が非常に強いため、モデル トレーニング用の参照画像には、可視性に基づいた少数のネガティブ サンプルのみが参加します。正と負の間の極端な不均衡により、この方法ではピクセル可視性ネットワークの可能性を最大限に活用できません。この問題を軽減するために、邪魔なビューを導入するアンチノイズ トレーニング戦略 ( AN ) が提案されています。具体的には、MVSNetの方法を採用して、グローバル ビュー選択スコアを計算します。次に、最良の 2 つのビューと最悪の 2 つのビューを選択して、モデルをトレーニングします。このトレーニング戦略は、より多くの負のサンプルを導入し、ネットワークを無関係なビューに対してより堅牢にします。

7.実験

7.1. データセットと評価指標

DTU データセット、Tanks and Temples データセット、ETH3D 高解像度ベンチマークは、視点の変動が激しいデータセットです。

7.2. 実装の詳細

グローバル ビューの選択には、隣接する 20 のビューが含まれます。ネットワークは PyTorch を使用して実装されています。ネットワークは、RMSprop オプティマイザーを使用して 2 つの NVIDIA GTX 1080Ti GPU でトレーニングされます。初期学習率は 0:001 に設定されています。

7.3. 先進技術との比較

おすすめ

転載: blog.csdn.net/qq_43307074/article/details/129232662