[論文概要] マルチビュー St のノンパラメトリック深度分布モデリング ベースの深度推論 (CVPR 2022)

1. 論文の簡単な紹介

1.筆頭著者:ヤン・ジアユ

2.発行年: 2022年

3. 発行誌: CVPR

4. キーワード: MVS、3D 再構成、深度分布、スパース コスト ボリューム

5. 探索の動機:最近、コスト ボリューム ピラミッドを使用する学習ベースの方法は、通常、ローカル深度検索を実行するために粗いレベルで初期深度推定を構築しますが、すべてのピクセルが単峰分布に従うと仮定し、各ピクセルの深度はおおよそ次のように推定されます。所定の範囲内の継続的な深さプロファイルの期待。これらの方法は、深さの変化が激しい小さなオブジェクトと、単峰分布の仮定が成り立たない境界領域を無視します。推定された粗い深さが実際の深さからかけ離れている場合、エラーは詳細レベルにまで伝播し、ローカルの深さ検索では修正できず、深さの予測が不正確になります。

6. 仕事の目標:エッジ領域に対処すること。

7. 核となる考え:マルチモーダル分布を使用して異なる解像度で各ピクセル深度を明示的にモデル化することにより、著者はノンパラメトリック分布を使用して、3D 視線に沿った各深度仮説の確率を学習します。この方法は、特に粗い構造から細かい構造まで、他のパラメトリック法よりも柔軟です。対応する深度ブロック内の深度分布を最高解像度で使用して、学習プロセスをガイドします。学習分布が与えられ、上位 K 個の確率を通じて深い仮説を分岐させて、次のレベルのコスト ボリュームを構築します。ただし、ピクセル深度分岐処理により、相対的な空間関係が失われます。したがって、著者らは、相対的な空間関係を維持するために、まばらなコスト集約ネットワークを提案しています。

粗いものから細かいものへの構造には、2 つの主な問題があります。粗いレベルでの早期の決定と、コスト ボリュームの一部の空間的なあいまいさです。著者は、新しいマルチスケール深度評価フレームワークと組み合わせたノンパラメトリック深度分布モデルで最初の問題を解決し、厳密な空間関係を維持するために、新しいスパース コスト ボディ式とスパース コスト集約ネットワークで 2 番目の問題を解決します。

  1. ノンパラメトリック深度確率分布モデリングを提案し、ユニモーダルおよびマルチモーダル分布でピクセルを処理できるようにします。
  2. モデル化されたピクセル単位の深度確率分布に基づいて深度サンプルを分岐することにより、コスト ボリューム ピラミッドを構築します。
  3. まばらなコスト集約ネットワークを適用して各コスト ボリュームを処理し、コスト ボリューム内の厳密な幾何学的空間関係を維持し、空間的なあいまいさを回避します。

8. 実験結果:

いくつかのベンチマーク データセットでの広範な実験は、特に境界領域で、私たちのアプローチが優れたパフォーマンスを達成することを示しています。DTU データセットでは、私たちのアプローチは、現在の最先端のマルチスケール パッチマッチ ベースのアプローチ PatchmatchNet よりも優れており、境界領域で最大 32% 低いエラーをもたらします。

9. 論文のダウンロード:

https://openaccess.thecvf.com/content/CVPR2022/papers/Yang_Non-Parametric_Depth_Distribution_Modelling_Based_Depth_Inference_for_Multi-View_Stereo_CVPR_2022_paper.pdf

https://github.com/NVlabs/NP-CVP-MVSNet

2. 実施プロセス

1. NP-CVP-MVSNetの概要

最初に、ソース画像と参照画像の特徴ピラミッドが構築されます。次に、ピクセル レベルのノンパラメトリック深度確率分布モデルに基づいて、コスト ボリューム ピラミッドが構築されます。具体的には、各レイヤーのコスト ボリュームは、前のレイヤーの上位 K 確率深度サンプリングに基づいて構築されます。コスト ボリュームはスパースであり、スパース畳み込みによって集約されます。深度マップ D0 は、フル解像度レベルで外挿されます。

2.ノンパラメトリック深度分布モデリング

既存の方法は、ピクセル p の深さ d が単峰確率分布 Pp(d) に従うことを前提としています。この仮定の下で、推定深度 d(p) は、通常、この分布の期待値として定義されます。これは、深度仮説 {dm}M と線に沿ったその推定確率の積の積分としてほぼ定義されます。

離散深度マップの解像度が十分に高く、連続深度分布をよく近似している場合、単峰深度分布は有効な仮定です。ただし、解像度の低いピクセルは、特に下の図に示すように、本質的にマルチモーダルに分散されている、深さの不連続なオブジェクト境界を持つ一部の 3D 構造では、異なる深さの値を持つ 3D ポイントのセットの投影である可能性があります。粗いピクセルの深度分布は、フル解像度の深度マップ上の対応するブロックの深度観測によって近似できます。

下の図 (a) に示すように、既存のコスト ボリューム ベースのカスケード作業では、ユニモーダル分布を使用してこれらのピクセルを表現しているため、深さの推定が不正確になる可能性があります。分布の期待値として定義される推定深度は、任意の深度モダリティとは異なる場合があるため、後続の調整ステップで回復することは困難です。つまり、アルゴリズムは不正確な初期決定を行い、そのエラーは後続のモジュールに伝播します。代わりに、このペーパーでは、各ピクセルにノンパラメトリック深度確率モデルを導入して、任意の分布を持つピクセルを処理します。具体的には、粗い層 l のピクセル p が与えられると、その深さ dp は連続確率分布に従います。この連続分布 Pl(dp) は、一連の離散深度仮説 (離散サンプリング) {dl p,m} によって近似されます。次に、そのようなノンパラメトリックな深層確率分布のモデル化に基づく深層推論フレームワークが導入されます。

ユニモーダルおよびノンパラメトリックのディープ サーチ。(a) 既存の方法では、分布が単峰性であると仮定しているため、深さの推定値が不正確になる可能性があります。(b) ノンパラメトリック深度モデルは、マルチモーダル深度分布から正しい深度を推定できます。

3.コストボディピラミッド

特徴ピラミッドを使用して特徴 fl を抽出し、深度推定のコスト ボリューム ピラミッド {0...L} を構築します。ここで、L = L は最小解像度で最も粗いレベルを表し、L=0 は最も細かいレベルを表します。フル解像度に対応。

3.1. ディープ初期化の従来のコストボリューム

定義済みのグローバル深度検索範囲が与えられた場合、逆深度空間で深度値を均一にサンプリングします。各サンプル深度は、参照カメラ画像平面に平行な平面を表します。ソース ビューの特徴は、深さ d で計算されたホモグラフィの変更を使用して参照ビューにマッピングされます。また、マッチング コストは、参照フィーチャ f0L とマッピングされたソース フィーチャ fiL の間のグループ相関として計算されます。次に、各深度仮説平面のコスト マップを推定し、それらを連結してコスト ボリュームを作成します。また、ビュー集約モデルを採用して、さまざまなソース ビューから可視性マップを推定し、マッチング コストを融合します。通常のコスト量が与えられた場合、通常の 3D-UNet を使用してコストを集計します。初期コスト集約ネットワークは、各ピクセルのノンパラメトリック深度確率分布として定義された確率モデルを出力し、各深度サンプルの尤度を表します。次に、上位 K 個の確率でピクセル単位の深度サンプルが調査され、次のレイヤーのコスト ボリュームが構築されます。

3.2. 深度改善のためのまばらなコストボリューム

一般性を失うことなく、今後はピクセル インデックスを無視します。{dl Qi}K がレベル l での K 個の推定確率の深さサンプルを定義するとします。{Qi}K は最初の K 個の指標を定義し、Δdl は対応する深さ検索間隔です。レベル l から取得された K 個の可能な深度サンプルの周りでローカル検索を実行するために、レベル l−1 の深度サンプルは、下の図に示すように、選択された各レベル l 深度サンプルを 2 つのサンプルに分割することによって定義されます。

各ピクセル dm の計算式は次のとおりです。

また、深度探索間隔Δdl-1=0.5Δdlである。

レベル間の解像度の違いにより、Sl-1 は、レベル l のピクセルに対応するレベル l-1 のブロック内のピクセルによって共有されます。次に、レイヤ l-1 での深さ確率分布をモデル化するために、新しい深さサンプルからコスト ボリュームが構築されます。ただし、深度サンプルはピクセルごとに形成されるため、隣接する 3D ポイント間の相対的な空間位置は保持されません。そのため、スパース コスト ボリュームとスパース畳み込みに基づく集計情報を使用します。

3.3. まばらなコスト集約ネットワーク

スパース コスト ボディは、従来の密な 3D 畳み込みを使用して効果的に集約できないため、3 つのスパース 3D 畳み込み層、スパース BN 層、およびスパース ReLU 活性化層で構成される、pk の厳密な空間関係を使用して、スパース コスト集約ネットワークが構築されます。 . ネットワークの出力は確率分布であり、図に示すように、次の改善されたレベルのコスト本体を構築するための入力として使用できます。

スパース コスト本体とスパース コスト集計。色は想定される相対的な深さを示します。(a) 既存の方法は、空間的あいまいさを伴うフラット コスト ボリュームを構築します。(b) まばらなコスト ボリュームを構築し、そのまばらなコスト ボリュームを使用して厳密な空間関係を維持します。

4. フル解像度の深度推定

フル解像度レベル 0 でのみ深さを推測し、ピクセルあたりの深さとして推定された分布の期待値を取得します。

5. 損失関数

監視された方法でネットワークをトレーニングします。高解像度深度マップ観測によって近似された深度確率分布を GT として使用します。各ピクセル p について、真値確率分布 Pl gt,p は、最大解像度の画像パッチ Φp に対応する深度観測値のヒストグラムによって近似され、観測値の合計によって正規化されます。

高解像度のグラウンド トゥルースを使用した深度マップ観測は、深度確率分布を近似します。地上確率分布は、対応するパッチの最大解像度での深度観測のヒストグラムを近似し、観測の合計によって正規化されます。

ここで、dp' はブロック Φp 内のピクセル p' の真の深度値、dlm は深度仮説、Δdl は深度仮説間の間隔です。ピクセル p の仮説 dlm ごとに、推定確率と真の確率の間のバイナリ クロス エントロピーとして損失が計算されます。

経験上、真の確率分布は通常、少数の仮説に集中し、その結果、ゼロ確率と非ゼロ確率のサンプル数に不均衡が生じるため、ロスバランスが行われます。

ここで、Ωl はレベル l の画像座標ドメインを定義し、σl は 0 より大きい仮説確率のパーセンテージを表します。最後のレイヤーでは、グラウンド トゥルースと最終的に推定された深度マップの間の距離の l1 ノルムを測定することによって、深度推定が監視されます。

総損失は、粗スケールでの BCE 損失と最終レベルでの l1 損失の加重合計です。

6.実験

6.1. 実装の詳細

訓練。モデルは、サイズ 640 × 512 のダウンサンプリングおよびトリミングされた画像と、それらに対応する深度マップを使用して、DTU データセットでトレーニングされます。

測定。精度は、推定点群から実際の点群までの距離をミリメートル単位で測定し、完全性は、実際の点群から推定点までの距離を測定します。合計スコアは、正確さと完全性の平均です。

評価。テストのために、各層の仮説の数を {M l}Ll=0 {8,16,32,96} とします。

効率の点では、このモデルはフル解像度の深度マップを推定するために 6054 MB の GPU メモリと 1.2 秒を必要とし、これは既存のコスト ボリューム ベースの方法に匹敵します。

6.2. 先進技術との比較

標準的な 3D 畳み込みを使用したノンパラメトリック深度分布モデリングは、空間的なあいまいさによるパフォーマンスの低下に悩まされています。提案されたスパース コスト アグリゲーションは、ユニモーダル ベースのメソッドのパフォーマンスを向上させることができます。提案されたノンパラメトリック深度分布モデリングでは、最適な再構成品質のためにまばらなコスト集約が必要です。

制限事項

ただし、スパース畳み込みは完全に最適化されていないため、計算コストが高くなります。これにより、推論時間が長くなります。

おすすめ

転載: blog.csdn.net/qq_43307074/article/details/129618221