【論文精読4】MVSNetシリーズ詳細解説論文-CVP-MVSNet

CVP-MVSNet の全文は、「Cost Volume Pyramid Based Depth Inference for Multi-View Stereo」と呼ばれています。CVPR
2020 (CCF A) の主な革新は、coarse-to-fine (coarse-to-fine) モードを使用することです。コストボリュームピラミッド(コストボリュームピラミッド)を構築するプロセスは次のとおりです。

(1) 解像度の異なる L+1 層の画像ピラミッド (Image Pyramid) を構築する まず、最も精度の低い L+1 層の N 画像を使用して、MVSNet プロセスに基づいて深度マップ D L+1 を推測し、L層の初期深度を取得するためのアップサンプル図 D L
(2) 初期深度マップ D Lに基づいて、L 層の N 個の画像と組み合わせて、部分コスト ボリューム (部分コスト ボリューム) が次のように構築されます。再投影し、初期深度マップ D 順番に推定され、L(残りの深さ、つまり初期深度に対する Δd) が加算されて、現在の L レイヤーの最終的な深度マップ D L が得られます。( 3) 最後の 0 番目のレイヤー (元の次元深度チャート) が推測されるまで、ステップ (2) を繰り返します。


この記事は MVSNet シリーズの 4 番目の記事です。[論文集中読解 1] MVSNet シリーズ論文詳細解説 - MVSNetを読んでから読むと理解しやすくなります。

1. 問題点の紹介と工夫のポイント

この論文は主に、学習法に基づいて MVS 再構成が完了するときの精度の向上と適時性の問題を解決することを目的としています。最適化された RMVSNet はメモリ消費量を削減しますが、時間が長くなることが指摘されており、この論文と同様の Point-MVSNet -to-fine は深度マップを繰り返し最適化しますが、点群に対して直接操作するには時間がかかります。

イノベーションのポイントは主に次の2点に集約されます。

  • 粗い方法から細かい方法までコスト ボディ ピラミッドを構築し、Point-MVSNet よりも 6 倍高速なMVS 深度推論ネットワークを実現し、メモリ消費量を削減します。
  • コスト ボディ ピラミッドの各層を構築するとき、特に最初の層の後にローカル コスト ボディを構築するときは、残りの深さの検索範囲(つまり、初期の深さに対してどれだけ Δd を検索するか) が使用され、検索範囲の選択が行われます。画像解像度との関係を詳細に分析します

2. 論文モデル

ここに画像の説明を挿入

1. 機能ピラミッド

まず画像ピラミッドを構築し、共有パラメータ (活性化関数として Leaky-ReLU) を備えた 9 層の畳み込みニューラル ネットワークを使用して特徴を抽出します。出力チャネルの数は 16、幅と高さの寸法は [W/2] です。 l , H / 2 l ] 、後で使用するための特徴ピラミッドを形成します。

2.コストボディピラミッド

2.1 大まかな深度マップ推定のコスト本体 (レイヤー L+1)

このステップは、標準の MVSNet 推論プロセスです。この論文では、ホモグラフィー行列 H の役割を説明していることを言及する価値があります参照ビューのピクセル x とソース ビュー i のピクセル x i の間の可能な対応について説明しています。は、λ =H(d)xとして表され、λ i は、ソースビューiの下でのx の深さを表す。

2.2 マルチスケール深度残差推定のコスト本体(L層~0層)

まず、2.1 で L+1 層の深度マップ D L+ 1を取得し、それをアップサンプリングして L 層の初期深度マップ D L+1 を取得しました。このステップの目的は、結合された残差を取得することです。深度推定 L 番目の層の最終的な深度マップ D L =D L+1 +ΔD L
このステップはレイヤー 0 まで繰り返され、最終的な深度マップが取得されます。


このステップは核となるステップであり、この図を理解する必要があります。

まず、 2.1 アップサンプリング後の初期深度マップ D L+1 について、L 番目のレイヤー画像上のピクセル ポイント p(u,v) の深度を d p =D L+1 (u,v)として定義します。 )。

以下の図は、操作の 2 つのステップを示しています。左は再投影操作、右は特徴を抽出してローカル コスト ボリュームを構築する操作です。
ここに画像の説明を挿入

2.2.1 左再投影処理

現在のポイント p の初期深度に基づいて対応する 3D ポイント (緑) を見つけ、実際の 3D ポイント (紫、赤) として最も遠いおよび最も近い値として値を加算または減算します。残りの検索深度 s p は紫のポイントを指し赤 点間の距離 (範囲選択方法については 3.1 で詳しく説明します)、残留深度平面は M 個の可能な深度値平面を中央で分割し、残留深度平面の距離間隔は Δd p =s pです。 / M、M 個の可能な 3D 点の深さの値は (D L+1 (u,v)+mΔd p )、ここで m ∈ {-M/2, … , M/2-1} です。[初期深度が開始点であり、初期深度プラスまたはマイナスsp /2 は、可能な 3D ポイントの最も遠い深さと最も近い深度であり、これはΔd p残留深度の意味でも
あることが理解できます。

このとき、現在の参照ビューのピクセル ポイント p について、次の式に従って、異なる深さの M 個の 3D ポイントを投影し、紫色の部分に示すように、ソース ビューで M の深さに対応する特徴を取得できます。図に設定されている、緑と赤の深度ポイントは、各ソース ビューのフィーチャに対応します。
ここに画像の説明を挿入

2.2.2 右側にローカルコストボディを構築する

右側は、異なる深さのこれらの考えられる 3D 点の投影後のフィーチャの分散であり、M 個の仮想的な深さと合計が存在するため、分散値はその深さでのピクセル ポイント p のコスト値として使用されます。 HxW ピクセルで構成されます。 [H, W, M] のローカル コスト本体は、同じ 3D CNN を通過させた後、残留深さ Δd を推測することで推定できます。

[ここと MVSNet は分散法を使用してコスト ボディを構築しますが、MVSNet は一連の深度値を想定し、各参照ビュー上の各ピクセル座標を、ホモグラフィー行列 H を通じてソース ビューの下の対応するピクセル座標に変換して、その値を取得します。 、そしてここでは、実際の 3D 点の位置を仮定することによって、各ソース ビュー上の点の特性を見つけることです。つまり、MVSNet は、参照ビューのピクセルからソース ビューに対応するピクセル座標を見つけて、値を割り当てます。参照ビューからの 3D 点に対応するピクセル ポイント ビューに対応するフィーチャ]

3. 深度マップの推論

3.1 コストボリュームピラミッドの深度サンプリング

ここに画像の説明を挿入
この論文では、仮想深度平面のサンプリングは画像解像度に関連している必要があると観察しています。上の図に示すように、深度サンプリングが密すぎると、3D 点投影後の画像特徴が密になりすぎて、追加の深度推論情報が提供されなくなります。 , したがって、必要ありません。
ここに画像の説明を挿入
したがって、この論文では、最初にピクセル点 p の初期深度値を使用して対応する 3D 点 (緑) を見つけ、それをレベル ラインの方向に沿って各ソース ビューに投影します(前述したように、限界探索原理を使用します)。 ******** *) 投影点から左右方向に 2 ピクセル (?) 離れたピクセルを検索し3D レイに再投影します。このとき、2 つのレイの交点と参照ビューの深さ方向が検索深さになります

元のテキスト: エピポーラ線に沿った両方向の投影から 2 ピクセル離れた点を見つけます (図 3「2 ピクセルの長さ」を参照)。元のテキストによれば、左右のピクセルは 2 ピクセル離れている必要があります
。投影点は?画像でマークされているものは 4 ピクセルの長さである必要があります。

3.2 深度マップの推論

その後、MVSNet と同様に、コストボディを 3D 畳み込みネットワークに入れてコンテキスト情報を集約して確率ボディを出力し、確率ボディはソフト引数最大を通じて深度マップを取得することが期待されます。ピラミッドに沿って上から下に構築され、毎回取得されるレイヤーの最終的な深度マップ (L+1 番目のレイヤーを除く) は、次の式に従って計算される必要があります。つまり、アップサンプリングされた深度 + から推測される予想される残差の深度です
ここに画像の説明を挿入
。レイヤーのローカルコストボディによって取得される確率ボディ

4. 損失関数

ここに画像の説明を挿入
MVSNet と一致し、各層深度マップの l1 損失と実際の深度の合計が損失として使用されます。

3. まとめ

  • 絵がとても素敵です
  • このアイデアは非常に独創的です。点群を操作するよりも、粗い画像から細かい画像まで使用するほうが確実に高速です。まず、小さいサイズの初期深度マップを取得し、次にアップサンプリングを続けて、最終的な深度マップまで反復処理します。ボリューム構築は実際には MVSNet の分散法ですが、特徴を見つけるプロセスで既存の深度マップを使用するには、まずおおよその 3D ポイント位置を見つけて、3D マップを使用します。ポイントを使用して、ソース ビューの対応する位置のフィーチャを見つけます。
  • 残留サンプリング深度の選択方法について詳細な考え方と分析が行われます. 投影点と左右 2 ピクセルの点が探索深度としてレイに逆投影されます. その理由は, 画像上の点が密度が高すぎると追加情報を提供できないため、サンプルが多すぎることによって引き起こされるメモリ消費の問題が軽減されます。この深さサンプリングのサイズと方法も P-MVSNet で改善されていますが、その逆深さ設定については慎重に議論されていません。この記事の最後にある 3D 畳み込みネットワークと同様に、提供資料にありますが、この部分がまだ革新的な可能性があることを示しています。

おすすめ

転載: blog.csdn.net/qq_41794040/article/details/127897080