[ペーパー ブリーフ] WT-MVSNet: マルチビュー ステレオ用のウィンドウベースのトランスフォーマー (arxiv 2023)

1. 論文の簡単な紹介

1.筆頭著者:廖錦里、丁一康

2.発行年: 2023年

3. 雑誌発行: arxiv

4. キーワード: MVS、3D 再構成、トランスフォーマー、エピポーラ、幾何学的拘束

5. 探索の動機:ただし、参照画像とソース画像のすべてのピクセルを極幾何学的制約なしで一致させると、一致する冗長性が生じます。ソース画像 (MVS2D) のエピポーラ線に沿ってアテンションベースのマッチングを実行する最近の取り組みは、カメラの姿勢とキャリブレーションの不正確さに対する感度に悩まされ、誤った一致につながります。学習された MVS メソッドは、マルチビュー フィーチャの一貫性から深度仮説の可能性を推定することを目的としていますが、幾何学的に一貫した監視なしで、グラウンド トゥルースと予測された深度期待値との間の絶対誤差を計算します。

1. ただし、エピポーラ ジオメトリの制約なしで参照イメージとソース イメージの各ピクセルを一致させると、一致する冗長性が発生します。ソース画像のエピポーラ線に沿ってアテンション ベースのマッチングを実行する最近の取り組み (MVS2D) は、代わりに、不正確なカメラの姿勢とキャリブレーションに対する感度に悩まされており、その結果、誤ったマッチングが発生する可能性があります。

2. 学習された MVS メソッドは、マルチビュー フィーチャの一貫性から深度仮説の可能性を推定することを目的としていますが、幾何学的な一貫性の監視なしで、グラウンド トゥルースと予測された深度期待値との間の絶対誤差を計算します。

6.仕事の目標:上記の問題を解決すること。

7. 核思想:提案された MVSTR は Transformer を最大限に活用して、グローバル コンテキストと 3D ジオメトリのガイダンスの下でフィーチャを抽出できるようにすることで、再構成結果を大幅に改善します。

  1. 参照フィーチャとソース フィーチャのエピポーラ線付近の対応するウィンドウとの間のパッチ間のマッチングを強化するために、ウィンドウベースのエピポーラ トランスフォーマー (WET) を導入します。
  2. コストボリューム内のグローバル情報をより適切に集約し、滑らかさを改善するために、ウィンドウベースのコストトランスフォーマー (CT) を提案します。
  3. 推定された深度マップを幾何学的マルチビュー一貫性で監視するために、新しい幾何学的一貫性損失 (Geo Loss) を設計します。

8. 実験結果:

広範な実験により、私たちの方法が複数のデータセットで最先端のパフォーマンスを達成することが示されています
オンラインの Tanks and Temples ベンチマークで 1 位にランクされています

9. 論文のダウンロード:

https://arxiv.org/pdf/2112.00336.pdf

2. 実施プロセス

1. WT-MVSNetの概要

全体の構造を下図に示します。参照画像 I0、ソース画像 Ii、対応するカメラ外因性行列 Ti、カメラ内因性行列 Ki、深度範囲 [dmin、dmax] が与えられます。CasMVSNet に基づいて、最初のステップは、Feature Pyramid Network (FPN) を介して 1/4、1/2、およびフル イメージ解像度でマルチスケール フィーチャ Fi を抽出することです。マルチビュー画像のビュー内およびビュー全体でのグローバルな特徴の相互作用を強化するために、ウィンドウベースのエピポーラトランスフォーマー (WET) が提案されています。これは、抽出された特徴に対するイントラアテンションとクロスアテンションを交互に切り替えます。次に、変換されたソース フィーチャは、H×W×C×D の 3D コスト ボリューム V を構築するために参照ビューにワープされます。ここで、D は候補深度です。次に、提案されたコスト変換器 (CT) を使用して V を正則化して、H×W×D の確率ボリューム P を生成します。これにより、推定深度を生成するためのグローバル コスト情報が集約されます。最後に、交差エントロピー損失 (CE 損失) を使用して確率体を監視し、幾何学的一貫性損失 (Geo 損失) を使用して、幾何学的一貫性が満たされない領域にペナルティを科します。

2. ウィンドウベースのエピポーラトランス

ほとんどの既存の学習ベースの MVS メソッドは、ワープによって抽出された特徴から直接コスト ボリュームを構築するため、グローバル コンテキスト情報が不足し、ポイント ツー ライン マッチングはカメラのキャリブレーションの誤りに敏感です。この問題を解決するために、ウィンドウ ベースのエピポーラ トランスフォーマー (WET) が導入されました。これは、エピポーラ制約を使用してマッチングの冗長性を減らし、エピポーラ ウィンドウの近くで一致させます。

2.1. 事前準備

注意メカニズム。Swin Transformer は、線形計算の複雑さのみを持つ階層的な特徴表現を提案します。Swin Transformer ブロックには、ウィンドウ ベースのマルチヘッド セルフ アテンション (W-MSA) と可動ウィンドウ ベースのマルチヘッド セルフ アテンション (SW-MSA) が含まれており、次のように表現できます。

その中で、LN と MLP は LayerNorm と Multilayer Perception を表します。^zl と zl は l 番目のブロックの (S)W-MSA と MLP の出力です。Swin Transformer は、クエリ Q、キー K、および値 v として機能を重複しないウィンドウとグループに分割し、次のように定義される各 v に対応する Q と K のドット積によって、抽出された機能の類似性を計算します。

ここで、d はクエリとキーのディメンションを表します。B は相対位置偏差です。

内在的注意と相互注意。Q と K が同じ特徴マップから抽出されると、アテンション レイヤーは特定の特徴マップで関連情報を取得します。逆に、Q と K が異なる特徴マップから取得された場合、アテンション レイヤーは異なるビュー間のコンテキストの相互作用を強化します。

2.2. ウィンドウベースのエピポーラ相互注意

TransMVS-Net に従って、F0 と各 Fi の間で相互注意が行われ、Fi のみが更新されます。具体的には、F0とエピポーラ線に沿った各Fi対応ブロック画素との間の相互注意が計算される。最初のステップでは、F0 は同じサイズの M 個の重複しないウィンドウ W0 に分割され、hwin×Wwin は同じサイズであり、W0j の中心点 pj は、微分可能なホモグラフィ変更によって Fi に変更されます。i 番目のソース ビュー変更後の中心点は pij です。クロスアテンションを実現するために、同じサイズの hwin×Wwin のウィンドウ Wij が各 pji の周りに分割され、ソース フィーチャ内の pji のエピポーラ線がこのウィンドウを通過します。したがって、相互注意は、参照フィーチャ ウィンドウとソース フィーチャのエピポーラ線近くのウィンドウとの間の長距離グローバル コンテキスト情報の相互作用を強化できます。

2.3. ウェット構造

WET のアーキテクチャを下図に示します。WET は、主に注意内モジュールと注意間モジュールで構成されます。内部注意モジュールでは、抽出された特徴 Fi は、重複しないウィンドウに分割されます。各ウィンドウは平坦化され、W-MSA と SW-MSA に順次送られます。分割された各ウィンドウでは内部注意のみが実行されるため、W-MSA は入力フィーチャ全体のグローバル コンテキストをキャプチャできません。この問題を解決するために、SW-MSA とシフト ウィンドウ分割戦略を使用して、異なるウィンドウ間の情報の相互作用を強化し、グローバル コンテキストを取得します。マッチングの冗長性を減らし、間違ったカメラのポーズとキャリブレーションを回避するために、参照ビューとソース ビューの間でウィンドウ ベースのエピポーラ トランスアテンションが実行されます。クロスアテンション モジュールでは、F0 が重複しないウィンドウに分割され、各中心点がワープされて、ソース フィーチャ内の対応するウィンドウが分割されます。分割されたウィンドウを平坦化した後、F0 内の各ウィンドウと各 Fi 内の対応するウィンドウ間の交差注意を計算して、Fi を変換および更新します。

3.コストトランスフォーマー

著者は、さまざまな正則化の影響をさらに調査し、グローバルな受容野が最終的なパフォーマンスに大きな影響を与えることを発見し、新しいウィンドウベースのコスト トランスフォーマー (CT) を提案して、グローバルな情報をコスト ボディに集約します。下の図に示すように、受容野が拡大するにつれて、深さ次元で確率が最も高い確率ボクセルは、より滑らかになり、より完全になり、信頼度が高くなります (黄色の領域は確率が高く、信頼度が高いことに相当します)。3D CNN や非正則化と比較して、CT によって生成される確率ボリュームは高品質です。

3D注意。コスト ボリュームの正則化でグローバルな受容野を活用するために、W-MSA と SW-MSA が 3D に拡張され、3D ボリュームが空間次元と深度次元の両方で平坦化されます。後続の操作は、2D 注意に似ています。

CT構造。下の図に示すように、エンコーダー、デコーダー、およびスキップ接続が含まれます。入力コスト ボリューム V が与えられると、エンコーダはまず V を重複しない 3D ブロックに分割し、各 3D ブロックを 2×4×4×C から 32C に平坦化します。さらに、チャネル寸法32CをC'に射影するために線形埋込み層が使用され、その結果、埋込みコスト量V'が得られる。その後、V` はさらに重複しない 3D ウィンドウに分割され、各 3D ウィンドウは dwin×hwin×wwin×C` から dwinwinwin×C` にフラット化されます。平坦化されたウィンドウは、N 個の 3D アテンション ブロックに供給されます。各ブロックは、3DW-Intra-Att、3DSW-Intra-Att、およびブロック プーリング レイヤーで構成されます。ブロックプーリングレイヤーは、空間ダウンサンプリングとチャネル次元の増加に関与しています。デコーダでは、解像度を回復するためにデコンボリューションが使用されます。ブロック プーリング レイヤーによって生成される空間情報の損失を減らすために、浅い特徴と深い特徴が連結されます。つまり、エンコーダーとデコーダーのマルチスケールの特徴がスキップ接続によって融合されます。線形埋め込みレイヤーとパッチ拡張レイヤーを組み合わせると、変換された V` は V 次元と一致します。最後に、1×1×1 カーネルを使用した 3D 畳み込みを使用して、最終的な確率ボリューム P が取得されます。

 4. 損失関数

ジオメトリの一貫性の喪失。一般に、深度推定は、通常、推論段階で外れ値をフィルタリングするために使用されるマルチビューの一貫性を使用せずに、参照ビューでのみ監視されます。この論文では、マルチビューの一貫性がトレーニング段階に適用され、幾何学的な一貫性が満たされない領域にペナルティを課すために、新しい幾何学的な一貫性の損失 (Geo loss) が提案されています。最初に、参照ビューの推定深度マップ D0 内の各ピクセル p をワープして、隣接するソース ビュー内の対応するピクセル p'i を取得します。ここで、D0(p) はピクセル p の深度値を表します。次に、 p`i を 3D 空間に逆投影し、参照ビュー p` に再投影します。

この式で、Dgt i(p`i) は、p`i の実際の深度値を表します。2 つの再投影誤差を次のように定義します。

したがって、最終的な Geo Loss LGeo は次のように記述できます。 

ここで、Φ は、結合された再投影誤差をハイパーパラメーター γ で正規化するために使用されるシグモイド関数です。
pv は有効なマスク マップから取得された有効な空間座標のセットを表し、pg は、再投影エラーが特定のしきい値内にあるすべてのピクセルのセットです。ステージ数が増えると減少します。

全損。要約すると、損失関数はクロス エントロピー損失 (クロス エントロピー損失、CE 損失) と Geo 損失で構成されます。

5.実験

5.1. 実装の詳細

Pytorch の実装に基づいており、DTU トレーニング セットでトレーニングされています。CasMVSNet の 1/4、1/2、およびフル イメージ解像度の 3 つのステージと同様に、対応する深度間隔は、ステージ 1 からステージ 3 までそれぞれ 0.25 および 0.5 だけ減衰され、各ステージの深度の仮定は 48、32 です。そして8人。DTU でトレーニングする場合、画像の数を N = 5 に設定し、画像の解像度を 512×640 に設定します。Adam は 0.001 の学習率で 16 エポックのトレーニングを受け、6 エポック、8 エポック、12 エポックでそれぞれ 0.5 倍減衰しました。組み合わせ係数 γ = 100.0、損失重み λ1 = 2.0 および λ2 = 1.0 を設定し、再投影誤差は 3 つの解像度しきい値であり、τ1 は 3.0、2.0、1.0、τ2 は 0.1、0.05、0.01 です。8 個の Tesla V100 GPU でバッチ サイズ 1 のモデルをトレーニングするには、通常 15 時間かかり、GPU ごとに 13 GB のメモリを占有します。

5.2. 先進技術との比較

5.3. 制限事項

交差注意モジュールでは、中心点の重要性に関係なく、ワープの背後にあるポイントが参照フィーチャから固定的に選択されます。さらに、Transformer の導入により、必然的にトレーニング フェーズで高いメモリ コストが発生し、推論速度が遅くなります。

おすすめ

転載: blog.csdn.net/qq_43307074/article/details/129618250