OmniMVS拜读:全方向ステレオマッチングのためのエンドツーエンド学習

画像ソース

  • 全方向リグ上の広視野 (FOV) カメラ
    • このホワイト ペーパーでは、具体的には、新たに結合された 4 つの魚眼カメラです。

方法

  • 1. 入力魚眼画像を単項特徴マップとして抽出する
    • 2D CNNで実現
      • この記事では SegNet+dilated convolution を使用しています
  • 2. フィーチャー マップと内部および外部パラメーターを使用して 4D フィーチャー ボリュームを作成する
    • キャリブレーション+球面掃引で実現
      • この論文では、マルチ魚眼カメラ リグ モデルと球面スイープ法を使用します。
  • 3. マッチングコストボリュームの計算
    • 3D CNN による正則化
  • 4.深度推定
    • softargmin を使用して実行

ここに画像の説明を挿入

マルチフィッシュアイ カメラ リグ

ここに画像の説明を挿入
マルチカメラの中心では、単位ベクトルp ⃗ \vec{p}を使用します。p リグ全体の方向を示します。ここに画像の説明を挿入

  • 単位ベクトルp ⃗ \vec{p}p 空間で指された点 X は、次のように表すことができます。
    ここに画像の説明を挿入

リグ ベクトルp ⃗ \vec{p}p 球を形成するために指された点の集合

  • ボールの半径が ρ の場合、空間点 X からピクセル座標系 x へのマッピングは次のように表されます。
    ここに画像の説明を挿入

球状掃引

カメラ リグ モデルでp ⃗ \vec{p}を設定することによってp 異なるサイズの球は、長さ ρ (球の半径) で取得できます。

  • ρ は、逆深度dn d_nによって具体的に定義されます。dn設定する
    • 逆深度が0~dmaxの場合 d_{max}dマエックス_ _、対応する深度範囲は1 dmax \frac{1}{d_{max}}dマエックス_ _1無限に

魚眼マップとのマッピング関係を持つ N 個の球体を設定します (対応する特徴マップが実際に使用されます)。ここに画像の説明を挿入

特徴の学習と調整

2D CNN によって得られる単項特徴マップは次のように表されます。U = FCNN ( I ) U=F_{CNN}(I)=C N N()

  • 分解能は1 r HI × 1 r WI × C \frac{1}{r}H_{I}×\frac{1}{r}W_{I}×Cr1H私は×r1W私は×
  • こんにちは H_{I}H私は W I W_{I} W私は入力画像の高さと幅、rrrは削減係数、CCCはチャンネル数

機能マップは、上記の球面スイープ方法によってボールにワープします:ここに画像の説明を挿入
機能マップの特定の用途:

  • 較正された内因性および外因性パラメーター
  • 座標ルックアップ テーブル
  • 2D バイリニア補間 i

N 個の球体の場合、隣接するワープされた特徴マップに十分な視差があり、計算オーバーヘッドが削減されるようにするため

  • 球はn ∈ [ 0 , 2 , … , N − 1 ] n ∈ [0, 2, …, N− 1]で区切られますnε[ 0 2 N 1 ]
  • 歪んだ 4D 特徴ボリュームS i S_{i}SサイズはH × W × N 2 × CH×W×\frac{N} {2}×CH×W×2N×

また

  • 勾配は、バックプロパゲーション中に逆方向に分散されます。
  • 各入力画像のマスクM i M_iを計算しますM、有効な領域外のピクセルは、ラップとバックプロパゲーションで無視されます。

ネットワーク アーキテクチャ

ここに画像の説明を挿入

  • 最初に魚眼グレースケール画像を入力し、2D CNN を介して元の画像の半分のサイズの特徴マップを取得します
  • 次に、 3 × 3 conv 3 × 3 convを介して、球面スイープによって位置合わせされた機能3×3 c o n vを球面フィーチャに転送し
    、球面フィーチャ マップを連結して渡す3 × 3 × 3 conv 3×3×3 conv3×3×3 c o n vコストボリュームへの融合
  • コストボリュームは、3D エンコーダー/デコーダーによって洗練され、正則化されます。
  • 最後に、softargmin を適用して逆深度を取得します。
    ここに画像の説明を挿入

ネットワークをエンドツーエンドでトレーニングするために、入力画像とグラウンド トゥルースの逆深度が入力として使用されます。

損失は​​、予測された逆深度とそのグラウンド トゥルースの絶対誤差損失です。ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/weixin_44671418/article/details/125285319