画像ソース
- 全方向リグ上の広視野 (FOV) カメラ
- このホワイト ペーパーでは、具体的には、新たに結合された 4 つの魚眼カメラです。
方法
- 1. 入力魚眼画像を単項特徴マップとして抽出する
- 2D CNNで実現
- この記事では SegNet+dilated convolution を使用しています
- 2D CNNで実現
- 2. フィーチャー マップと内部および外部パラメーターを使用して 4D フィーチャー ボリュームを作成する
- キャリブレーション+球面掃引で実現
- この論文では、マルチ魚眼カメラ リグ モデルと球面スイープ法を使用します。
- キャリブレーション+球面掃引で実現
- 3. マッチングコストボリュームの計算
- 3D CNN による正則化
- 4.深度推定
- softargmin を使用して実行
マルチフィッシュアイ カメラ リグ
マルチカメラの中心では、単位ベクトルp ⃗ \vec{p}を使用します。pなリグ全体の方向を示します。
- 単位ベクトルp ⃗ \vec{p}pな空間で指された点 X は、次のように表すことができます。
リグ ベクトルp ⃗ \vec{p}pな球を形成するために指された点の集合
- ボールの半径が ρ の場合、空間点 X からピクセル座標系 x へのマッピングは次のように表されます。
球状掃引
カメラ リグ モデルでp ⃗ \vec{p}を設定することによってpな異なるサイズの球は、長さ ρ (球の半径) で取得できます。
- ρ は、逆深度dn d_nによって具体的に定義されます。dn設定する
- 逆深度が0~dmaxの場合 d_{max}dマエックス_ _、対応する深度範囲は1 dmax \frac{1}{d_{max}}dマエックス_ _1無限に
魚眼マップとのマッピング関係を持つ N 個の球体を設定します (対応する特徴マップが実際に使用されます)。
特徴の学習と調整
2D CNN によって得られる単項特徴マップは次のように表されます。U = FCNN ( I ) U=F_{CNN}(I)う=ふC N N(私)
- 分解能は1 r HI × 1 r WI × C \frac{1}{r}H_{I}×\frac{1}{r}W_{I}×Cr1H私は×r1W私は×ハ
- こんにちは H_{I}H私は和 W I W_{I} W私は入力画像の高さと幅、rrrは削減係数、CCCはチャンネル数
機能マップは、上記の球面スイープ方法によってボールにワープします:
機能マップの特定の用途:
- 較正された内因性および外因性パラメーター
- 座標ルックアップ テーブル
- 2D バイリニア補間 i
N 個の球体の場合、隣接するワープされた特徴マップに十分な視差があり、計算オーバーヘッドが削減されるようにするため
- 球はn ∈ [ 0 , 2 , … , N − 1 ] n ∈ [0, 2, …, N− 1]で区切られますnε[ 0 、2 、…,N − 1 ]
- 歪んだ 4D 特徴ボリュームS i S_{i}S私サイズはH × W × N 2 × CH×W×\frac{N} {2}×CH×W×2N×ハ
また
- 勾配は、バックプロパゲーション中に逆方向に分散されます。
- 各入力画像のマスクM i M_iを計算しますM私、有効な領域外のピクセルは、ラップとバックプロパゲーションで無視されます。
ネットワーク アーキテクチャ
- 最初に魚眼グレースケール画像を入力し、2D CNN を介して元の画像の半分のサイズの特徴マップを取得します
- 次に、 3 × 3 conv 3 × 3 convを介して、球面スイープによって位置合わせされた機能3×3 c o n vを球面フィーチャに転送し
、球面フィーチャ マップを連結して渡す3 × 3 × 3 conv 3×3×3 conv3×3×3 c o n vコストボリュームへの融合 - コストボリュームは、3D エンコーダー/デコーダーによって洗練され、正則化されます。
- 最後に、softargmin を適用して逆深度を取得します。
ネットワークをエンドツーエンドでトレーニングするために、入力画像とグラウンド トゥルースの逆深度が入力として使用されます。
損失は、予測された逆深度とそのグラウンド トゥルースの絶対誤差損失です。