【論文解説】 A-SATMVSNet: 衛星画像に基づく注意を意識したマルチビューステレオマッチングネットワーク

1. 論文の簡単な説明

1.筆頭著者:リー・リン

2. 発行年: 2023年

3. 雑誌「FES_A」に掲載

4. キーワード: MVS、3D再構成、注意メカニズム、衛星画像

5. 探索の動機:現在の大規模シーンのアテンションベースの MVSNet 再構成は不正確かつ不完全です。

アクティブ再構成技術は、ハードウェアを使用してショットシーンの幾何学的情報を直接取得するものと、ターゲットシーンの深度情報を取得するものに分けられる。パッシブ再構成技術は、カメラを使用していくつかの画像を取得し、ターゲット シーンを再構成します。アクティブ3D再構成と比較して、パッシブ再構成技術で使用されるカメラ機器は、エネルギー消費が少なく、実際のシーンと直接接触しないという利点があります。さらに、デジタル カメラやスマートフォンのレンズの人気により、カメラ ハードウェアのコストは過去 10 年間で大幅に低下しました。これは、ほとんどの人がカメラを持ち、世界中のビジュアル データベースにデータを提供できることを意味します。これらの豊富で多様な写真データを整理・活用し、高精度に再構成することで、

6. 作業目標:注意メカニズムを通じて上記の問題を解決します。

7. 核となるアイデア:

  1. 表面特徴の抽出が不十分であるという問題を解決するために、注意モデルを備えた三重拡張畳み込みに基づく新しい特徴抽出モジュールを提案します。
  2. 従来の加重平均法と比較して、マッチング段階での精度を向上させるためにマッチングエラーの影響を軽減するアテンションメカニズムを統合した新しいコンストボリューム法を提案します。

8. 実験結果:

提案された方法は、KITTI での全体的なパフォーマンスの優位性を維持しながら、動的領域で最先端の方法を上回り、エラーが 21.3% 大幅に減少しました。また、動的領域における DDAD データセットに対して、競合する手法よりも最高の汎化能力を実現します。

9. 論文のダウンロード:

https://www.nature.com/articles/s41598-022-09685-w

https://github.com/MVSer/A-SATMVSNet

2. 導入プロセス

1。概要

衛星 MVS タスクの目標は、N-1 個の隣接するビューと対応するカメラ パラメーター間のマッチング関係を使用した、エンドツーエンドの粗密フレームワークを使用して高さマップ H を予測することです。

2. アテンションアウェアマルチスケール特徴抽出モジュール

以下の図は、アテンション モジュールを備えたエンコーダ ネットワークの詳細な特徴抽出層のアーキテクチャを示しています。まず、カーネル サイズ 3 × 3 の畳み込み層を使用して特徴が抽出され、その後、特徴マップがそれぞれ 2、3、4 の拡張率で 3 つの異なる拡張畳み込み層に入力されます。次に、3 つの出力特徴マップすべてが、アテンション モジュールを備えた 3×3 畳み込み層に送信されます。最後に、3 つの出力特徴マップが接続されて、最終的な特徴マップとして新しい特徴マップが生成されます。三重拡張畳み込みの式は次のとおりです。

 このうち、⊗は乗算演算、⊙は要素積、wiは拡張畳み込みのi番目の重みを表します。

図Bは、注目モジュールの構造を示しています。入力特徴マップは Fin として定義され、3×3 のカーネルを持つ 2 つの畳み込み層を使用してさらなる特徴 Fin_1 が生成されます。次に、シグモイド関数を使用して、Fw として定義される注意の重みを取得します。最終的な出力特徴は Fout として定義され、次のように計算されます。

図 C はデコーダ ネットワークの構造で、カーネル サイズが 3×3、ストライドが 2 のデコンボリューション層と、ストライドが 1 のコンボリューション層で構成されます。

3. 有理多項式カメラモデル (RPC)

有理多項式カメラ モデル (RPC) は衛星画像処理で広く使用されており、3 次の有理多項式係数を使用して画像点を対応する世界座標点に接続します。世界座標を (latn,lonn,hein) として定義し、緯度、経度、高度を表します。対応する正規化された画像座標は (sampn,linen) として定義されます。Pfwd と Pinv は両方とも 3 次多項式です。世界座標と画像座標の変換を次の図に示します。

衛星画像に基づく多視点ステレオ マッチング タスクでは、RPC モデルは、厳密センサー モデル (RSM) に高精度を提供できる、広く使用されている幾何学モデルです。

4. 微分可能な RPC ワーピング

ピンホール カメラ モデルと比較して、3 次有理多項式カメラ (RPC) モデルは衛星分野で広く使用されており、投影カメラ、アフィン カメラ、線形手押し箒カメラなどのすべてのカメラ モデルよりも優れています。RPC モデルは複雑であるため、単一の行列では RPC モデルのワーピングを表現できません。この点に関して、SatMVS は厳密で効率的な RPCwarping モジュールを提案しています。これは本質的に高次のテンソル変換であり、SatMVS 構造の基礎です。RPCwarping モジュールは、ワールド座標系の一連の仮想高さ平面を使用して、基準ビューの正面平行平面ではなく、さまざまなビューからの画像を基準ビューに投影します。これは、RPC モデルには、正面を定義する明示的な物理パラメーターが含まれていないためです。カメラの。

まず、SatMVS は 3 次多項式を使用して、3 次 3 次多項式を四元数 3 次同次多項式 f (x1,x2,x3,x4) =∑(aiajak)⋅xixjxk に変換します。ここで、aiajak (i,j,k∈{1 ,2, 3,4})。
X は、4 つの変数 X 、 1、 x2、 x3、 x4、つまり 1で構成されるテンソルとして表されます。T も多項式係数として表され、その形状は 4 × 4 × 4 になります。テンソル収縮操作の後、RPC モデルの分子と分母は次のように定義されます。

拡張後、点セット RPC モデルの式は次のように定義されます。

このうち、X(bm)はb番目のバッチのm番目の点を表し、T(b)はb番目のバッチの係数テンソルを表す。要素ごとに分割することにより、バッチ内のすべてのポイントの RPC ワーピングを一度に計算できます。

5. フィーチャーボディの適応型集約

前の方法では、分散を計算することでコスト量を取得します。しかし、「Aster-3」衛星によって撮影された衛星画像は撮影カメラアングルが異なるため、同じ重要性は明らかに不合理であり、遮蔽や非存在などのさまざまな条件によって引き起こされるマッチングエラーにより地物体の信頼性に影響を与える可能性があります。 -ランバーシアン曲面。したがって、以下の図に示すように、適応特徴体集約モジュールは、不等信頼性集約を実現するために、各特徴体に対して集約重み付けボディを計算するように設計されています。

これにより、マッチング エラーにつながる可能性のあるピクセルを抑制できます。つまり、ピクセルに対応する信頼度には低い重みが割り当てられ、主要な特徴情報に関する信頼度には高い重みが割り当てられます。適応機能集約モジュールも次のように開発されます。

 ここで、⊙ はアダマール乗算を表し、ω(…) は各コスト量に応じて適応的に生成されたピクセルレベルのアテンション マップです。

6. コスト本体の正規化

コスト ボディの正則化 (高さマップを取得するための回帰) は、セマンティック セグメンテーション タスクに一般的に使用される UNet を使用して処理されるセグメンテーション問題として見ることができます。したがって、コストボリューム正則化に使用される以前のUNet形状ネットワークと同様に、同様の多段階3D UNetを採用して、3段階(ダウンサンプリング、ボトルネック、アップサンプリング)からなる大きな受容野から隣接する情報を集約します。

7. 実験

7.1. データセット

TLC SatMVS

7.2. 実装の詳細

さらに、バッチ サイズは 4 に設定され、モデルは 4 つの NVIDIA GTX 2080 GPU デバイスでトレーニングされます。メトリック (MAE、RMSE、< 2.5m、< 7.5m、Comp および Runtime) は、モデルによって取得された高さマップの品質を評価するために使用されます。

おすすめ

転載: blog.csdn.net/qq_43307074/article/details/132101166