Dyna-DepthFormer:動的シーンにおける自己監視型深度推定のためのマルチフレームトランスフォーマー

参照コード:なし

自己教師あり深度推定では、特徴の構築と動きの予測がパフォーマンスに大きな影響を与えます。特徴構築とは、画像データから有効な特徴を効率的に抽出し、奥行き推定結果をより正確なものにすることです。独自のシステムのカメラ システムの姿勢変化を推定することに加えて、動き推定では、自己教師付き深度推定に対する対応するエリア ピクセルの影響を軽減するために、シーン内の移動ターゲットも推定する必要があります。

奥行き推定ネットワーク:
画像の特徴抽出については、前回の記事で変換モジュールを紹介しましたが、まず、フレーム間の相関関係 (モーション ネットワークによって推定された姿勢情報) を使用して、変形可能なアテンション オペレーターを使用して現在のフレームの表現を最適化します。現在のフレーム特徴 (クエリ) と見なすことができます。 隣接するフレーム特徴 (key、val) とクロスアテンションを実行します。フレーム間情報インタラクションの結果を取得した後、変形可能な注意を使用して構築された自己注意モジュールを通過し、特徴の内部情報の表現を強化します。最後に、深度マップを予測するためにデコーダーが接続されており、その構造は次のとおりです。
ここに画像の説明を挿入します

機能最適化モジュールは依然として便利ですが、すぐには使えません。
ここに画像の説明を挿入します

モーション推定ネットワーク:
MonoDepth シリーズのクラシック ネットワークでは、モーション推定ネットワークは主にフレーム間のポーズ情報の推定を担当します。これにより、シーン内の移動ターゲットを処理できなくなり、シーン内の移動ターゲットの深度も決まります。このタイプのネットワークでは、「ブラック ホール」状況が発生することがあります。この記事では、反復法を使用してシーン内のターゲットの動きの変化を推定しますT res ∈ R 3 ∗ H ∗ W T_{res}\in R^{3*H*W}T解像度R3 H W、ここではターゲットの平行移動成分のみを推定しますが、回転成分については、ネットワークの予測範囲外である 0 に近い小さな値として扱います。動き情報推定部の全体構成は次のようになります。
ここに画像の説明を挿入します

実際、上の図にはT res T_{res}が描かれていません。T解像度ネットワークの反復最適化部分M ψ M_{\psi}Mp, このネットワークの入力はターゲット画像とターゲット画像からソース画像への変換です. まず, フレーム間の動き情報と奥行き情報から構成される画像ワーププロセスは次のように記述されます: I s → t = I s ⟨ proj ( D t , {
R t → s , tt → s + T res } , K ) I_{s\rightarrow t}=I_s\langle proj(D_t,\{R_{t\rightarrow s},t_{t\rightarrow s}+T_{ res}\},K)\rangles t=s⟨pro j ( D _ _{ Rt+T解像度} K )
そして移動ターゲットの運動情報は反復形式で記述されます:
Δ T = M ψ ( I t , I t → s ) , T res = T res + Δ T \Delta T=M_{\psi}( I_t, I_{t\rightarrow s}),T_{res}=T_{res}+\Delta TΔT _=Mp(T解像度=T解像度+ΔT は
まず、移動ターゲットの動き情報推定の妥当性を検証します
ここに画像の説明を挿入します

反復回数がパフォーマンスに与える影響を見てみましょう。
ここに画像の説明を挿入します

損失関数:
深度推定部分の最初の制約は、SSIM+L1+smooth の古典的な自己教師あり深度推定セットです:
L p = α 1 − SSIM ( I t , I s → t ) 2 + ( 1 − α ) ∣ ∣ I t − I s → t ∣ ∣ 1 + ∑ p ( ∇ D t ( p ) ⋅ e ∇ I t ( p ) ) 2 L_p=\alpha\frac{1-SSIM(I_t, I_{s\rightarrow t}) }{2}+(1-\alpha)||I_t-I_{s\rightarrow t}||_1+\sum_p(\nabla D_t(p)\cdot e^{\nabla I_t(p)}) ^2Lp=ある21SS IM (_s t)+( 1a ) ∣∣s t1+p( ∇D _( p )e( p ) )2.
動きのあるシーンの推定部分については、スムーズ + L1 ノルムの形式になります (結局のところ、ほとんどのピクセルは静的要素を表すため、まばらな結果を生成するために使用されます): L m = ∑ p L g 1 ( T res )
+ ∑ p ( ∇ T res ( p ) ⋅ e ∇ D t ( p ) ) 2 L_m=\sum_pL_{g1}(T_{res})+\sum_p(\nabla T_{res}(p)\cdot e^{ \nbla D_t(p)})^2Lメートル=pLg1 _( T解像度)+p( ∇T _解像度( p )e∇D _( p ) )2

実験結果:
移動ターゲットでのパフォーマンス:
ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/m_buddy/article/details/132288369