タイトル: 動的
シーンにおけるマルチフレーム深度推定のための単眼およびマルチビュー キューの融合の学習 論文: https://arxiv.org/pdf/2304.08993.pdf
コード: https://github.com/ruili3/dynamic-multiframe -深さ
ガイド
マルチフレーム深度推定は、静的シーンにおけるマルチビューの一貫性に依存して、高精度の結果を取得します。ただし、屋外シーンでは、静的な仮定に違反するさまざまな移動領域が存在するため、動的領域でのマルチフレーム法の精度は大幅に低下します。本論文では, 動的シーンに適したマルチフレーム深度推定ネットワークを提案する. 提案されたクロスキューアテンションメカニズムを通じて,Cross-cue attention
マルチフレーム/シングルフレーム深度キューの利点を効果的に組み合わせ, さらに強化する.動的領域セグメンテーションを導入することなく,動的領域での深度推定の効果は、シングル/マルチフレーム法よりも大幅に優れています。
モチベーション
これまで、マルチフレームの深度推定方法では、動的領域の深度推定の問題を解決するために、「動的領域のセグメンテーション + 単一フレームの推定と補償」という考え方が使用されていました。しかし
- この方法は、動的領域セグメンテーションの結果に非常に敏感であり、セグメンテーションの精度により、さらなる不確実性が導入されます
- 動的領域の精度は、単一フレームの推定効果によって制限されることが多く、単一フレームに基づいて大幅な改善を達成することは困難です
これに基づいて、この論文では次の質問を検討します。
動的領域セグメンテーションを導入せずに、マルチフレーム/シングルフレーム精度よりも大幅に優れた動的深度結果を達成できますか?
上の図に示すように、動的シーンにおける単一フレーム/複数フレーム キューのパフォーマンスをさらに分析することにより、単一フレーム キューは動的オブジェクトの形状をより適切にキャプチャできるが、静的シーンの精度は不十分であることが論文でわかりました。 ; マルチフレーム方式の静的精度は非常に低い. 高いが、動的領域にシーン構造の明らかな変形があります. 2 つのリードの補完的な性質は、相互強化の可能性を示しています。
- マルチフレーム静的構造情報は、単一フレームの全体的な精度を向上させ、単一フレームの動的領域の精度をさらに向上させることができます
- 単一フレームの動的構造情報を使用して、複数フレームの動的領域の精度を高め、最終的に高精度の動的シーン深度を出力できます
この目標を達成するために、この論文では、明示的なセグメンテーションなしで2つの深度キューの効率的な融合を実現するためのクロスキュー融合モジュールを提案しますCross-cue Fusion module
。
方法
ターゲット画像I t ∈ RH × W I_t\in \mathbb{R}^{H\times W}私tεRH × W、隣接フレーム( I t − 1 、 I t + 1 ) (I_{t-1}、I_{t+1})(私はt − 1、私t + 1)およびシーンの内部および外部パラメーターK 、TK、TK 、T、このペーパーの目標は、単一/マルチフレーム情報の融合を使用して、ターゲットフレームI t I_t私t深度値D t ∈ RH × W D_{t} \in \mathbb{R}^{H\times W}DtεRH × W . 上の図に示すように、この論文の主なモジュールには、単眼/マルチフレーム デプス キュー コスト ボディ構造、シングル/マルチフレーム デプス情報クロス キュー フュージョン モジュール (クロス キュー フュージョン)、および深度マップ回帰ネットワーク (Depth Module) など
シングル/マルチフレームのコストボディ構造
シングル/マルチ フレーム コスト ボリュームは、それぞれシングル/マルチ フレーム情報によって伝達される深度キューを表します。マルチフレーム コスト ボディの構築は、マルチビュー ステレオ マッチング コスト ボディの構築に従います。 k=1}^Mdε{
日k}k = 1M、Plane-sweeping メソッドを使用して、ターゲット グラフI t I_{t}私t任意のピクセルと、隣接するフレームに対応するエピポーラ ライン上のサンプリング ポイントとの間の一致する類似度を計算します。
次に、マルチフレーム マッチング コスト ボディC multi ∈ [ 0 , 1 ] H × W × M C_{\text {multi }} \in[0,1]^{H \times W \times M} を取得します。ハマルチ ε[ 0 ,1 ]高さ×幅×メートル。C multi C_{\text {multi }}の場合ハマルチ マッチングベクトル C multi ( i , j ) ∈ RM C_{\text {multi }}(i,j)\in \mathbb{R}^{M} の各ピクセルで表されるハマルチ (私,j )εRM。類似度が大きいチャネルは、それが表す深度値が真の深度に近いことを示します。
単一フレームのコスト ボディを構築するには、最初に単純な U-Net を使用してターゲット フレームI t I_{t}を生成します。私t単一フレーム深度マップD mono = f θ mono ( I t ) D_{\text {mono }}=f_\theta^{\text {mono }}\left(I_t\right)Dモノ =へ私モノ (私はt)、単一フレームの結果を融合のためのマルチフレーム コスト ボリュームのサイズに合わせるために、単一フレームの深度マップを深度コスト ボリューム C mono ∈ { 0 , 1 } H × W × M に変換します。 C_{\text {mono }} \in\{0,1\}^{H \times W \times M}ハモノ ε{ 0 ,1 }高さ×幅×メートル。ピクセルC mono ( i , j ) ∈ RM C_{\text {mono }}(i, j) \in \mathrm{R}^Mハモノ (私,j )εRMはワンホット ベクトルとしてエンコードされます
C mono , ( i , j ) [ k ] = { 1 ∣ d mono ∈ ( dk − 1 , dk ] } k = 1 M . C_{\text {mono },(i, j)}[k]=\ left\{1 \mid d_{\text {mono }} \in\left(d_{k-1}, d_k\right]\right\}_{k=1}^M. \\ハモノ , ( i , j )[ k ]={ 1∣dモノ ε( dk − 1、dk] }k = 1M.
クロスキュー フュージョン モジュール
シングル/マルチフレームのコストボディを取得C mono , C multi C_{mono},C_{multi}ハモノノ_ _ _、ハマルチ_ _ _最後に、この論文では、2 つを融合し、相互に改善するためのクロスキュー融合モジュール (Cross-cue Fusion Module、CCF) を提案します。上の図に示すように、クロスキューアテンションメカニズム (クロスキューアテンション、CCA) と残留接続で構成されます。
最初にC mono 、C multi C_{mono}、C_{multi}を入れます。ハモノノ_ _ _、ハマルチ_ _ _両方の特徴F mono , F multi ∈ R h × w × M F_{\text {mono}}, F_{\text {multi}} \in \mathbb{R}^{h \ times w \times M}ふモノ、ふマルチεRh × w × M、クロス キュー アテンション メカニズム (CCA) を使用して相互を強化します。
F~マルチ=CCAマルチ(Fモノ、Fマルチ)、F~モノ=CCAモノ(Fマルチ、Fモノ)。\begin{aligned} & \widetilde{F}_{\text {multi }}=\mathrm{CCA}_{\text {multi }}\left(F_{\text {mono }}, F_{\text { multi }}\right), \\ & \widetilde{F}_{\text {mono }}=\mathrm{CCA}_{\text {mono }}\left(F_{\text {multi }}, F_ {\text {mono}}\right)。\end{整列}なふ マルチ =CCAマルチ ( Fモノ 、ふマルチ )、ふ モノ =CCAモノ ( Fマルチ 、ふモノ ).
クロス キュー アテンション メカニズム (CCA) は、強化された機能F ~ multi 、 F ~ mono \widetilde{F}_{\text {multi }}、\widetilde{F}_{\text {mono}}ふ マルチ、ふ モノ. フィーチャを接続すると、フュージョン フィーチャF ~ fuse \widetilde{F}_{\text {fused}}ふ 融合した、残りの接続 j を使用してF ~ fuse \widetilde{F}_{\text {fused }}を変換しますふ 融合した 元の原価体F cat F_{\text {cat}}の情報ふ猫混ぜる
F = γ F ~ 融合 ↑ + F cat . F=\gamma \widetilde{F}_{\text {fused}} \uparrow+F_{\text {cat}}.ふ=cふ 融合した↑+ F猫.
どこでF cat F_{\text {cat}}ふ猫代表C mono , C multi C_{mono},C_{multi}ハモノノ_ _ _、ハマルチ_ _ _接続後の浅い CNN によって処理される特徴γ \gammaγは学習可能なパラメーターです。機能FFをFは深度推定ネットワーク (深度モジュール) に入力され、最終的な深度推定D t D_{t}Dt。
クロスキューアテンションメカニズム
クロス キュー フュージョン モジュールの重要な部分であるクロス キュー アテンション (CCA) には、マルチフレーム機能とシングル フレーム機能をそれぞれ強化する 2 つの並列ブランチがあります。簡単にするために、F ~ multi = CCA multi ( F mono , F multi ) \widetilde{F}_{\text {multi }}=\mathrm{CCA}_{\text {multi }}\left(F_ { \text {mono }}, F_{\text {multi }}\right)ふ マルチ =CCAマルチ ( Fモノ 、ふマルチ )メソッド プロセスを説明するための例として。
与えられたシングルおよびマルチフレーム機能F mono , F multi ∈ R h × w × M F_{\text {mono}}, F_{\text {multi}} \in \mathbb{R}^{h \times w \times M}ふモノ、ふマルチεRh × w × M、畳み込みを使用してF mono F_{\text {mono}}ふモノクエリ機能に変換Q mono Q_{\text{mono}}Qモノそして重要な機能K mono K_{\text{mono}}Kモノ、一方でF マルチ F_{\text {multi}}ふマルチ値の機能に変換V mono V_{\text{mono}}Ⅴモノ. 単一フレームのキューからエンコードされたQ mono Q_{\text{mono}}を利用しますQモノ和 K mono K_{\text{mono}} Kモノ内部相対注意重みR mono R_{\text{mono}}を計算しますRモノ、単一フレーム深度キュー内の相対的な構造関係を構築します
R mono = Softmax ( Q mono ⊗ K mono T ) , R_{\text {mono }}=\operatorname{Softmax}\left(Q_{\text {mono }} \otimes K_{\text {mono }}^ T\右)、Rモノ =ソフトマックス( Qモノ ⊗K単核症 T)、
次に、単一フレームの手がかりの相対的な構造関係情報を、行列乗算操作を介してV multi V_{\text{multi}}に転送します。Ⅴマルチ強化されたF ~ multi \widetilde{F}_{\text {multi}}で表されるマルチフレーム機能ふ
マルチ
F ~ マルチ = R モノ ⊗ V マルチ . \widetilde{F}_{\text {multi}}=R_{\text {mono}} \otimes V_{\text {multi}}.ふ
マルチ=Rモノ⊗Ⅴマルチマルチフレーム機能を使用して
シングルフレーム機能を強化する場合も同様の計算方法に従いますF ~ mono = CCA mono ( F multi , F mono ) \widetilde{F}_{\text {mono}}=\operatorname{CCA }_{ \text {mono}}\left(F_{\text {multi}}, F_{\text {mono}}\right)ふ
モノ=CCAモノ( Fマルチ、ふモノ)。
クロスキュー強化におけるCCAの領域選択的特性
クロス キュー アテンション メカニズム (CCA) は、学習可能な方法でシングル/マルチ フレーム キューで相互に改善するのに役立つ構造情報を選択的に転送できるため、明示的な動的オブジェクト セグメンテーションメソッドの導入を回避できることがわかりました。上の図に示すように、動的領域のサンプリング ポイント (列 1 の赤い点) でクロス キュー アテンション マップ R mono 、R multi R_{\text {mono}}、R_{\text {multi}} を実行します。Rモノ、Rマルチネットワークによって学習された構造情報の分布を示す視覚化。これは、各深度キューで相互に改善するのに役立ちます。の
- 単一フレーム キューによって伝達される情報 (列 2) は動的領域の周囲に集中しており、ネットワークが動的領域内の単一フレーム キューから有用な情報を学習し、それを複数フレーム キューに渡すことができることを示しています。
- ただし、マルチフレーム キュー (列 3) によって伝達される情報は、より広い静的領域に分散されており、ネットワークが静的領域のマルチフレーム キューから有用な情報を学習し、それを単一フレーム キューに渡すことができることを示しています。
異なる深度キューの下での CCA の情報転送の領域選択性は、動的な領域セグメンテーションを必要とせずに高精度の深度推定の可能性を示し、したがって追加のセグメンテーション メカニズムの導入を回避します。
実験結果
KITTI実績
上記のように、この論文はKITTI Odometry
データセットを比較し、マルチフレーム動的シーンの全体的な精度と動的領域の精度をそれぞれ示しています。以前の最適な方法と比較して、この方法の動的誤差は21% 以上 (Abs.Rel 0.141 $\rightarrow $ 0.111)大幅に減少し、同時に最高のグローバル深度推定精度を実現します。視覚化の結果は、この方法が動的領域の深度推定誤差を大幅に削減し、動的オブジェクトの構造とより一致する 3D 点群を再構築できることを示しています。
データセット間の一般化の比較
KITTI
訓練されたモデルはデータセットでテストされます.DDAD
実験結果は, 論文が現在の最良の方法と同じ全体的な一般化精度を達成できることを示しています. .
シングルフレームに対する能力向上とスケーラビリティ評価
以前の方法では、単一フレームの推定精度が動的領域の影響を制限する重要な要因でした。この論文は、動的オブジェクト領域でのそれぞれの単一フレーム ネットワークと比較して、さまざまな方法のパフォーマンスの向上を示しています。動的領域での紙の推定誤差は21.81 21.81であり、その単一フレームの分岐推定誤差よりも低くなっています。21.81 % で、他の方法よりも大幅に優れています (上の表の 1 ~ 3 行目)。同時に、より優れた単一フレーム推定ネットワークを適用した場合、論文はより優れた単一フレームのパフォーマンス (上の表の行 3 ~ 4) に基づいて同じ改善を達成し、その柔軟性とスケーラビリティを示しています。
要約する
本論文は動的シーンのための新しいマルチフレーム奥行き推定法を提案する。シングル/マルチフレーム深度キューをより適切に融合し、相互に改善することで、モーション セグメンテーションを使用しない高精度の動的領域深度推定が実現されます。実験は、この方法がより優れた全体的/動的領域深度推定効果を達成し、優れた一般化とスケーラビリティを備えていることを証明しています。