AAAI 2023 MOVEDepth: 単眼キューと速度ガイダンスに基づく自己監視型マルチフレーム深度推定


画像-20230108111847901

カンファレンス/ジャーナル: 2023 AAAI

论文题目:《自己教師ありマルチフレーム深度学習のための単眼キューと速度ガイダンスの作成》

论文链接:[JeffWang987/MOVEDepth: AAAI 2023]自己教師ありマルチフレーム深度学習のための単眼キューと速度ガイダンスの作成 (github.com)

オープンソース コード: AutoAILab/DynamicDepth (github.com)

解決された問題

MOVEDepth は、コスト ボリュームから深度を直接デコードするために MonoDepth デコーダーを使用しなくなりましたが、MVS フィールドのパラダイムに従い、コスト ボリュームから深度を返します。MOVEDepth は、コスト ボリュームを使用することで幾何学的情報を最大限に保存できると信じています。範囲を拡大し、より正確な深さの推定結果を取得します。ただし、ManyDepth と DepthFormer で述べたように、単眼マルチフレーム深度推定の分野では、カメラの静的な影響などの「不確実な要素」が多く存在するため、コスト ボリュームから深度の結果を直接回帰することは理想的ではありません。(静的フレーム)、弱いテクスチャ、反射領域、動的シーンなど。

これらの問題を解決するために、MOVEDepth は、単一フレームの事前深度や予測車両速度などの情報を使用して、深度をデコードするための軽量のコスト ボリュームを構築します。

実装の詳細

画像-20230108112007844

  • Pose ブランチは、ポーズネットを使用してカメラの外部機能を推定します。これは、以前の作業と一致しています。

  • Monocular ブランチは、単眼深度推定ネットワークを使用して、「大まかな」事前深度を予測します。DepthNet は、現在の任意の単眼モデルにすることができます。著者は、実験部分で MonoDepth2 と PackNet の 2 つのモデルを提供します。

  • MVS ブランチは従来の MVSNet パラダイムに従います。唯一の違いは、以下の図に示すように、ホモワープ ステージでは、MOVEDepth がグローバル深度をサンプリングせず、単眼の事前深度 (単眼優先度) に近いサンプリングを行うことです。(ManyDepth と DepthFormer はそれぞれ 96 と 128 の以前の深さを使用しますが、MOVEDepth は以前の深さのため16 の深さ候補のみをサンプリングすることに注意してください)

  • 速度ガイダンス サンプリング。MOVEDepth は以前の深度に近い 16 の深度ポイントをサンプリングしますが、深度サンプリングの範囲を制限しません。ManyDepth とは異なり、MOVEDepth はサンプリングする範囲を学習するために学習スキームを使用しなくなりましたが、予測された車両速度 (posnet によって推定) に応じて深度検索範囲を動的に調整します。動機は次のとおりです。カメラがより速く動くと、前後 2 つのフレームのステレオ ベースラインが大きくなり、MVS の事前の三角測量とより一致し、より正確な深度を取得できるようになります。つまり、MVS はより信頼性が高まるため、この記事では深さの検索範囲を追加します。逆に、カメラがゆっくり動いている場合、または静止している場合でも、前後 2 フレームにキャプチャされたシーンは変化せず、MVS の幾何学的相関は存在しません。したがって、現時点では MVS は信頼できません。MVS の出力が単眼奥行き推定の結果に近づくように、奥行き探索範囲を狭める必要があります。具体的な奥行き探索範囲の式は次のとおりです (言及する価値があるのは、著者は付録で詳細を示しています。 の幾何学的導出により、前後 2 つのフレームのステレオ ベースラインとカメラの動きの速度が線形関係にあると推定されます):
    d min ⁡ = D Mono ( 1 − β T ( v ) ) d max ⁡ = D Mono ( 1 + β T ( v ) ) \begin{aligned} d_{\min } & =D_{\text {Mono }}(1-\beta \mathcal{T}(v)) \\ d_{\max } & =D_{\text {Mono }}(1+\beta \mathcal{T}(v)) \end{aligned}ddマックス=Dモノ ( 1β T ( v ) )=Dモノ ( 1+β T ( v ) )
    v = α ∥ T ∥ 2 v=\alpha\|\mathbf{T}\|_{2}v=α T 2、T はポーズネットによって推定されたカメラ変換行列、α はカメラのフレーム レート、β はハイパーパラメータ、T() は v を現実世界に変換するスケーリング関数です。

  • 動的なシーンなどの問題を解決するために、MOVEDepth は Uncertainty-Based Depth Fusing を提案します。具体的には、MVS 局所領域の信頼性をコスト ボリュームのエントロピー関数から学習し、その後、単一フレームの事前およびマルチフレームの深度を学習します。 Fusion:
    U ( p ) = θ u ( ∑ j = 0 D − 1 − pj log ⁡ pj ) D Fuse = U ⊙ D Mono + ( 1 − U ) ⊙ DMVS \begin{array}{ c} \mathbf{U }(\mathbf{p})=\theta_{\mathrm{u}}\left(\sum_{j=0}^{D-1}-\mathbf{p}_{j} \log \mathbf{p }_{j}\right) \\ D_{\text {Fuse }}=\mathbf{U} \odot D_{\text {Mono }}+(\mathbf{1}-\mathbf {U}) \odot D_{\mathrm{MVS}} \end{array}U ( p )=あなた( j = 0D 1−p _jログ_pj)Dヒューズ =UDモノ +( 1DMVS _ _
    この視覚化から、ネットワークのディープ フュージョン部分のコスト ボリュームから学習された不確実な領域が動的車両と歩行者上にあることがわかります。これは、動的シーンでのマルチフレーム深度推定によって引き起こされる問題を軽減するのに役立ちます。

    画像-20230109112453694

    右の画像は学習された不確実性マップ(白:確か、黒:分からない)

要約する

MOVEDepth は、事前の単眼深度と車両速度の予測情報を使用してコスト ボリュームを動的に構築し、MVS フィールドのパラダイムに従って深度を回帰し、単一フレームの深度推定とマルチフレームの深度推定をより適切に組み合わせてより多くのデータを取得する方法を検討します。正確な予測結果。ただし、MOVEDepth で考えられる問題は次のとおりです。

  • MVS 部分では 16 個の深度仮定ポイントのみが使用されますが、それでも単眼の事前ネットワークが必要であるため、学習の負担が増大することは間違いありません。
    pth で考えられる問題は次のとおりです。

  • MVS 部分では 16 個の深度仮定ポイントのみが使用されますが、それでも単眼の事前ネットワークが必要であるため、学習の負担が増大することは間違いありません。

  • 動的部分では、コスト量のエントロピー関数から始まり、動的オブジェクトがもたらす信頼できない領域を学習し、動的オブジェクトを直接処理するわけではないため、まだパフォーマンスを改善する必要があります。(動的オブジェクトを処理する現在の方法は、この「国を救う曲線」スキームに似ていることに注意してください。これは、事前にトレーニングされたセグメンテーション ネットワークを使用するものですが、「美しく」なく、効果が実感できません。したがって、これをエレガントに処理する方法 (動的オブジェクトは未解決の問題になります)

おすすめ

転載: blog.csdn.net/henghuizan2771/article/details/130258591