[論文ノート] DiffBEV: 鳥瞰図知覚のための条件付き拡散モデル

元のリンク: https://arxiv.org/abs/2303.08333

1 はじめに

  多くの場合、カメラ パラメーターや LIDAR スキャンからのノイズにより、BEV の機能が不要なノイズで汚染されることがあります。拡散モデルにはノイズ除去機能があり、ノイズの多いサンプルを理想的なデータに復元できます。この論文では、条件付き拡散確率モデル (DPM) を使用して BEV 特徴の品質を向上させる DiffBEV を提案します。次に、クロスアテンションにより、条件付き拡散モデルの出力と元の BEV 機能が融合されます。
  DiffBEV は、さまざまなダウンストリーム タスク ブランチにアクセスし、エンドツーエンドのトレーニングを実行できます。

3. 方法

3.1 概要

  以下の図に示すように、この記事のモデルは、画像ビュー バックボーン、ビュー トランスフォーマー、条件付き拡散モデル、クロス アテンション、タスク関連デコーダーに分かれています。
ここに画像の説明を挿入します
  実際の実装では、LSS がデフォルトのビュー トランスフォーマーとして使用されます。

3.2 条件付き拡散確率モデル

3.2.1 拡散確率モデル

  本稿では、ビュートランスフォーマーの出力特徴を拡散モデルの条件として使用します。xT x_TにしましょうバツT標準正規分布N ( 0 , I ) \mathcal{N}(0,I) に従うにはN ( 0 ,I )ノイズ、拡散モデルは徐々に変換されますx T x_TバツT元のサンプルに変換x 0 x_0バツ0t 番目 ( 0 ≤ t ≤ T ) t(0\leq t\leq T)とします。t ( 0tT )ステップの分散はβ t \beta_tとして記録されます。b
  条件付き拡散確率モデルの順方向プロセスは次のとおりです: q ( xt ∣ xt − 1 ) 〜 N ( xt ; 1 − β txt − 1 , β t I ) q(x_t|x_{t-1})\sim \mathcal{ N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)q ( xxt 1)N ( ×;1b バツt 1bI )  记α t = 1 − β t , α ˉ t = ∏ s = 1 t α s \alpha_t=1-\beta_t,\bar{\alpha}_t=\prod_{s=1}^t\alpha_sある=1bあるˉ=s = 1あるsそれから、ttthステップtにおけるノイズのあるサンプル q ( xt ∣ x 0 ) ∼ N ( xt ; α ˉ tx 0 , ( 1 − α ˉ t ) I ) xt ∼ α ˉ tx 0 + 1 − α ˉ t ϵ q(x_t|x_0 ) \sim\mathcal{N}(x_t;\sqrt{\bar{\alpha}_t}x_0,(1-\bar{\alpha}_t)I)\\x_t\sim\sqrt{\bar{\alpha } _t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilonq ( xx0)N ( ×;あるˉ バツ0( 1あるˉ))バツあるˉ バツ0+1あるˉ ϵ増分ϵ 〜 N ( 0 , I ) \epsilon\sim\mathcal{N}(0,I)ϵN ( 0 ,
  ノイズ除去プロセスにより、ノイズの多いサンプルが徐々に修正されますxt x_tバツ確実に: p θ ( xt − 1 ∣ xt ) ∼ N ( xt − 1 ; μ θ ( xt , t ) , Σ θ ( xt , t ) ) p_\theta(x_{t-1}| x_t)\sim\ mathcal{N}(x_{t-1};\mu_\theta(x_t,t),\sigma_\theta(x_t,t));p( ×t 1x)N ( ×t 1;メートル( ×t ) S( ×t ))其中Σ θ ( xt , t ) \Sigma_\theta(x_t,t)S( ×t )は共分散予測子ϵ θ ( xt , t ) \epsilon_\theta(x_t,t)ϵ( ×t )はノイズ除去モデルです。この記事では、U-Net の典型的なバリアントをノイズ除去モデルとして使用します。

3.2.2 条件設計

  3 つのオプションの条件タイプがあります: (1)ビュー トランスフォーマ W によって出力される元の BEV 特徴 FO − BEV ∈ RC × H × WF^{O-BEV}\in\mathbb{R}^{C\times H\times 出力}FO BE VRC × H × W ; (2)深度分布から学習した意味特徴 FS − BEV ∈ RC × H × WF^{S-BEV}\in\mathbb{R}^{C\times H\times W}FS BE VRC × H × W;(3)FO − BEVF^{O-BEV}FOBEV F S − B E V F^{S-BEV} FS BE Vの合計。
  ビュー トランスフォーマーは、深度分布F d ∈ R c × h × w F^d\in\mathbb{R}^{c\times h\times w} を予測します。FdRc × h × w1 × 1 1\times1を使用します1×1コンボリューションでチャンネル数を変換し、F d F_dFd補間はFS − BEVF^{S-BEV}です。FS BE V 、 FO − BEVF^{O-BEV}と等しくなりますFO BE V は同じ寸法です。

上記の手順はあまり明確ではありません。h 、w、wwは画像の長さと幅ですか? 「はい」の場合、画像ビューの特徴から補間によって BEV の下の特徴を取得するにはどうすればよいですか?

  この記事では、条件付き拡散モデルがサンプルを段階的にノイズ除去することで、正確な境界や詳細な形状など、オブジェクトの詳細な内容を学習できるようになることを期待しています。条件にノイズを追加する場合は標準 DPM と同じですが、ノイズを除去する場合は、前の図に示すように条件付き変調ノイズ除去が使用されます。
  あっと_ステップt、ノイズのある BEV 特徴xt x_tバツおよび条件xcond x_{cond}バツ条件_ _xt x_tバツさらにエンコードされ、 xcond x_{cond}による要素ごとの乗算が渡されます。バツ条件_ _交流。

3.3 クロスアテンション

  条件付き拡散モデルの出力を取得した後、以下の図に示すように、元の BEV の特徴を修正するクロス アテンションを設計します。
ここに画像の説明を挿入します
  条件付き拡散モデルの出力はKKとなります。KVVV、元の BEV 機能はQQQ。公式はCA ( Q , K , W ) = A ttn ( QW i Q , KW i K , VW i V ) WO ut A ttn ( Q , K , V ) = Softmax ( QKT dk ) V CA(Q, K,W)=Attn(QW^Q_i,KW^K_i,VW^V_i)W^{Out}\\Attn(Q,K,V)=\text{softmax}(\frac{QK^T}{\ sqrt{d_k}})VC A ( Q ,K =あっとん( QW _ _ _QKW _KVW _V) Wアウト_ _A tt n ( Q ,K V )=ソフトマックス(d Q KT) V

3.4 トレーニングの損失

  深さの損失与えられた内部パラメータ行列K i ∈ R 3 × 3 K_i\in\mathbb{R}^{3\times3}K私はR3 × 3、回転行列R i ∈ R 3 × 3 R_i\in\mathbb{R}^{3\times3}R私はR3 × 3と変換行列ti ∈ R 3 t_i\in\mathbb{R}^3t私はR3.深度損失L Depth \mathcal{L}_{ Depth}L_ _補助トレーニング。バイナリ クロス エントロピー (BCE) 損失を使用します。予測された深度マップをD i D_iとするD私は,深度损失次のように:P i = K i ( R i P + ti ) 、 Di ∗ = one _ hot ( Pi ) 、 L 深さ = BCE ( Di ∗ , Di ) P_i=K_i(R_iP+t_i) ),D^*_i=one\_hot(P_i),\mathcal{L}_{深さ}=\text{BCE}(D_i^*,D_i)P私は=K私は( R私はP+t私はD=オン_ホット( P _ _ _私はL_ _=紀元前( DD私は)こちらPP_Pはレーザー点群内の点の座標、P i P_iP私はそれはiiにあるということですiビュー画像に投影された座標では

  拡散損失ましょうステップtでのガウス ノイズはz ˉ t \bar{z}_tzˉの場合、拡散損失はL diff = E [ ∥ z ˉ t − Σ θ ( α ˉ tx 0 + 1 − α ˉ tz ˉ t , t ) ∥ 2 ] \mathcal{L}_{diff}=\mathbb{ E }[\|\bar{z}_t-\Sigma_\theta(\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\bar{z}_t,t ) \|^2]Lディフ_ _=E [ zˉS(あるˉ バツ0+1あるˉ zˉt ) 2 ]
  ミッションロス総損失は、BEV セグメンテーション損失/検出損失​​、深さ損失、拡散損失の加重合計です。

3.5 タスクデコーダ

  BEV セグメンテーション ヘッドは残差ネットワークを使用し、検出ヘッドは CenterPoint の検出ヘッドを使用します。

4. 実験

4.3 BEV セマンティック セグメンテーション

  動的ターゲットは通常小さく、出現頻度が低いため、LSS は広い範囲をカバーする静的ターゲットのセグメンテーションに対して正確です。
  DiffBEV では、DPM がノイズを削減し、対象のオブジェクトにより多くの空間情報を追加できるため、静的オブジェクトと動的オブジェクトの両方をセグメント化する際のパフォーマンスが大幅に向上します。

4.4 3D ターゲット検出

  条件付き拡散モデルの導入後、すべての指標が改善されました。これは、モデルが元の BEV の機能を徐々に改良し、クロスアテンションを通じて意味論的なコンテキストを対話的に交換できるためです。

4.5 アブレーション研究

4.5.1 条件付き設計

  静的な道路セグメンテーションに関する実験では、さまざまな条件を使用することでモデルが識別可能な BEV 特徴を取得できることが示されています。ここで、FS − BEVF^{S-BEV}が使用されますFS BE Vのパフォーマンスが最高、FO − BEVF^{O-BEV}FO BE Vのパフォーマンスは比較的最悪です。

4.5.2 機能相互作用メカニズム

  このペーパーでは、3 つの機能相互作用メカニズム、つまり連結、合計、クロスアテンションを比較します。
  クロスアテンションを使用すると、より優れた BEV 特徴を学習できるため、下流の知覚タスクに有益です。条件付き設計と機能相互作用メカニズムを総合的に考慮して、FS − BEVF^{S-BEV}を使用しますFS BE Vとクロスアテンションの組み合わせのパフォーマンスは最適です。

4.5.3 ノイズのある BEV サンプルのコーディング メカニズム

  条件付き拡散モデルでは、ノイズの多い BEV サンプルxt x_tバツこの論文では、(1) セルフ アテンション セマンティック マップを計算する、(2) 畳み込みによって洗練されたアフィニティ マップ (アフィニティ マップ) を取得する、という 2 つのエンコード方法を検討します。前者を使用するとパフォーマンスが向上しますが、後者の方が計算負荷が少なくなります。

4.6 その他のビューチェンジャー

  LSS を他のビュートランスフォーマーに置き換えて実験を行ったところ、DiffBEV は拡散モデルを使用しない元の方法よりも高いパフォーマンスを示すことがわかりました。

4.7 視覚的分析

  この視覚化は、DiffBEV がより正確なセマンティック マップを提供し、細かい詳細 (隣接する車両間の分離、静止道路の明確な境界など) を解決できることを示しています。

補足資料

A. トレーニングの損失

A.1 セグメンテーション損失

MM  用Mカテゴリのセマンティック セグメンテーション、トレーニング損失をMMに分解可能M 個の加重二項分類損失: L wce = ∑ c = 1 M wc N pos [ − ∑ i = 1 N posyi log ⁡ pci − ∑ i = 1 N neg ( 1 − yi ) log ⁡ ( 1 − pci ) ] \ mathcal {L}_{wce}=\sum_{c=1}^M\frac{w_c}{N_{pos}}[-\sum_{i=1}^{N_{pos}}y_i\log p_{ ci }-\sum_{i=1}^{N_{neg}}(1-y_i)\log(1-p_{ci})]L=c = 1MNpos _wc[ i = 1Npos _y私はログ_p_i = 1Nいいえ_ _( 1y私は)ログ( 1 _p_)]ここで、pci p_{ci}p_は各ピクセルの予測された分類信頼度、wc w_cwcカテゴリ分布に基づいて計算されたカテゴリの重みです。いいよy私はピクセルのセマンティックラベルを表します。N 位置 N_{位置}Npos _ N n e g N_{neg} Nいいえ_ _は正と負のサンプルの数です。

おすすめ

転載: blog.csdn.net/weixin_45657478/article/details/133239382