[論文ノート] SVDM: 擬似ステレオ 3D オブジェクト検出のためのシングルビュー拡散モデル

元のリンク: https://arxiv.org/abs/2307.02270

1 はじめに

  単眼カメラから擬似センサー表現を生成する現在の方法は、事前にトレーニングされた深度推定ネットワークに依存しています。これらの方法では、深度推定ネットワークをトレーニングするために深度ラベルが必要であり、擬似ステレオ方法では、画像の前方変形を通じてステレオ画像を合成するため、オクルージョンされた領域にピクセル アーティファクト、歪み、穴が生じる可能性があります。さらに、特徴レベルの擬似ステレオグラム生成は直接適用することが難しく、適応性が限られています。
  では、奥行き推定をバイパスして、画像レベルで遠近感ジェネレーターを設計するにはどうすればよいでしょうか? GAN と比較して、拡散モデルは構造が単純で、ハイパーパラメータが少なく、トレーニング手順も単純ですが、現時点では 3D ターゲット検出のための疑似ビュー生成に関する研究はありません。
  この論文では、擬似ビュー合成のためのシングル ビュー拡散モデル (SVDM) を設計します。SVDM は、左ビュー画像が既知であると仮定し、ガウス ノイズを左画像のピクセルに置き換え、右画像のピクセルを画像全体に徐々に拡散します。立体画像には微妙な視差があるため、わずかな手順で良好な結果を得ることができます。SVDM は深度グラウンド トゥルースを使用せず、エンドツーエンドでトレーニングできます。

3. 方法

3.1 準備知識

3.1.a ステレオ 3D 検出器

  これは、ステレオ画像トレーニングのみを必要とするモデル (ステレオ R-CNN など)、追加の深度グラウンド トゥルース トレーニングを必要とするモデル (YOLOStereo3D)、およびボリューム グリッドに基づくモデル (LIGA-ステレオなど) の 3 つのカテゴリに分類できます。

3.1.b ノイズ除去拡散確率モデル (DDPM)

  詳細については、「拡散モデルの概要」を参照してください。DDPM の目標は、信頼限界値 (ELBO) を最適化することです。ほとんどの条件付き拡散モデルは拡散プロセスを保持し、条件yyを追加します。yの関数を決定します: E t , x 0 , ϵ [ ∥ ϵ − ϵ θ ( xt , y , t ) ∥ 2 2 ] \mathbb{E}_{t,x_0,\epsilon}[\|\epsilon- \epsilon_\theta(x_t,y,t)\|_2^2]Et x0 ϵ[ ϵϵ( ×t ) 22]  しかし、p ( xt ∣ y ) p(x_t|y)p ( xy )はトレーニング ターゲットに明示的に現れず、拡散モデルが目的の条件付き分布を学習できることを保証するのは困難です。

3.2 シングルビュー拡散モデル

  このモデルは、新しいビュー生成タスクを、拡散モデルに基づくイメージからイメージ (I2I) 変換タスクとして扱います。この記事の方法は次の図に示されています。これには、ガウス ノイズ オペレーター、ビュー イメージ オペレーター、およびワンステップ生成の 3 つの拡散モデル方法が含まれています。
ここに画像の説明を挿入します

3.2.a ガウスノイズ演算子

  BBDM に従って 2 つのビュー ドメイン間の変換を学習するために、この論文では DDPM 法の代わりにブラウン橋拡散プロセスを使用します。
  ブラウン ブリッジ プロセスは、拡散プロセスの確率分布が開始状態と終了状態に条件付けされる連続時間確率モデルです。開始状態はx 0 〜 qdata ( x 0 ) x_0\sim q_{data}(x_0) であることに注意してください。バツ0qダタ_ _ _( ×0)、終了状態はx T x_TバツTの場合、ブラウン橋拡散過程の状態分布はq BB ( xt ∣ x 0 , y ) = N ( xt ; ( 1 − mt ) x 0 + mty , δ t I ) q_{BB}(x_t|x_0, y) =\mathcal{N}(x_t;(1-m_t)x_0+m_ty,\delta_tI)qBB( ×x0y )=N ( ×;( 1メートル) ×0+メートルdI )其中mt = t / T m_t=t/Tメートル=t / Tδ t \delta_tdは分散です。トレーニングを不可能にする過度の分散を回避するために、次の分散スケジューリングが使用されます。δ t = s [ 1 − ( ( 1 − mt ) 2 + mt 2 ) ] = 2 s ( mt − mt 2 ) \delta_t=s [1-( (1-m_t)^2+m_t^2)]=2s(m_t-m_t^2)d=s [ 1(( 1メートル)2+メートルt2)]=2メートルt2)ここで、sss はサンプルの多様性を制御し、デフォルトは 1 です。
  順方向プロセスは次のとおりです。t = 0 の場合 t=0t=0mt = 0 m_t=0メートル=0、このときの平均値はx 0 x_0バツ0、 t = T t=Tの場合、分散は 0 です。t=Tの場合、mt = 1 m_t=1メートル=1、このときの平均値はyyy、分散は 0 です。中間プロセスは次のように計算されます。 xt = ( 1 − mt ) x 0 + mty + δ t ϵ x_t=(1-m_t)x_0+m_ty+\sqrt{\delta_t}\epsilonバツ=( 1メートル) ×0+メートルy+d ϵ増分ϵ 〜 N ( 0 , I ) \epsilon\sim\mathcal{N}(0,I)ϵN ( 0 ,t − 1 t-1を使用します。t1上記の式のttを置き換えますtから 2 つの方程式を減算して遷移確率を取得します。 q BB ( xt ∣ xt − 1 , y ) = N ( xt ; 1 − mt 1 − mt − 1 xt − 1 + ( mt − 1 − mt 1 − mt − 1 mt − 1 ) y , δ t ∣ t − 1 I ) q_{BB}(x_t|x_{t-1},y)=\mathcal{N}(x_t;\frac{1-m_t}{1- m_{ t-1}}x_{t-1}+(m_t-\frac{1-m_t}{1-m_{t-1}}m_{t-1})y,\delta_{t|t- 1}私)qBB( ×xt 1y )=N ( ×;1メートルt 11メートルバツt 1+( m1メートルt 11メートルメートルt 1y dt t 1I )其中δ t ∣ t − 1 = δ t − δ t − 1 ( 1 − mt ) 2 ( 1 − mt − 1 ) 2 \delta_{t|t-1}=\delta_t-\delta_{t-1 }\frac{(1-m_t)^2}{(1-m_{t-1})^2}dt t 1=ddt 1( 1メートルt 1)2( 1メートル)2  逆のプロセスは既知のビューから開始され、徐々にターゲット ビューの分布を取得します。つまり、 xt x_tに基づいていますバツxt − 1 x_{t-1} を予測しますバツt 1: p θ ( xt − 1 ∣ xt , y ) = N ( xt − 1 ; μ θ ( xt , t ) , δ ~ t I ) p_\theta(x_{t-1}|x_t,y)=\mathcal {N}(x_{t-1};\mu_\theta(x_t,t),\チルダ{\delta}_tI)p( ×t 1xy )=N ( ×t 1;メートル( ×t ) dI )其中μ θ ( xt , t ) \mu_\theta(x_t,t)メートル( ×t )は、最尤基準に基づいてニューラル ネットワークによって推定された予測ノイズの平均値です。δ ~ t \チルダ{\デルタ}_tdは各ステップのノイズの分散であり、解析形式は次のようになります。δ ~ t = δ t ∣ t − 1 δ t − 1 δ t \tilde{\delta}_t=\frac{\delta_{t|t-1} \delta_{t -1}}{\delta_t}d=ddt t 1dt 1
  完全なトレーニングと推論のプロセスは次のとおりです。

BBDM トレーニング アルゴリズム

  1. サンプリングデータペアx 0 〜 q ( x 0 ) , y 〜 q ( y ) x_0\sim q(x_0),y\sim q(y)バツ0q ( x0yq ( y )
  2. 均一サンプリング時間t ∈ { 1 , 2 , ⋯ , T } t\in\{1,2,\cdots,T\}t{ 1 2 }
  3. サンプリング ガウス ノイズϵ 〜 N ( 0 , I ) \epsilon\sim\mathcal{N}(0,I)ϵN ( 0 ,
  4. 順拡散: xt = ( 1 − mt ) x 0 + mty + δ t ϵ x_t=(1-m_t)x_0+m_ty+\sqrt{\delta_t}\epsilonバツ=( 1メートル) ×0+メートルy+d ϵ
  5. mt ( y − x 0 ) + δ t ϵ − ϵ θ ( xt , t ) ∥ 2 \|m_t(y-x_0)+\sqrt{\delta_t}\epsilon-\epsilon_\theta(x_t,t); を定義します\|^2メートル( yバツ0)+d ϵϵ( ×t ) 2グラデーション。

BBDM サンプリング アルゴリズム:

  1. サンプリング条件入力x T = y 〜 q ( y ) x_T=y\sim q(y)バツT=yq ( y )
  2. t = Tからt=Tt=Tから開始して、 t = 1 t=1になるまで次のプロセスを続行します。t=1
      采样 z ∼ N ( 0 , I ) z\sim\mathcal{N}(0,I) zN ( 0 ,I )
      计算xt − 1 = cxtxt + cyty − c ϵ t ϵ θ ( xt , t ) + δ ~ tz x_{t-1}=c_{xt}x_t+c_{yt}y-c_{\epsilon t} \epsilon_\theta(x_t,t)+\sqrt{\チルダ{\delta}_t}zバツt 1=c× tバツ+cはい_ycϵt _ϵ( ×t +d z
  3. t = 1 t=1t=1回、x0 = cx 1 x 1 + cy 1 y − c ϵ 1 ϵ θ ( x 1 , 1 ) x_0=c_{x1}x_1+c_{y1}y-c_{\epsilon1}\epsilon_\theta ( x_1,1)バツ0=c× 1バツ1+cy1 _ycϵ 1ϵ( ×11 )

3.2.b ビュー画像マニピュレータ

  ブラウン橋拡散モデルには追加のハイパーパラメータが導入されています。本稿では、ターゲット画像を特殊なノイズとして扱い、ターゲット画像をソース画像に反復変換するビュー画像演算子に基づく手法を提案する。初期状態x 0 x_0を仮定するとバツ0およびターゲット状態yyy、中間状態xt x_tバツこれは次のように記述できます: xt = α tx 0 + 1 − α ty x_t=\sqrt{\alpha_t}x_0+\sqrt{1-\alpha_t}yバツ=ある バツ0+1ある yは従来のノイズを付加する処理とは異なり、徐々に重みを増加させた新たなビュー画像を追加します。サンプリングプロセスは次のとおりです。

  1. 入力ソース画像x T x_TバツT
  2. t = Tからt=Tt=Tから開始して、 t = 0 t=0になるまで次のプロセスを続行します。t=0
      x 0 ≤ f ( xt , t ) x_0\leq f(x_t,t)バツ0f ( xt )
       xt − 1 = xt − D ( x 0 , t ) + D ( x 0 , t − 1 ) x_{t-1}=x_t-D(x_0,t)+D(x_0,t-1)バツt 1=バツD ( ×0t +D ( ×0t1 )

(この手法のサンプリング アルゴリズムについては、元の記事で使用されている記号に問題があり、説明が不足しているはずです。ここでは、元の記事のssを推測することしかできません。sii私は実際そうであるべきですttt

  α t \alpha_tあるスケジュールは次のとおりです。α t = f ( t ) f ( 0 ) , f ( t ) = cos ⁡ ( t / T + s 1 + s ⋅ π 2 ) 2 \alpha_t=\frac{f(t)} {f (0)},f(t)=\cos(\frac{t/T+s}​​{1+s}\cdot\frac{\pi}{2})^2ある=f ( 0 )f ( t )f ( t )=cos (1+st / T+s2p)2リニア スケジューリングと比較して、コサイン スケジューリングはターゲット ビューを追加する速度が遅くなります。

3.2.c 高速サンプリングとワンステップ生成

  拡散確率モデルは通常、多数のステップ サンプリングを必要とするため、推論プロセスを高速化するために、この論文では 2 つの方法を提案します。1 つは DPM サンプリングをガイドする高次ソルバーを追加することであり、もう 1 つは DPM サンプリングをガイドする高次ソルバーを導入することです。 -ステップの生成方法。
  高速サンプリング: DDIM の基本的な考え方と同様に、BBDM も非マルコフ プロセスを使用しながらマルコフ推論プロセスと同じエッジ分布を維持できます。{ 1 , 2 , ⋯ , T } \{1,2,\cdots,T\}
  とすると{ 1 2 T }の長さはSSですS { T 1 , T 2 , ⋯ , TS } \{T_1,T_2,\cdots,T_S\} の部分列{ T1T2TS}、推論プロセスは潜在変数 { x T 1 , x T 2 , ⋯ , x TS } \{x_{T_1},x_{T_2},\cdots,x_{T_S}\} のサブセットによって決定できます{ ×T1バツT2バツTS}定義: q BB ( x T s − 1 ∣ x T s , x 0 , y ) = N ( ( 1 − m T s − 1 ) x 0 + m T s − 1 + δ T s − 1 − σ T s 2 δ T s ( x T s − ( 1 − m T s ) x 0 − m T sy ) , σ T s 2 I ) q_{BB}(x_{T_{s-1}}|x_{T_s} ,x_0,y)=\mathcal{N}((1-m_{T_{s-1}})x_0+m_{T_{s-1}}+\frac{\sqrt{\delta_{T_{s- 1}}-\sigma_{T_s}^2}}{\sqrt{\delta_{T_s}}}(x_{T_s}-(1-m_{T_s})x_0-m_{T_s}y),\sigma_{ T_s}^2I)qBB( ×Ts 1xTsバツ0y )=N (( 1メートルTs 1) ×0+メートルTs 1+dTs dTs 1pTs2 ( ×Ts( 1メートルTs) ×0メートルTsy ) pTs2I )
  ワンステップ生成: 目標は、反復改良の利点を犠牲にすることなくワンステップ生成を実行することです。これらの利点には、計算と品質のバランスを取る機能、およびゼロショット データを編集する機能が含まれます。この方法は、連続時間拡散モデルの確率的流れ常微分方程式 (ODE) に基づいており、その軌跡はデータ分布から扱いやすいノイズ分布に滑らかに変換されます。モデルが自己一貫性を持つように、任意のステップ上の点を軌道の開始点にマッピングすることを学習するモデルを使用します (つまり、同じ軌道上の点は同じ開始点にマッピングされます)。
  整合性モデルは、ランダム ノイズ ベクトル (ODE 軌道の終点、x T x_T)バツT) をデータ サンプルに変換 (ODE 軌跡の開始点、x 0 x_0)バツ0)。一貫性モデルの出力を複数のステップで接続することにより、より多くの計算を使用してサンプル品質を向上させ、ゼロサンプル データ編集を実行できるため、反復改良の利点が維持されます。

3.3 ネットワーク構造

  陰的拡散モデル (LDM) に従って、SVDM は計算を削減するために、元のピクセル空間ではなく潜在空間で生成学習を実行します。
  LDM は事前トレーニングされた VAE エンコーダEEを使用しますE は画像v ∈ R 3 × H × W v\in\mathbb{R}^{3\times H\times W} をvR3 × H × Wは、暗黙的な埋め込みz = E ( v ) ∈ R c × h × wz=E(v)\in\mathbb{R}^{c\times h\times w} としてエンコードされます。z=E ( v )Rc × h × wその前進プロセスは徐々にzzzにノイズを追加し、ノイズ除去プロセスを逆にしてzzz最後に、LDM は事前トレーニングされた VAE デコーダDDDデコードzz_z、高解像度の画像を取得しますv = D ( z ) v=D(z)v=D ( z )VAE のエンコーダーとデコーダーはトレーニングと推論中に固定されたままであり、h < H 、 w < W h<H,w<Wh<H w<W、低解像度の潜在空間での拡散は、ピクセル空間での拡散よりも効率的です。この記事の方法は、スレーブ ドメインAAAでサンプリングされたIA I_A、まず潜在的な特徴を抽出しますLA L_AL、次に SVDM プロセスを実行してLA L_Aを変換しますL対応するドメインBBにマッピングB → B L_{A\rightarrow B}の暗黙的な式 LALA B最後に、事前トレーニングされた VQGAN デコーダーを使用して画像IA → B I_{A\rightarrow B}を生成します。A B
  SVDM モデルは、チャネル次元に沿って 2 つの画像を接続し、アップおよびダウン サンプリングに標準の U-Net 構造と Conv-NeXt 残差ブロックを使用して、大きな受容野を実現し、コンテキスト情報を取得します。さらに、グローバルな相互作用により再構成の品質が大幅に向上する可能性があるため、アテンション ブロックもさまざまな解像度で導入されます。

3.4 損失関数

  損失関数には、RGB L1 損失、RGB SSIM 損失、知覚損失の 3 つの項目が含まれます。

3.4.a RGB L1 損失と SSIM 損失

  L1 損失と SSIM 損失は次のとおりです。LL 1 = 1 3 HW ∑ ∣ I ^ tgt − I tgt ∣ L ssim = 1 − SSIM ( I ^ tgt , I tgt ) \mathcal{L}_{L1}=\ frac{1 }{3HW}\sum|\hat{I}_{tgt}-I_{tgt}|\\\mathcal{L}_{ssim}=1-SSIM(\hat{I}_{tgt} 、私_{tgt})LL1 _=3HW_ _ _1^t g tt g tLはい、私は=1SS IM ( _^t g tt g t)ここで、私は ^ tgt \hat{I}_{tgt}^t g tI tgt I_{tgt}t g tはそれぞれピクセルチャネルの予測値と真の値です。

3.4.b 認識された損失

  過去の研究に基づいて、知覚的損失により、局所的な信頼性を強制することで再構築が画像多様体に制限され、RGB 損失のみに依存することによって生じるぼやけが回避されます。L latent = 1 2 ∑ j = 1 J [ ( uj 2 + σ j 2 ) − 1 − log ⁡ σ j 2 ] \mathcal{L}_{latent}=\frac{1}{2}\sum_{j =1}^J[(u_j^2+\sigma_j^2)-1-\log\sigma_j^2]Lラテンテント_ _ _ _=21j = 1J[( uj2+pj2)1ログ_pj2]

4. 実験

4.4 単一の画像に基づいた合成結果を表示する

  定量的結果: この記事の方法は、PSNR 指標の点で SotA を上回ることができますが、SSIM および LPIPS 指標は SotA よりわずかに低くなります。
  定性的結果: 視覚化は、私たちの方法が歪みやアーティファクトが小さい、より現実的な画像を生成することを示しています。これは、複雑なシーンのジオメトリとテクスチャをモデル化するこの方法の能力を示しています。

4.5 3Dターゲット検出結果

  定量的結果: 実験では、BBDM を使用した場合、SVDM が最も先進的な方法よりも優れたパフォーマンスを発揮できることが示されています。ビュー拡散法を使用すると、パフォーマンスがさらに向上します。これは、ビュー構造が 3D ターゲット検出においてより優れた汎化能力を備えていることを示しています。
  また、SotA を完全に超えることはできませんが、困難なオブジェクトの検出では SVDM の方が優れた性能を発揮します。単純なオブジェクトのパフォーマンスが低下する理由は、制限が限られていることが原因である可能性があります。背景と障害物の両方が必然的に新しいビューの生成を妨げます。ConvNeXt-UNet 構造はこの問題をある程度軽減できますが、完全ではありません。

4.3 アブレーション研究

  歩行者・自転車の3D検出結果:サンプル数が少ないため、歩行者・自転車の検出は自動車に比べて困難です。しかし、この記事の方法は、ほぼすべての困難において SotA を超えることができます。

5. まとめと今後の展望

  現在、SVDM の欠点の 1 つは、エンドツーエンドでトレーニングできないことです。

おすすめ

転載: blog.csdn.net/weixin_45657478/article/details/133239735