论文精读《LSS: リフト、スプラット、シュート: 暗黙的な投影解除による任意のカメラ リグからの画像のエンコード》

LSS: リフト、スプラット、シュート: 3D への暗黙的な投影解除による任意のカメラ リグからの画像のエンコード

論文を集中的に読む

この記事では、多視点カメラデータを出力し、BEV 座標系の意味情報を直接推論できるモデルを提案します。

ここに画像の説明を挿入します

車両(青)、走行可能エリア(オレンジ)、車線(緑)

抽象的な

自動運転車両認識の目標は、複数のセンサーから意味表現を抽出し、これらの表現を単一の「鳥瞰図」座標フレームに融合して動作計画に使用することです。

私たちは、任意の数のカメラから直接、特定の画像データのシーンの鳥瞰図表現を抽出できる、新しいエンドツーエンドのアーキテクチャを提案します

私たちの方法の背後にある中心的なアイデアは、各画像を“Lift”特徴錐台に分離することです。次に、カメラごとに、すべての錐台が“Splat”ラスター化された鳥瞰図グリッドにマッピングされます。

カメラ リグ全体でトレーニングすることにより、モデルが画像を表現する方法だけでなく、キャリブレーション エラーに対して堅牢でありながら、すべてのカメラからの予測をシーンの単一のまとまった表現に融合する方法も学習できるという証拠が得られます。 .堅牢性。オブジェクトのセグメンテーションやマップのセグメンテーションなどの標準的な鳥瞰図タスクでは、私たちのモデルはすべてのベースラインや以前の研究よりも優れたパフォーマンスを発揮します。

動作計画の緻密な表現を学習するために、モデルによって推論された表現をテンプレート軌道を通じてネットワークによって出力される鳥瞰コスト マップに渡すことによって、解釈可能なエンド“Shoot”ツーエンドの動作計画が達成されることを示します。

LIDAR を使用した深度予測モデルに対するアプローチのベンチマークを行います。

1. はじめに

マルチセンサーセンシング

コンピューター ビジョン アルゴリズムは通常、画像を入力として受け取り、分類などの画像フレームに依存しない予測を出力します。または、オブジェクト検出、セマンティック セグメンテーション、パノプティック セグメンテーションなど、入力画像と同じ座標系で予測を行います。

このパラダイムは、すぐに使える自動運転の認識設定と一致しません。自動運転では、複数のセンサーが入力として与えられ、各センサーは異なる座標フレームを持ちます。知覚モデルの最終タスクは、図に示すように、下流のプランナーが利用するための自車フレーム内の予測を生成することです

ここに画像の説明を挿入します

  • 簡単な方法

単一画像パラダイムをマルチビュー設定に拡張するための、シンプルで実用的な戦略が数多くあります。たとえば、n 台のカメラからの 3D オブジェクト検出問題の場合、単一の画像検出器をすべての入力画像に適用し、検出されたオブジェクトのカメラの固有パラメーターと外部パラメーターに基づいて自車座標系に変換できます

このシングルビュー パラダイムをマルチビュー設定に拡張すると、次の 3 つの貴重な対称性が生まれます。

(1)平行移動不変性: 画像内のピクセル座標がすべてシフトされると、出力も同じ量だけシフトされます。完全畳み込み単一画像オブジェクト検出器はこの特性を共有し、マルチビュー拡張機能はそれらからこの特性を継承します。

(2)順列不変性: 最終結果は、n 個のカメラ ビューからの順列順序とは無関係です。
(3)自車座標系の平行移動/回転不変性: 与えられた画像内では、画像を撮影したカメラが自車に対してどこに位置していても、同じ物体が検出されます。これは、自車両の座標系が回転・平行移動すると、それに応じて出力も回転・平行移動することに相当します。

上記の単純なアプローチの欠点は、単一の画像検出器からの後処理検出を使用すると、自車フレームからセンサー入力に至るまでの予測を区別できないことです。

したがって、モデルは、カメラ間で情報を融合する最適な方法をデータ駆動型の方法で学習することができません。これは、下流のプランナーからのフィードバックを使用して知覚システムを自動的に改善するためにバックプロパゲーションを使用できないことも意味します。

  • この論文の内容: Lift-Splat ネットワークの提案

この記事では、上記 3 つの対称特性を保持し、エンドツーエンドで微分可能な手法であるLift-Splat ネットワークを提案します。まず、プリズムの形状でコンテキスト特徴点群を生成することによって画像を 3D に「リフト」し、次にこれらのプリズムを基準面に「スプレーティング (投影として理解できます)」して、動作計画の下流タスクを容易にしますさらに、解釈可能なエンドツーエンドの動作計画を実行するために、提案された軌道を基準面に「シュート」する方法も提案されています。実験によれば、この方法は、考えられる入力分布からの情報を融合するための効果的なメカニズムを学習できることが示されています。

2. 関連作品

複数のカメラからの画像データから統一表現を学習するための私たちのアプローチは、センサー フュージョンと単眼物体検出における最近の研究に基づいています。最近、Nutonomy、Lyft、Waymo、Argo の大規模マルチモーダル データセットにより、カメラ入力のみに依存して、自動運転車の 360 度シーン全体の完全な表現を学習できるようになりました。私たちはこの可能性を探るために Lift-Splat アーキテクチャを使用します。

2.1 単眼物体検出

単眼物体検出器は、画像平面から特定の 3 次元基準座標系への変換をどのようにモデル化するかによって定義されます。標準的な手法では、確立された 2D オブジェクト検出器をイメージ プレーンに適用し、2 番目のネットワークをトレーニングして 2D 検出ボックスを 3D 検出ボックスに回帰します。

nuScenes ベンチマークでは、現在の最先端の 3D オブジェクト検出器は、標準の 2D 検出器をトレーニングするアーキテクチャを使用し、間違った深さと間違った境界ボックスを組み合わせようとする損失を伴う深度を予測します。エラーは分離されます。これらの方法は、画像平面での検出により単眼の奥行き予測の曖昧さが排除されるため、3D オブジェクト検出ベンチマークで優れたパフォーマンスを実現します。

最近成功を収めたアプローチの 1 つは、単眼の奥行き予測用に 1 つのネットワークを個別にトレーニングし、鳥瞰図の検出用に別のネットワークを個別にトレーニングすることです。これらの方法は「擬似レーダー」と呼ばれます。擬似レーダーが経験的に成功した直観的な理由は、擬似レーダーは、画像面に対してユークリッド距離がより意味のある、検出の最終評価の座標系で動作する鳥瞰図ネットワークをトレーニングできるためです。 。

単眼物体検出器の 3 番目のカテゴリでは、3D 物体プリミティブを使用して、利用可能なすべてのカメラでの投影に基づいて特徴を取得します。Mono3D は、地上面上に 3D プロポーザルを生成することで、KITTI 上で最先端の単眼物体検出を実現し、利用可能な画像への投影によってスコア付けされます。直交特徴変換は Mono3D に基づいて構築されており、ボクセルのブレンド立方体を画像上に投影して特徴を収集し、2 番目の「BEV」CNN をトレーニングしてボクセル内の特徴に基づいて 3D で検出を実行します。私たちのモデルは、これらのモデルの潜在的なパフォーマンスのボトルネック、つまり、ピクセルがそのピクセルにおけるオブジェクトの深度に依存せずに各ボクセルに同じ特徴を提供するという問題に対処します。

2.2 鳥瞰図フレームでの推論

鳥瞰図フレームワークで直接推論を実行するために、外部モデルと内部モデルの使用が最近大きな注目を集めています。MonoLayout は、単一の画像から鳥瞰的な推論を実行し、敵対的損失を使用して、モデルがもっともらしい隠れたオブジェクトを描画するように促します。並行作業として、Pyramid Occupancy Network は、画像表現を鳥瞰図表現に変換するコンバーター アーキテクチャを提案しています。一方、FISHING Net の並列作業では、現在のタイム ステップでオブジェクトをセグメント化し、将来の予測を実行できるマルチビュー アーキテクチャが提案されています。セクション 5 では、私たちのモデルが以前の経験的研究よりも優れていることを示します。これらのアーキテクチャは、私たちのアーキテクチャと同様に、機械学習グラフィックス コミュニティの「マルチプレーン」イメージに似たデータ構造を使用します。

3. 方法

3.1 リフト: 潜在深度分布

  • リフト: 各画像を個別に処理して、3D 空間内の各 2D ピクセルの特性を取得します。

最初の段階のタスクは、複数のカメラからの画像を個別に処理することです。この段階の目的は、各画像を 2 次元から統一された 3 次元座標系にアップグレードすることです。

単眼センサー フュージョンの課題は、深度を参照フレーム座標に変換する必要があることですが、各ピクセルに関連付けられた「深度」は本質的に曖昧です。私たちが提案する解決策は、ピクセルごとに可能なすべての深度の表現を生成することです。

具体的には、深度空間を D セグメントに離散化することで、D × H × WD \times H\times W を生成できます。D×H×Wの点群は角柱状の空間に相当します。

各ピクセルpppに対応する座標は(h, w) (h,w)( h ,w )、コンテキスト ベクトルc ∈ RC c\in R^CcRC (つまり、一般的な畳み込み特徴) と深さ分布α \alphaαから点群(d, h, w) (d,h,w)( d w )のコンテキスト特徴はcd = adc c_d=a_dccd=あるdc

ここに画像の説明を挿入します

外積 - ウィキペディア

3.2 スプラット: ピラー プーリング

  • Splat: ピクセルの 2D 座標値と深度値、およびカメラの内部パラメータと外部パラメータを通じて、ボディ座標系におけるピクセルの 3D 座標を計算します。

pointPillars から教訓を得て、Lift ステップで取得された点群は Pillar に変換されます。Pillar は無限の高さのボクセルです。具体的な方法は、各点をそれに最も近い Pillars に割り当て、合計プーリングを実行してC × H × WC \times H \times Wを取得することです。C×H×Wテンソルを生成し、このテンソルに対して CNN 演算を実行して鳥瞰図の予測結果を取得します。
ここに画像の説明を挿入します

複数のカメラからのピクセルを同じ上面ビューに投影し、まず対象領域 (車体を中心とした 200*200 の範囲) の外側の点をフィルターで除外します。その場合、トップ ビューの同じ座標に複数のフィーチャが存在する可能性があることに注意する必要があります。理由は 2 つあります: 1. 1 つの 2D 画像内の異なるピクセルがトップ ビューの同じ位置に投影される可能性がある、2. 異なるカメラ画像 異なるカメラ画像内の同じターゲットなど、異なるピクセルが上面図の同じ位置に投影されます。同じ位置にある複数の特徴量について、著者は合計プーリング法を使用して新しい特徴量を計算し、最終的に 200x200xC の特徴量を取得しました。ソース コードの C は 64 です。

  • プリズムプーリング累積加算手法

OFT が積分イメージを使用してプーリング ステップを高速化するのと同じように、同様の手法を適用して合計プーリングを高速化します。生成された点群のサイズを考慮すると、モデルのトレーニングでは効率が非常に重要です。各ピラーを埋めてから合計プーリングを実行する代わりに、パッキングを使用し、「累積トリック」を活用することで、合計プーリングを満たすことを回避しますこの操作には、自動勾配を高速化するために効率的に計算できる分析勾配が含まれています。

この技術は、画像によって生成される点群の形状が固定されているという事実に基づいているため、各点に、どの区間に属するかを示す区間 (つまり、BEV グリッド) インデックスを事前に割り当てることができます。インデックスで並べ替えた後、次の手順を実行します。

ここに画像の説明を挿入します

3.3 撮影: モーションプランニング

推論されたコスト マップがテスト フェーズ中の計画に使用される場合、さまざまな軌道を BEV 平面に投影し、コストを評価して最小コストの軌道を選択できます。

この記事では、「計画」を、与えられたセンサーの観測結果を予測するものとして扱いますo車から降りてくださいKKK个模板轨迹T = { τ k } k = 1 K = { { xk , t , yk , t , zk , t } t = 1 T } k = 1 KT=\left\{\tau_k\right\}{ k=1}^K=\left\{\left\{x{k, t}, y_{k, t}, z_{k, t}\right\}{t=1}^T\right\} {k=1}^KT={ v}k=1K={ { x k yk tzk t}t=1T }k=1Kの分布p ( τ ∣ o ) p(\tau \mid o)p ( po )として定義されます。

p ( τ i ∣ o ) = exp ⁡ ( − ∑ xi , yi ∈ τ ico ( xi , yi ) ) ∑ τ ∈ T exp ⁡ ( − ∑ xi , yi ∈ τ co ( xi , yi ) ) p\left( \tau_i \mid o\right)=\frac{\exp \left(-\sum_{x_i, y_i \in \tau_i} c_o\left(x_i, y_i\right)\right)}{\sum_{\tau \ in \mathcal{T}} \exp \left(-\sum_{x_i, y_i \in \tau} c_o\left(x_i, y_i\right)\right)}p( t私はo )=τ T経験値(バツ私はy私は τcああ( ×私はy私は) )経験値(バツ私はy私はτ私はcああ( ×私はy私は) )

指定された実際の軌道について、T で最近傍テンプレート軌道を見つけて、クロスエントロピー損失を使用してトレーニングします。
実際のアプリケーションでは、テンプレート軌道セット T は、データセット内のエキスパート軌道の K-means クラスタリングによって取得されます。

参考

https://github.com/nv-tlabs/lift-splat-shoot

リフト、スプラット、シュート: 3D への暗黙的な投影解除による任意のカメラ リグからの画像のエンコード

BEV ハンドシュレッダーの先駆的作品: リフト、スプラット、シュート (完全にはシュートではありません)_bilibili_bilibili

リフト、スプラット、シュート: 3D への暗黙的な非投影による任意のカメラ リグからの画像のエンコード (LSS)_byzy のブログ - CSDN ブログ

One-Hot_sereasuesue のブログの最も簡単な理解 - CSDN blog_one-hot

おすすめ

転載: blog.csdn.net/zyw2002/article/details/127906938
おすすめ