3D ボックスの古典的な論文 - 「シミュレートされた事前トレーニングからのマルチモーダル 3D オブジェクト検出」の学習記録

 論文のタイトル: シミュレートされた事前トレーニングからのマルチモーダル 3D オブジェクト検出

完全な PDF 英文ペーパーのダウンロード: 「シミュレートされた事前トレーニングからのマルチモーダル 3D オブジェクト検出」

         自動運転アプリケーションにおけるシミュレートされたデータの必要性は、事前トレーニング済みモデルの検証と新しいモデルのトレーニングの両方でますます重要になっています。これらのモデルを実際のアプリケーションに一般化するには、基礎となるデータセットにさまざまな運転シナリオが含まれていること、およびシミュレートされたセンサーの読み取り値が実際のセンサーによく似ていることが重要です。自動運転研究用の CARLA シミュレーターからトレーニング データを生成するための新しいツールである Carla Automatic Dataset Extraction Tool (CADET) を紹介します。このツールは、実際のセンサー アレイを正確に反映するために、高品質で同期された LIDAR とカメラのデータをオブジェクトの注釈と構成と共にエクスポートできます。さらに、このツールを使用して 10,000 サンプルで構成されるデータセットを生成し、このデータセットを使用して 3D オブジェクト検出ネットワーク AVOD-FPN をトレーニングし、KITTI データセットで微調整して、効果的な事前トレーニングの可能性を評価します。また、鳥瞰図で簡単に変更可能な AVOD-FPN のための 2 つの新しい LIDAR 機能マップ構成も示します。これらの構成は、KITTI および CADET データセットでテストされ、そのパフォーマンスと事前トレーニング用のシミュレートされたデータセットの可用性が評価されます。実世界のデータの使用を完全に置き換えるには不十分であり、一般に、実データで完全にトレーニングされたシステムのパフォーマンスを超えることはできませんが、シミュレートされたデータは、実際のデータ トレーニング ボリュームの精度を大幅に低下させる可能性があることを結果は示しています。

          機械学習モデルは、より深いアーキテクチャと急速に増加するパラメータにより、ますます複雑になっています。このようなモデルの表現力により、これまで以上に多くの可能性が可能になりますが、適切にトレーニングするには大量のラベル付きデータが必要です。自動運転ドメインでのデータのラベル付けには、クラス ラベル、バウンディング ボックス、セマンティック セグメンテーションを手動で生成するなどのアノテーションを積極的に生成するか、事前トレーニング済みのアンサンブルを使用してこれらの自動生成を監視および調整することにより、多くの手作業が必要です。以前にラベル付けされたデータからのモデル。LIDAR などの最新のセンサーを使用するための大規模なラベル付きデータセットは多くありません。これらは通常、環境や気象条件の変動がほとんどないため、現実世界の条件に適切に一般化できます。KITTI などの一般的なデータセットは、多数のセンサーを提供しますが、気象条件と照明はほぼ一定です。一方、大規模で多様な BDD100K データセットには、マルチモーダル センサー データは含まれず、カメラと GPS/IMU のみが提供されます。自動運転に大きな影響を与える可能性のある新しいセンサーを導入する可能性には、既存のデータセットを使用して最先端のソリューションをトレーニングしても効果がないというリスクも伴います。

        コンピュータ グラフィックスの分野におけるリアリズムと高速化されたコンピューティングの両方の観点からの最近の進歩により、シミュレーションは、さまざまなシナリオを効率的に生成できるため、目に見えない環境で自律モデルを検証するための重要な方法となっています。最近、最新のシミュレーターを使用して、知覚やエンドツーエンドの強化学習など、自律型車両モデルをトレーニングするためのデータを生成することに関心が寄せられています。シミュレーションによるトレーニング データの生成には、いくつかの利点があります。十分な計算リソースがあれば、さまざまな条件を備えた大規模なデータセットをすばやく生成できますが、ラベリングはほとんど監視することなく完全に自動化できます。正確にモデル化されていれば、特定の困難なシナリオをより簡単に構築でき、高度なセンサーを追加できます。NVIDIA Drive Constellation などのシステムは、強力な NVIDIA GPU クラスターを使用して自動運転の現実的なシミュレーションを実行していますが、現在のところ、NVIDIA Drive Pegasus AI オンボード コンピューターを使用する自動車メーカー、スタートアップ企業、および選択された研究機関のみが利用でき、検証モデルのみに使用できます。トレーニング用のデータ生成の代わりに。しかし、Unreal Engine 4 や Unity などの最先端のゲーム エンジンに基づくオープン ソース ソリューションは、現在活発に開発されており、誰でも自動運転用の高品質のシミュレーションを生成できるさまざまな機能を提供しています。注目すべき例には、この調査で使用された前者の CARLA と AirSim が含まれます。 

 

         シミュレートされたデータを使用した自動運転用の機械学習モデルのトレーニングと検証を容易にするために、著者は Carla Automatic Dataset Extraction Tool (CADET) を紹介します。これは、自動運転モデル​​用のラベル付きデータを生成するためのオープンソース ツールで、Carla 0.8 と互換性があります。このツールは、LIDAR からカメラへの投影 (図 1)、車と歩行者の 2D および 3D 境界ボックス ラベルの生成 (図 2)、部分的に遮られたオブジェクトの検出 (図 3)、センサー データの生成など、さまざまな機能をサポートしています。 LIDAR、カメラと地表レベルの推定、およびセンサー キャリブレーション マトリックス。すべてのラベルとキャリブレーション マトリックスは、ガイガーらによって定義されたデータ形式で保存されます。[2]、これにより、多くの既存のオブジェクト検出およびセグメンテーション モデルと互換性があります。機械学習モデルがシミュレートされた環境から実際のシナリオに一般化するには、多様なデータセットが不可欠であるため、データ生成ツールには、多様性を確保するための多くの手段が含まれています。最も重要なことは、ツールが一定数のサンプルを生成した後に環境をリセットすることです。ここで、サンプルは、各センサーからの読み取り値、対応するグラウンド トゥルース ラベル、およびキャリブレーション データを含むタプルとして定義されます。環境をリセットするには、車両モデル、スポーン位置、気象条件、マップをランダム化し、気象タイプ、歩行者と車のプロキシ モデル、すべての車両の開始位置を均等に分散させる必要があります。LIDAR とカメラ センサーの位置は同一で同期されているため、各画像に対して LIDAR の完全な回転が行われます1。シーン内の可視オブジェクトを決定する前に、Unreal Engine 4 で使用される統一座標系と KITTI で使用される相対座標空間に生のセンサー データが投影されます。CARLA の初期 LIDAR 構成は、接続されている車両のピッチとロールを無視するため、センサー データを適切に整列させるために、投影後に追加の変換が適用されます。オブジェクト ラベルを生成する際の課題の 1 つは、現在のシーンに表示されているオブジェクトを特定することです。遮られたオブジェクトを検出するために、CARLA 深度マップが使用されます。深度マップ内の隣接するピクセルの値が、頂点からカメラまでの距離よりも近い場合、頂点はオクルードされていると定義されます。8 つのバウンディング ボックスの頂点のうち少なくとも 4 つが遮られている場合、そのオブジェクトは遮られていると定義されます。図 3 に示すように、オブジェクトがチェーン フェンスなどの遠近オブジェクトの背後にある場合でも、このオクルージョン検出のパフォーマンスは満足のいくものであり、オブジェクト全体を追跡するよりもはるかに高速です。セマンティック セグメンテーションを使用して、より堅牢なオクルージョン検出シナリオを実行することは可能ですが、これはまだ実装されていません。

         CADET を使用して、10,000 サンプルからなる CADET データセットを生成します。データセットには合計 13989 台の車と 4895 人の歩行者があり、画像あたり平均約 1.9 個のラベル付きオブジェクトがあります。このデータセットには、自動車クラスと歩行者クラスの 2D および 3D バウンディング ボックスの注釈が含まれており、LIDAR とカメラ センサー データのほか、地面の推定​​とセンサー キャリブレーション マトリックスの生成が含まれています。この環境は、CARLA シミュレーターの Town01 と Town02 の 2 つのマップによって生成されます。どちらも郊外の環境です。各画像のオブジェクトの分布を図 8 に示します。KITTI データセットと比較して、CADET データセットは画像あたりの車と歩行者の数が少なく、主に KITTI の都市環境では車が道路脇に駐車されることが多く、歩行者の存在がより多くなっています。マークされた各オブジェクトの向きを図 9 に示します。方向分布には、3 つのピーク、つまり正面、背面、または側面から見たオブジェクトを持つ鋭いマルチモーダル分布があることがわかります。図 7 に示すように、データセット内の歩行者の境界ボックスは通常、車よりも小さいため、検出が難しくなっていることに注意してください。

        シミュレートされた CADET データセットの使用を評価し、LIDAR 特徴マップ表現を実験するために、AVOD-FPN [6] アーキテクチャのいくつかの構成が、カメラと LIDAR 点群を使用した 3D オブジェクト検出に使用されました。AVOD-FPN ソース コードが変更され、両方のグループ (スライスとクラウド) に必要な機能を指定することでカスタム構成が可能になりました。スライス マップは、構成ファイルで指定されているように、点群が分割された各垂直スライスから抽出された特徴マップを指し、クラウド マップは点群全体を考慮します。[6] で説明されている方法に従って、2 つのネットワークを使用して車と歩行者をそれぞれ検出し、構成ごとにプロセスを繰り返します。複数クラスの検出は、各クラスを評価する際により不安定な結果を生成する可能性があるため、より適切な選択と見なされます。すべてのモデルは特徴ピラミッド ネットワークを使用して画像と LIDAR から特徴を抽出し、抽出したカメラと LIDAR 特徴を早い段階で融合します。トレーニング データは、セクション 4.1 で説明したように、フリッピングとディザリングで拡張されます。同じクラスのモデル間の唯一の違いは、鳥瞰図 (BEV) での LIDAR 機能マップのそれぞれの表現です。使用されるすべての構成は、ソース コードで利用できます [9]。

         AVOD-FPN は、VGG-16 アーキテクチャ [14] に基づく単純化された特徴抽出器を使用して、BEV に投影されたカメラ ビューと LIDAR から特徴マップを生成し、LIDAR 画像を 2D 用に設計された畳み込みニューラル ネットワーク (CNN) で処理できるようにします。これらの個々の特徴マップは、トレーニング可能な重みを使用して融合されるため、モデルはマルチモーダル情報を最適に組み合わせる方法を学習できます。デフォルトの BEV 構成と呼ばれるもの ([6] で提案されている) に加えて、2 つの追加の新しい構成が提案されています。これらの実験結果は、同様の精度でより高速な推論を示しているか、または同様の推論速度により精度が高いことを示しています。いずれの場合も、BEV は 0.1 m の解像度でセルに水平方向に離散化されます。既定の構成では、指定された高さの範囲内に 5 つの等しいサイズの垂直スライスが作成され、各セルの最高点がスライスの高さで正規化されます。[6] と [7] で使用されているように、各セルのポイント数 N から式 1 に従って点群密度全体の個別の画像が生成されますが、後者では log(64) で正規化されています。ポイントクラウド全体の各セルのグローバルな最大高さ、最小高さ、および密度を取り、スライスの使用を回避し、BEV マップの数を半分にする単純化された構造を提案します。これは、どの点が大きなオブジェクトに属し、どの点が異常値であるかを判断するのに十分であると考えており、ボックス サイズを十分に定義しています。占有スペースが少ないクラスの場合、各スライスの最大の高さと密度を使用して 3 つのスライスを垂直方向に切り捨てると、パフォーマンスが向上し、ノイズの影響を受けにくくなると考えられます。これは、ネットワークがスライスの最大の高さの値がオブジェクトに属するかどうかを区別することを学習する可能性があるためです。スライス密度に依存します。すべての構成は、図 4-6 に視覚化されています。

        定性的な結果を収集するために、各モデルは、[6] で説明されているように、バッチ サイズ 1 で合計 12 万ステップのそれぞれのデータセットでトレーニングされました。チェックポイントは 2k ステップごとに保存され、そのうち最後の 20 個が評価用に選択されます。表 1 と表 2 は、それぞれ自動車と歩行者クラスの KITTI データセットで生成された結果を示しており、3 つの BEV 構成のそれぞれについて最適なパフォーマンスのチェックポイントが選択されています。推論速度を測定するために、各モデルは、学習を無効にした NVIDIA GTX 1080 グラフィックス カードを使用して、検証セットの最初の 2000 枚の画像で推論されました。平均推論時間は、最も近いミリ秒に丸められ、表に表示されます。 

        KITTI データセットで評価された後、すべての構成は、まったく同じ手順に従って、生成された CADET データセットでゼロからトレーニングされます。CADET データセットの検証セットの評価結果を表 3 および 4 に示します。動的なオクルージョンと切り捨ての測定値はデータセットに含まれていないため (これらは KITTI でのトレーニング後の評価にのみ使用されます)、評価は KITTI で使用される通常の簡単、中程度、難しいカテゴリには従わないことに注意してください。代わりに、オブジェクトは大小に分類されます。境界ボックスの高さの最小要件は、イージー バウンディング ボックスの場合は 40 ピクセル、ミディアムおよびハード バウンディング ボックスの場合は 25 ピクセルです。これらのモデルは、KITTI 検証セットでも直接評価され、結果は表 5 と 6 にまとめられています。次に、CADET によってトレーニングされたモデルは、ステップ 90k でチェックポイントから復元され、KITTI データセットでさらにトレーニングするために変更されます。トレーニングはステップ 150k に再開されます。これは、モデルが元の 120k ステップではなく、60k ステップの KITTI トレーニング セットでトレーニングされることを意味します。ステップ数を増やしてターゲット データセットを切り替える以外は、CADET データセットでのトレーニング時にプロファイルは変更されません。表 7 と 8 は、各モデルの最高のパフォーマンスのチェックポイントの結果を示しています。

         KITTI で完全にトレーニングされたモデルの場合、Car クラスの結果はすべての構成で非常に似ています。単純なクラスでは、デフォルト構成から層数の半分の 3D AP 純粋な EV を使用する構成まで、最大損失はわずか 0.5% です。地図。歩行者クラスでは大きな違いが明らかであり、デフォルト構成と競合するには 3 層では不十分です。ただし、既定の構成のように、合計 6 レイヤーに対して 3 つの最大高さと密度のスライスを使用すると、大幅に優れた結果が得られ、より堅牢な動作が示されます。CADET 検証セットでの CADET トレーニング済みモデルの評価は、モデル間の相対的なパフォーマンスが類似していることを示していますが、より単純なカスタム構成では、ミッドレンジ カテゴリの自動車の精度が低下しています。歩行者に関しては、その差は予想よりもはるかに小さいです。KITTI データセットでの歩行者のパフォーマンスが取るに足らないものであり、かなり一貫性がないことも考慮すると、LIDAR 点群で見られる歩行者の物理的な衝突をシミュレートすることを単純化しすぎた表現と考えることができます。ただし、CADET でトレーニングされたモデルは car クラスでより優れたパフォーマンスを発揮し、タスクがより適切に、より一貫して一般化されることを示唆しています。

         Car クラスで微調整されたモデルのパフォーマンスは、完全に KITTI でトレーニングされたモデルのパフォーマンスとほぼ同じですが、各モデルのパフォーマンスは、easy クラスまたは medium クラスで大幅に低下します。歩行者クラスの結果は、もう少し興味深いものです。既定の構成では、中程度のカテゴリと難しいカテゴリの精度がわずかに向上しますが、簡単なカテゴリの精度はわずかに低下します。最大/密度構成はすべてのクラスで大幅に低下しますが、それほど複雑ではない最大/最小/密度構成は、依然として最もパフォーマンスの低い構成ですが、KITTI データセットでのみトレーニングする場合よりも優れています.改善を続けてください. KITTI でトレーニングされたモデルと比較してかなり一貫性のない結果が得られる理由は十分に調査されていませんが、勾配がやや不安定で、完全に信頼できる結果が得られないことが原因の 1 つかもしれません。CARLA によって生成された LIDAR ポイント クラウドには、すべての動的オブジェクトの単純な衝突が原因で、正確なジオメトリがありません。したがって、構成のさまざまな機能は、CADET データセットの事前トレーニング中に利用されず、全体的な結果に影響を与える可能性があります。これは、単純化された歩行者の表現が識別しやすいため、歩行者クラスのギャップを大幅に狭める最も単純な構成によって証明される場合があります。シミュレートされたトレーニングと部分的にシミュレートされたトレーニングの結果は、通常、データセットで直接トレーニングした場合のパフォーマンスを超えることはありませんが、シミュレートされたデータを使用すると、実際のデータでより少ないトレーニングでほぼ同等のパフォーマンスを達成できることが明確に示されています。センサー、シーン、環境、および条件に関する生成の容易さとスケーラビリティにより、CADET などのツールは自動運転モデル​​のトレーニングと評価に役立ちますが、実際のソリューションをトレーニングするのに十分になる前に改善が必要です。

         近年、合成データを使用して機械学習モデルをトレーニングすることが、実際のデータを収集するコストのためにますます一般的になっています。これは、要求の厳しい運転シナリオが広範囲に及ぶ自動運転において特に当てはまります。この研究では、自動運転認識用の大量のトレーニング データを生成するツールである CADET と、その結果のデータセットについて説明します。このデータセットは、実世界で使用するためにシステムを直接トレーニングするのに十分な大きさではありませんが、機械学習モデルをかなり高いレベルの精度でトレーニングするために必要な実世界のデータの量を減らすのに役立つことを示しました。また、トレーニング前に簡単に構成でき、小さなオブジェクトをより適切に検出し、大きなオブジェクトを検出する複雑さを軽減する可能性がある 2 つの新しい BEV 表現を提案して評価します。CADET ツールキットは、LIDAR モデリングの物理モデルの改良が必要ですが、現在、KITTI オブジェクト検出タスク用に設計されたほぼすべてのモデルをトレーニングおよび検証するためのデータセットを生成できます。

おすすめ

転載: blog.csdn.net/ZHUO__zhuo/article/details/125506088