占有としてのシーン | 占有としてのシーン: ネットワーク占有のための新しいソリューション!

著者 | 視力検査 編集者 | オートボット

元のリンク: https://zhuanlan.zhihu.com/p/636063988

「自動運転ハート」公開アカウントに注目するには下のカードをクリックしてください

ADASの巨大なボリュームの乾物が手に入る

クリックして入ってください→オートパイロットの核心【ネットワーク占拠】技術交流グループ

タイトル: 占有としてのシーン

名前: 職業としてのシーン

論文: https://arxiv.org/abs/2306.02851

コード: https://github.com/OpenDriveLab/OccNet

所属部署: SenseTime、上海人工知能研究所、香港大学、香港中文大学

0. 概要

人間のドライバーは、視覚システムを通じて複雑な交通シーンを簡単に説明できます。この正確に感知する能力は、ドライバーの計画にとって非常に重要です。これを実現するには、物理​​的な 3D シーンを、3D 占有と呼ばれる各セルのセマンティック ラベルを持つ構造化されたグリッド マップに量子化する、ジオメトリを意識した表現が必要です。境界ボックスの形式と比較した占有の背後にある重要な洞察は、シーン内の主要な障害物の詳細をきめ細かくキャプチャできるため、その後のタスクが容易になることです。以前または同時代の文献が単一シーンの完了タスクに主に焦点を当てていた場合、この占有表現の可能性はより広い意味を持つ可能性があると主張するかもしれません。

この論文では、3D 占有を再構成するための、カスケード接続された時間ボクセル デコーダを備えたマルチビュー ビジョン中心のパイプラインである OccNet を提案します。OccNet の中核となるのは、3D 物理世界を表現するための一般的な占有埋め込みです。このような記述子は、検出、セグメンテーション、計画など、幅広い運転タスクに適用できます。この新しい表現と私たちが提案するアルゴリズムの有効性を検証するために、nuScenes 上に構築された初の高密度で高品質の 3D 占有ベンチマークである OpenOcc を提案します。実証実験では、複数のタスクにわたって明らかなパフォーマンスの向上が示されており、たとえば、モーションプランニングでは衝突率が 15% ~ 58% 減少することが確認されており、私たちのアプローチの優位性が実証されています。

1 はじめに

道路を運転しているときに、目を通して見た 3D 空間の風景をどのように表現しますか? 人間のドライバーは、「私の車の左側約 5 インチにメルセデスがある」、「約 50 メートル後ろに巨大なガス管が突き出たトラックがある」などの観点から環境を簡単に説明できます。安全な自動運転(AD)を実現するには、現実世界を「存在」として表現する能力を持つことが重要です。シーンには、自動車、SUV、建設用トラックなどの車両、静的障壁、歩行者、背景の建物、植生など、さまざまなエンティティが存在するため、これはビジョン中心の AD システムにとって自明ではありません。3D シーンを 3D 占有と呼ばれるセマンティック ラベルを備えた構造化単位に量子化することは直感的な解決策であり、この形式は Mobileye [1] や Tesla [2] などの業界コミュニティでも提唱されています。オブジェクトの形状を過度に単純化する 3D ボックスと比較して、3D 占有は幾何学的に認識されており、異なる幾何学的構造を持つ 3D 立方体のコレクションを通じてさまざまなオブジェクトと背景の形状を表現します。図 1(cd) に示すように、3D ボックスでは建設車両の本体のみを表現できますが、3D 占有ではブームの詳細を保存できます。点群セグメンテーションや鳥瞰図 (BEV) セグメンテーションなどの他の従来の代替手段は、AD のコンテキストで広く導入されていますが、それぞれコストと粒度に制限があります。具体的な比較を表 1 に示します。3D 占有のこの明らかな利点により、従来の認識タスクと下流計画を強化する可能性の調査が促進されます。

9b88453a4dc3bf3ebe853b2393b20772.png bd5a0c0d8d5a7bb41c9cc1b688114f3a.png

同様の研究では、初期段階で 3D 占有について議論されています。占有グリッド グラフはロボット工学における同様の概念であり、モバイル ナビゲーション [30] での典型的な表現ですが、計画のための検索空間としてのみ使用されます。3D セマンティック シーン完成 (SSC) [34] は、3D 占有のアイデアを評価するための知覚タスクとみなすことができます。視覚中心のモデルにとって、時間情報を幾何学的事前情報として利用して、幾何学を意識した 3D 占有を再構築することは直感的ですが、以前の試み [17、20、5、27] ではこの問題に対処できませんでした。Coarse-to-fine メソッドは、手頃なコストで 3D ジオメトリ表現を改善するのにも有益ですが、これはシングルステージメソッドでは無視されます [17、27、5]。さらに、ビジョン中心のソリューション [14] の普及に伴い、コミュニティはフルスタック自動運転の精神に基づいて 3D 占有率を評価する実用的な方法を依然として模索しています。

これらの前述の問題に対応して、私たちは、時間的手がかりを利用して 3D 占有状態を再構築するカスケードボクセルデコーダを備えたビジョン中心のマルチビューパイプラインである OccNet と、幅広い運転タスクに対するタスク固有のサポートを提案します。 。OccNet の中核となるのは、3D シーンを記述するためのコンパクトで代表的な 3D 占有埋め込みです。これを達成するために、画像特徴からボクセル特徴を直接生成したり、BEV 特徴のみを使用した以前の文献 [21、7、36] とは異なり、OccNet は BEV 特徴から 3D 占有特徴をデコードするカスケード方式を採用しています。このデコーダは、ボクセルベースの時間的セルフアテンションと空間的クロスアテンションを介して高さ情報を回復するプログレッシブ方式を採用しており、効率を向上させるために変形可能な 3D アテンション モジュールがバンドルされています。このような 3D 占有記述子を備えた OccNet は、一般的な 3D 認識タスクを同時にサポートし、下流の計画タスク、つまり 3D 占有予測、3D 検出、BEV セグメンテーション、動作計画を容易にします。さまざまな方法を公平に比較​​するために、nuScenes データセット [4、10] に基づいて、高密度で高品質の注釈を備えた 3D 占有ベンチマークである OpenOcc を構築します。これには、14 億を超える 3D 占有セルを持つ 34,149 個の注釈付きフレームが含まれており、それぞれが前景オブジェクトと背景コンテンツを記述する 16 クラスのいずれかに割り当てられます。この高密度で意味的に豊富なアノテーションは、視覚的なモデルを活用して、疎な代替アノテーションと比較して優れた 3D ジオメトリ学習を実現します。また、オブジェクトの動きと方向フローの注釈も考慮されており、計画タスクに拡張できます。

OpenOcc ベンチマークで OccNet を評価し、実証研究により、シーン表現として 3D 占有が従来の代替手段よりも次の 3 つの側面で優れていることが実証されています。 1) 知覚の向上。3D 占有は、LIDAR ベースの方法と比較した点群セグメンテーションのパフォーマンスや、占有ベースの事前トレーニングまたは共同トレーニングによる強化された 3D 検出パフォーマンスによって証明されるように、ビジョンのみのモデルから 3D ジオメトリを取得するのに役立ちます。2) より良い計画。より正確な認識は、プログラムのパフォーマンスの向上にもつながります。3) 濃い方が良い。視覚のみのモデルを監視するには、疎なフォームよりも密な 3D 占有の方が効果的です。OpenOcc ベンチマークでは、OccNet は、TPVFormer [17] などの最先端の技術を上回り、セマンティック シーン完了タスクで 14% の相対的な改善を実現しました。FCOS3D [37] と比較すると、OccNet で事前トレーニングされた検出モデルは、小規模データで微調整するとパフォーマンスが約 10 ポイント向上します。3D 占有ベースの動作計画タスクの場合、BEV セグメンテーションまたは 3D ボックスベースの計画戦略と比較して、衝突率を 15% ~ 58% 削減できます。

要約すると、私たちの貢献は 2 つあります。 (1) 私たちは、時間的キューを使用して 3D 占有を生成するための、カスケード化されたボクセル デコーダーを備えたビジョン中心のパイプラインである OccNet を提案します。物理世界のきめ細かい詳細をより適切に捕捉し、幅広い運転タスクをサポートします。(2) 高密度で高品質の注釈を備えた提案された OpenOcc ベンチマークに基づいて、OccNet の有効性を実証し、認識タスクと計画タスクで大幅なパフォーマンス向上を達成しました。最初の結論は、シーン表現としての 3D 占有率が従来の代替手段より優れているということです。

2.関連作品

2.1 3D オブジェクトの検出

3D オブジェクト検出 [33、37、21、25] では、ボックス形式が下流のルールベースの方法用に構造化されているため、AD での認識用のオブジェクトとして 3D ボックスが使用されます。このような表現では、さまざまな形状の 3D オブジェクトが正規化された直方体に抽象化されるため、前景のオブジェクトのみが考慮され、オブジェクトの形状が過度に単純化されます。対照的に、3D 占有は、さまざまな形状のオブジェクトを区別できる物理世界のきめ細かい記述です。

2.2 LiDAR セグメンテーション

LIDAR セグメンテーション [41、29] のタスクは、ポイントレベルの 3D シーンを理解することです。入力として点群が必要ですが、高価で移植性も高くありません。3D シーン記述における LiDAR に固有の限られた知覚範囲とスパース性のため、このパイプラインの使用は、全体的な 3D シーンの意味論的な理解には適していません [34]。

2.2 3D 再構成とレンダリング

2D 画像からオブジェクトやシーンの 3D ジオメトリを推測することは [11、28] 広く普及していますが、コンピュータ ビジョンでは長年にわたって困難でした。この分野のほとんどのメソッド [31、6、35] は、単一のオブジェクトまたはシーンを扱います。AD アプリケーションの場合、強力な一般化能力が必要となるため、これは現実的ではありません。3D の再構成とレンダリングでは、シーンのジオメトリと視覚的な外観の品質に重点が置かれていることに注意してください。モデルの効率性や意味の理解にはあまり重点を置いていません。

2.4 セマンティックシーンの完成

この研究で議論されている占有予測の定義は、SSC [34] に最も似ています。MonoScene [5] では、最初に U-Net を使用して、単一の単眼 RGB 画像から意味ラベルを持つ高密度 3D 占有を推測します。最近、一連の関連作品が arXiv で公開されました。これらは同時進行のものであると考え、以下で簡単に説明します。VoxFormer [20] は深度推定を利用して、2 段階のフレームワークでボクセル クエリを設定します。OccDepth [27] も、蒸留を通じて意味論的な占有を予測するために、立体環境における奥行き知覚の精神を採用しています。TPVFormer [17] は、LIDAR ベースのスパース 3D 占有を監視として採用し、特徴を取得するための 3 ビュー表現を提案しています。Wang et al. [38] は、地域社会に利便性を提供できる、適切に設計された住宅ベンチマークを提供しました。

セマンティック KITTI [3] および NYUv2 [32] (単眼または RGB-D) に関する私たちの研究とは異なりますが、以前または同時に出版された文献は一貫して時間的コンテキストの採用を無視しています。過去のボクセルの特徴を利用するのは簡単で、これは Tesla によって検証されています [2]。しかし、技術的な詳細やレポートは公開されていません。さらに、私たちは、検出を超えて複数のタスクを強化できる一般的な記述子としての占有を調査する最初の研究として私たちの研究を位置づけています。

3. 方法論

この論文では、図 2 に示すように、画像からロバストな占有特徴を取得し、複数の運転タスクをサポートする、OccNet という名前の効率的で一般的なフレームワークを提案します。我々の手法は占有率の再構築と占有率の活用の2段階から構成される。ブリッジ部分を占有記述子と呼びます。これは、運転シーンの統一的な記述です。

40d318dd807e10d2f7f8594723dc4abc.png

占領地域再建

この段階の目標は、下流タスクをサポートするための代表的な占有記述子を取得することです。BEV 知覚の急速な発展 [21、7、22] を動機として、OccNet は、3D 空間でのボクセル単位の予測タスクにこの利点を活用するように設計されています。これを達成するには、最も単純なアーキテクチャとして、下流タスクで BEV 機能のみを使用することは、3D 空間での高度に知覚的なタスクには適していません。極端なことから、画像からボクセル特徴を直接構築するには、膨大な計算コストがかかります。これら 2 つの極端な点を BEVNet と VoxelNet と呼びます。OccNet の設計は、手頃なコストで最高のパフォーマンスを達成するために、それらの間のバランスを見つけます。再構成段階では、まず周囲の画像からマルチビュー特徴 Ft を抽出し、それを過去の BEV 特徴 Bt-1 および現在の BEV クエリ Qt とともに BEV エンコーダに入力して、現在の BEV 特徴を取得します。BEV エンコーダは BEVFormer [21] の構造に従い、過去の BEV 特徴 Bt-1、現在の BEV クエリ Qt、および画像特徴 Ft が時空間変換ブロックを通過して現在の BEV 特徴を取得します。次に、画像特徴、履歴、および現在の BEV 特徴が、カスケード ボクセル デコーダによって占有記述子に一緒にデコードされます。デコーダの詳細については、セクション 3.1 を参照してください。

占領された開発

再構築された占有記述子に基づいて、幅広い運転タスクを展開できます。Uni AD [14] に触発され、各表現の明示的なデザインが好まれます。直感的には、3D セマンティック シーンの完了 [34] と 3D オブジェクトの検出が占有記述子に付加されます。3D 占有グリッド マップと 3D ボックスを高さに沿って押し出し、BEV セグメンテーション マップを生成します。このようなマップは、モーション プランニング ヘッドおよび高レベル コマンドのサンプラーに直接入力して、argmin および GRU モジュールを介して自車の軌道を生成できます。詳細については、セクション 3.2 を参照してください。

3.1 カスケードボクセルデコーダ

より優れたボクセル特徴を効率的に取得するために、デコーダ内でカスケード構造を設計し、ボクセル特徴の高さ情報を段階的に復元します。

BEVからカスケードボクセルまで

BEV 特徴を直接使用するか、遠近マップからボクセル特徴を直接再構成すると、パフォーマンスまたは効率の低下につながるという観察に基づいて (表 9 のアブレーションを参照)、この方法を BEV 特徴 (Bt ∈ RH × W × CBEV) からすべてのボクセル特徴量(Vt ∈ RZ × H × W × CVoxel)の再構成は N 段階に分解され、カスケード構造と呼ばれます。ここで、H と W は BEV 空間の 2D 空間形状、C は特徴の寸法、Z はボクセル空間内の望ましい高さです。入力 BEV 特徴と目的の連結されたボクセル 特徴の間で、異なる高さを持つ中間ボクセル 特徴を V't, i ∈ RZi×H×W×Ci と呼びます。ここで、Zi と Ci は { 1, N} に均一に分布し、 {CBEV、CVoxel}。図2に示すように、Bt−1とBtはフィードフォワードネットワークを通じてV't−1、i、V'tiに昇格され、洗練されたV'tiはi番目のボクセルデコーダを通じて取得され、その後の手順は同じスキームに従います。各ボクセルデコーダには、ボクセルベースの時間セルフアテンションモジュールとボクセル空間クロスアテンションモジュールが含まれており、それぞれ履歴V't-1,iと画像特徴Ftを使用してV'tiを洗練します。このモデルは、Zi を徐々に増加させ、Ci を減少させて、最終的な占有記述子 Vt を効果的かつ効率的に学習します。

ボクセルベースの時間的自己注意

時間情報は、運転シナリオを正確に表現するために重要です [21]。過去のボクセル特徴 V't−1,i が与えられると、それを自我キャリアの位置によって現在の占有特徴 V't,i と位置合わせします。一般的なセルフ アテンションでは、各クエリが各キーと値に焦点を当てるため、計算コストが膨大になり、2D の場合と比較して 3D 空間では Z2 倍に増加することさえあります。計算コストを削減するために、計算負荷に対処するために、3D Deformable Attendee (略して 3D-DA) と呼ばれる効率的なボクセルベースのアテンションを設計します。これをボクセルベースの時間的セルフアテンションに適用することで、各ボクセル クエリが関心のあるローカル ボクセルとのみ対話する必要があることが保証され、計算コストが手頃になります。

3D変形にも注目

従来の 2D 変形可能注意 [40] を 3D フォームに拡張します。ボクセル特徴 V't、i ∈ RZi×H×W×Ci、特徴 q ∈ RCi を持つボクセル クエリ、および 3D 参照点 p が与えられると、3D 変形可能アテンションは次のように表されます。

46da8432f2123905b4fa763700054e36.png

ここで、M は注目ヘッドの数、K はサンプリングのキー番号、K≪ZiHW、Wm∈RCi×(Ci/M) および Wk∈R(Ci/M)×Ci は学習重み、Amk は正規化。ここで、p+Δpmk は 3D 空間内の学習可能なサンプル点の位置であり、特徴はボクセル特徴の三線形補間によって計算されます。

ボクセルベースの空間交差アテンション

クロスアテンションでは、ボクセルごとの特徴 V'ti は、2D 変形可能なアテンションを備えたマルチスケール画像特徴 Ft と相互作用します [40]。各 i 番目のデコーダは、対応するボクセルから画像ビューまでの Nref, i 3D ポイントを直接サンプリングし、サンプリングされた画像特徴と対話します。このような設計により、高度な情報が保存され、ボクセルの特徴が確実に学習されます。

3.2 さまざまなタスクの占有を活用する

OccNet は、きめ細かい占有記述子を使用して 3D 空間のシーンを記述し、過度の計算オーバーヘッドを発生させることなく、さまざまな運転タスクにフィードすることができます。

セマンティックシーンが完了しました

簡単にするために、各ボクセルの意味ラベルを予測する MLP ヘッドを設計し、焦点損失 [24] を適用して、占有ボクセルと空ボクセルの間の大きな数値的不均衡のバランスをとります。さらに、占有ボクセルあたりの流量を推定するために、L1 損失を備えたフロー ヘッドが取り付けられました。

3D オブジェクト検出

BEVFormer [21] のヘッド設計に触発され、占有記述子を BEV に圧縮し、クエリベースの検出ヘッド (変形可能な DETR [40] に対して不変) を適用して 3D ボックスを予測します。

BEV セグメンテーション

ST-P3 [13] の時空間融合知覚アーキテクチャに従って、3D オブジェクト検出と同様に、マップ表現とセマンティック セグメンテーションが BEV の特徴から予測されます。BEV セグメンテーション ヘッドには、地図表現のための走行可能エリア ヘッダーと車線ヘッダー、セマンティック セグメンテーションのための車両セグメンテーション ヘッダーと歩行者セグメンテーション ヘッダーが含まれます。

モーションプランニング

動作計画タスクの場合、図 2 に示すように、SSC または 3D バウンディング ボックスで予測された占有結果を BEV セグメンテーションに変換できます。3D 占有結果も高さ寸法と 3D ボックスに沿って押し出されます。3D 占有または 3D ボックスからの各 BEV セルのすべての意味ラベルは 0-1 形式に変換されます。1 はセルが占有されていることを意味し、0 は空であることを意味します。次に、このような BEV セグメンテーション マップを安全コスト関数に適用し、サンプリングされた軌道上の安全性、快適性、およびスケジュール コストを計算します。占有シーンの完了におけるより豊富な背景情報は、3D ボックスと比較してより包括的な安全コスト関数につながるため、これら 2 つの BEV 分割間で安全コスト値を正規化する必要があることに注意してください。すべての候補軌道は、ランダムな速度、加速度、および曲率でサンプリングされます。前進、左折、右折などの高度なコマンドに基づいて、最小のコストで特定のコマンドに対応する軌道が出力されます。フロントビューの視覚機能を使用して有効になった GRU 改良は、ST-P3 [13] としてこの軌道に対してさらに実行され、最終軌道が得られます。

4.OpenOcc

文献における占有パフォーマンスを公正に評価するために、主流の nuScenes データセット [4、10] の上に構築された OpenOcc という名前の最初の 3D 占有ベンチマークを導入します。

前面カメラのみを備えた SemanticKITTI [3] などの既存の対応物と比較して、OpenOcc は、周囲のカメラ ビューに対応する 3D 占有およびフロー注釈を提供します。

4.1 ベンチマークの概要

まばらな LIDAR 情報と 3D ボックスを活用して、高密度で高品質の占有アノテーションを含む占有データを生成します。これには、700 のトレーニング シーンと 150 の検証シーンすべてに対応する 34149 の注釈付きフレームが含まれています。ベンチマークでは、10 個の前景オブジェクトと 6 個の背景塗りつぶしを含む、14 億以上のボクセルと 16 クラスにアノテーションを付けています。さらに、前景オブジェクトの動きを考慮し、オブジェクト ボクセルに追加のフロー アノテーションを実行します。表 2 では占有率データを他のベンチマークと比較し、占有率や交通情報を含むシーンの最も完全な表現をベンチマークが提供できることを示しています。図 3 に示すように、SparseOcc [17] は、3D シーンを表現するには疎すぎる 3D 空間をボクセル化するために、疎なキーフレーム LIDAR データのみを利用します。対照的に、私たちの占有はフロー情報を含む完全なシーンを表現し、局所的なきめの細かいシーン ジオメトリを高品質でキャプチャできます。

f0cb8491f7129d66e80e844444c78737.png

4.2 高品質のアノテーションの生成

背景と前景の独立した蓄積

密な表現を生成するには、キーフレームと中間フレームのすべての疎な LIDAR ポイントを蓄積して密な表現を取得することが直感的です [3]。ただし、座標変換を介して中間フレームから直接ポイントを蓄積することには、移動オブジェクトが存在するため問題があります。私たちは、3D ボックスに基づいて LIDAR ポイントを静的な背景ポイントと前景ポイントに分割し、それらを別々に蓄積することを提案します。次に、グローバル ワールド システム内の静的な背景ポイントとオブジェクト座標系内のオブジェクト ポイントを蓄積して、密なポイントを生成できます。

ノートの生成

高密度の背景とオブジェクトの点が与えられた場合、最初に 3D 空間をボクセル化し、ラベル付けされた点に従ってボクセルをマッピングします。占有ラベルのみを持つ既存のベースラインとは異なり、3D ボックス速度に基づいてボクセル流速に注釈を付け、動作計画などの下流タスクを容易にします。キーフレームのみを使用すると、生成される占有データがまばらになるため、周囲のラベル付きボクセルに基づいて中間フレームのラベルなし LiDAR ポイントでボクセルに注釈を付け、データ密度をさらに高めます。また、nuScenes では Z 軸の変換ができないという問題があるため、道路の穴を埋めるなど、シーンを完成させることで占有データを調整し、高品質を実現します。さらに、レイをトレースすることでボクセルの一部がカメラ ビューから見えなくなるように設定します。これは、カメラ入力を伴うタスクにより適しています。

5. 実験

ベンチマークの詳細

LiDAR 座標系で V=[−50m, 50m]×[−50m]×[-5m, 3m] のボリュームを選択して占有データを生成し、Δs=0.5m の解像度を使用して 3D 空間ボクセルを変換します。 200×200×16ボクセルに変換して3D空間を表現します。評価指標は補足にあります。

OccNetの詳細

BEVFormer [21] の実験セットアップに従って、ImageNet [8] から初期化された ResNet50 [12] と FCOS3D [37] から初期化された ResNet101 DCN [12] の 2 種類のバックボーンを使用します。BEV 特徴を Bt として定義します。ここで、H=200、W=200、CBEV=256 です。デコーダでは、N = 4 の占有特徴マップ V't, i ∈ RZi×H×W×Ci を設計します。ここで、Zi=2i、C1=C2=128、C3=C4=64 です。ボクセル空間のクロスアテンションの場合、クエリされた各ボクセル内の Nref、i = 4 点をサンプリングします。デフォルトでは、24 エポックと 2×10−4 の学習率で OccNet をトレーニングします。

5.1 主な結果

セマンティックシーンが完了しました

表 3 と図 4 では、OccNet とセマンティック シーン完了タスクに関するこれまでの最先端の方法を比較しています。検出ヘッドを BEV 特徴マップに基づいて構築されたシーン補完ヘッドに置き換えることによって、BEVDet4D [15]、BEVDepth [19]、および BEVDet [16] を再現しました。表 3 に示すように、OccNet はこれらの方法を大幅に上回っています。BEV 特徴マップと比較して、占有記述子はボクセル単位の予測タスクにより適しています。また、アンビエント 3D セマンティック占有予測タスク用に開発された OccNet と TPVFormer [17] を比較したところ、私たちのモデルは mIOU の点でそれを 3.31 ポイント上回り (26.98 対 23.67)、TPV 特性において占有記述子がシーン表現で優れていることを示しました。 。TPVFormer は、乗用車、トラック、トレーラーの OccNet よりも優れたパフォーマンスを示します。これは、これら 3 つのオブジェクトのサンプルがベンチマークで比較的大きく、TPVFormr がサンプリング戦略からこれらのクラスのより優れた機能を学習するためです。ただし、歩行者やトラフィック コーンなどのより小さなサイズのオブジェクトの場合、私たちの方法は TPVFormer [17] よりも優れた性能を発揮し、表 3 では 10 ポイントという大きなマージンを得ることができます。

c8752a6173c90f40d4454742aa86b3b6.png 76f9fa336d6eca3e17b0fcdbdbecdc2d.png e95ac586d9de67156362782173907da3.png

LiDAR セグメンテーション占有率

占有率は 3D 空間内の点のボクセル化された表現であり、Δs の場合、セマンティック シーンの完了はセマンティック LIDAR 予測タスク → 0 と同等になります。関連するボクセル ラベルに基づいてポイント ラベルを割り当てることで、セマンティック占有予測を LiDAR セグメンテーションに転送し、mIoU メトリクスでモデルを評価します。表 15 に示すように、LIDAR 監視なしで、入力としてカメラを指定すると、OccNet を LIDAR セグメンテーション モデル RangeNet++ [29] と mIoU の観点から比較できます (60.46 対 IoU は RangeNet++ (32.58 対 21.30) よりも優れています)。TPVFormer [17] と比較すると、OccNet は mIoU の点でも 2 ポイント優れています。

da36c44899b58f0d666478349f186255.png

3D 占有検出

シーン完了タスクでは、前景オブジェクトの位置に対して粗回帰を実行できます。これは、3D ボックス回帰を使用した 3D 検出タスクに役立ちます。表 5 に示すように、シーン完了タスクと 3D 検出タスクの共同トレーニングにより、mAP と NDS の観点から、BEVNet、VoxNet、OccNet を含む 3 つのモデルすべての検出器のパフォーマンスを向上させることができます。3D ボックスの正確な中心距離と IoU に依存するメトリクスを計算する場合、Δs = 0.5m の占有率のボクセル化表現は粗すぎるため、mATE と mASE は共同トレーニングでわずかに増加することに注意してください。

3D 検出と BEV セグメンテーション用に事前トレーニングされた占有率

セマンティック シーン完了タスクでトレーニングされた OccNet は、占有記述子で再構築されたシーンにより 3D 空間の一般的な表現を取得できます。したがって、学習された占有記述子は、モデルの微調整を通じて下流の 3D 認識タスクに直接転送できます。図 5 に示すように、さまざまなサイズのトレーニング データセットでは、3D 検出で事前トレーニングされた OccNet のモデルのパフォーマンスは、FCOS3D [37] 検出器で事前トレーニングされたモデルのパフォーマンスよりも優れており、mAP とNDSは10点くらいです。また、BEV セグメンテーション タスクの占有事前トレーニングと検出事前トレーニングを比較し、表 6 に示すように、占有事前トレーニングが BEV セグメンテーションがセマンティックおよびマップ セグメンテーションの微調整段階でより高い IoU を達成するのに役立つことを示しています。

f3dcf25455fd501d85a91f929ec93e0b.png 93970678efd04f554feeea57a9e6ae78.png

占有計画

上流タスクの予測結果、つまり境界ボックスと占有を使用すると、コスト フィルターと GRU リファインメント モジュール [13] を通じて最終的な軌道を取得でき、入力は BEV を使用してセグメント化されます。これらのセグメンテーション結果を取得するには、BEV 空間で OccNet の出力をラスタライズします。OccNet の予測を使用して、境界ボックスと占有のラスタライズ結果を比較します。また、結果を ST-P3 の直接セグメンテーションの結果と比較します [13]。公平に比較​​するために、ST-P3 と同じ設定を採用し、車両クラスと歩行者クラスのみを維持します。より適切に比較するために、グラウンド トゥルースのラスタライズされた入力も追加します。表 7 に示すように、占有グラウンド トゥルースを使用して軌道をフィルタリングすると、最高のパフォーマンスが得られます。予測結果については、OccNet の占有率予測に基づいて、衝突率を 15% ~ 58% 削減できます。また、16 クラスすべての占有を使用して実験を行い、フルクラス占有が L2 距離のパフォーマンスを向上できることを示しています。図 6 に示すように、フルクラス占有の計画では、背景オブジェクトとの衝突を回避するために、実行可能な領域内で決定を下すことができます。

2ba9c491b41122d030e3a236e0d24b49.png caa142e3676e39fe856246db5df842f3.png

5.2 議論

モデルの効率

表 8 では、セマンティック シーン完了タスクにおけるさまざまなモデルのパフォーマンスを比較しています。BEVNet や VoxelNet と比較して、OccNet は mIOU と IoUgeo で効率的かつ効果的に最高のパフォーマンスを達成できます。

5afcdb755716bdac4b790cdf2d88386b.png

不規則な物体

図 7 に示すように、建設車両などの不規則なオブジェクトを 3D ボックスや交通標識などの背景マテリアルで表現することは難しく、不正確です。3D ボックスをボクセルに変換して、表 9 の不規則なオブジェクトの 3D 検出タスクと占有タスクを比較し、占有が不規則なオブジェクトをより適切に説明できることを検証します。ボクセル サイズの影響を調べるために、Δs = 0.25m のデータセットも生成しました。Δs が 0.5m から 0.25m に減少するにつれて、より細かい粒度で不規則なオブジェクトをより適切に表現できるため、3D ボックスと占有率の間のパフォーマンス ギャップが増加します。

3619cfe254004cd97d52defb969407b4.png

占有率の密集と疎密

図 3 に示すように、疎な占有と比較して、密な占有は背景と前景のオブジェクトの完全なジオメトリを詳細に記述するのに役立ちます。直観的には、高密度占有は情報入力が豊富であるため、3D 認識と動作計画により適しています。図 5 に示すように、密集占有で事前トレーニングされたモデルが、より下流の 3D 検出タスクに利益をもたらすことを検証します。

6 結論

私たちは、シーン表現としての 3D 占有の可能性を徹底的に調査し、このアイデアを評価するための一般的なフレームワークである OccNet を提案します。さまざまな下流タスクに関する実験により、私たちの方法の有効性が検証されます。高密度で高品質のラベルを備えた OpenOcc ベンチマークもコミュニティに提供されます。

制限と今後の課題

現在、アノテーションは依然として十分に確立されたデータセットに基づいています。自己教師あり学習を使用して手動アノテーションのコストをさらに削減することは、価値のある方向性です。この占有フレームワークが自動運転のベースモデルとなることを期待しています。

過去のレビュー

史上最も包括的なレビュー|3Dターゲット検出アルゴリズムまとめ!(単眼/双眼/LiDAR/マルチモーダル/タイミング/準弱自己監視)

(1)動画講座はこちら!

自動運転の心臓部は、ミリ波レーダービジョンフュージョン、高精度地図、BEV知覚、マルチセンサーキャリブレーション、センサー展開、自動運転協調知覚、セマンティックセグメンテーション、自動運転シミュレーション、L4知覚、意思決定計画、軌道予測を統合します。 、など、各方向の学習ビデオ。ご自身で受講することを歓迎します (コードをスキャンして学習を入力してください)。

be6848540caf26e180e62497f5e3eada.png

(コードをスキャンして最新のビデオをご覧ください)

動画公式サイト:www.zdjszx.com

(2) 中国初の自動運転学習コミュニティ

1,000 人近くのコミュニケーション コミュニティと 20 以上の自動運転技術スタックの学習ルートが、自動運転の認識 (分類、検出、セグメンテーション、キー ポイント、車線境界線、3D 物体検出、占有、マルチセンサー フュージョン、物体追跡、オプティカル フロー推定、軌道予測)、自動運転位置決めとマッピング(SLAM、高精度マップ)、自動運転計画と制御、フィールド技術ソリューション、AI モデル展開の実装、業界トレンド、求人リリース、スキャンへようこそ以下の QR コード、自動運転の中心となるナレッジ プラネットに参加してください。ここは本物の乾物がある場所です。この分野の大手の人々と、仕事の開始、勉強、仕事、転職に関するさまざまな問題を交換し、論文 + コードを共有します。毎日+ビデオ、交換を楽しみにしています!

5de0ded07faa1ae8f85f100167368dfe.jpeg

(3) 自動運転の心臓部】フルスタック技術交流会

The Heart of Autonomous Driving は、物体検出、セマンティック セグメンテーション、パノラマ セグメンテーション、インスタンス セグメンテーション、キー ポイント検出、車線境界線、物体追跡、3D 物体検出、BEV 認識、マルチセンサー フュージョン、 SLAM、光流推定、深さ推定、軌道予測、高精度地図、NeRF、計画制御、モデル展開、自動運転シミュレーションテスト、プロダクトマネージャー、ハードウェア構成、AI求人検索とコミュニケーションなど。

0a3abbe9f32d734b64575201909292e3.jpeg

Autobot Assistant Wechat への招待を追加してグループに参加します

備考:学校/会社+方向+ニックネーム

おすすめ

転載: blog.csdn.net/CV_Autobot/article/details/131238560