清華大学と Nvidia の最新 | Occ3D: 一般的かつ包括的な大規模 3D 占有予測ベンチマーク

「自動運転ハート」公開アカウントに注目するには下のカードをクリックしてください

ADAS ジャンボ乾物、手に入れられます

クリックして入ってください→オートパイロットの核心【ネットワーク占拠】技術交流グループ

背景返信【3D検査レビュー】点群/BEV/画像に基づいた最新の3D検査レビューを入手!

著者|オートボット

編集者|オートパイロットの核心

自動運転の認識には、3D ジオメトリとセマンティクスのモデリングが必要です。既存の方法は通常、3D 境界ボックスの推定に重点を置き、より微細な幾何学的詳細を無視し、一般的な語彙外のオブジェクトの扱いに苦​​労しています。これらの制限を克服するために、この論文では、多視点画像からオブジェクトの詳細な占有とセマンティクスを推定することを目的とした新しい 3D 占有予測タスクを紹介します。このタスクを容易にするために、著者らは、特定のシーンに対して高密度で知覚的なラベルを生成するラベル生成パイプラインを開発しました。パイプラインには、点群の集約、点のラベル付け、およびオクルージョン処理が含まれます。著者らは、Waymo オープン データセットと nuScenes データセットに基づいて 2 つのベンチマークを構築し、Occ3D Waymo ベンチマークと Occ3D nuScene ベンチマークを作成しました。最後に、著者らは「coarse-to-fine occupancy」(CTF-Occ) ネットワークと呼ばれるモデルを提案しています。これは、3D 占有予測タスクにおいて優れたパフォーマンスを示します。このアプローチは、粗いものから細かいものまで、より詳細な幾何学的理解を求めるニーズに対応します。

序章

3D 認識は、自動運転などのビジョンベースの自動運転システムの重要なコンポーネントです。最も一般的な視覚タスクの 1 つは 3D オブジェクト検出です。これは、単眼カメラまたはステレオ カメラの画像から、固定オントロジー ツリーで定義されたオブジェクトの位置とサイズを推定します。出力はダウンストリーム タスクで使用できるコンパクトな 3D バウンディング ボックスですが、以下の図 1 に示すように、その表現力は依然として制限されています。

4753a0beb284c53a713c657ffbb958d4.png
  1. オブジェクトの幾何学的詳細が削除された 3D バウンディング ボックス表現。例: 回転によって接続された 2 つ以上のセクションを持つ曲線バス、ロボット アームが本体から突き出ている建設車両。

  2. 路上のゴミや木の枝など、めったに見られないオブジェクトは通常無視され、データセットでは注釈が付けられません。これは、オブジェクト カテゴリをオントロジー ツリーで広範囲に列挙することができないためです。

これらの制約には、オントロジー ツリー内外のオブジェクトの詳細なジオメトリとセマンティクスをモデル化できる、一般的で一貫した知覚表現が必要です。著者らは、この目標を達成するには、3D 空間内の各ボクセルの占有状態を理解することが重要であると主張しています。モバイル自動運転における占有状態を推定するための古典的なタスクは、占有グリッド マップ (OGM) です。OGM は、一定期間にわたる距離測定値 (LIDAR スキャンなど) を集計し、各ボクセルがベイジアン フレームワーク内で占有される確率を推定します。ただし、このソリューションは静的環境を前提としており、視覚的な入力には適していません。

この研究で著者らは、ビジョンベースの自動運転認識のための 3D 占有予測と呼ばれる包括的な 3D シーン理解タスクを定義します。3D 占有予測は、マルチビュー画像のシーン内の各ボクセルの占有ステータスと意味ラベルを組み合わせて推定します。各ボクセルの占有ステータスは、空き、占有、または観察されない可能性があります。3D 占有予測では、可視性を考慮して未観察のボクセルを除外するために、ボクセルに未観察のラベルを付けることが重要です。意味ラベルは、占有されたボクセルに対して推定されます。データセット内に事前定義されたカテゴリを持つオブジェクトの場合、その意味ラベルはそれぞれのカテゴリに対応します。対照的に、未分類のオブジェクトには一般オブジェクト (GO) として注釈が付けられます。GO がコード化されることはほとんどありませんが、通常は 3D オブジェクト検出の事前定義されたカテゴリでは検出されないため、安全性の観点から自動運転の認識タスクには非常に重要です。

さらに、著者らは 3D 占有予測タスク用のラベル生成パイプラインを作成し、シーンの高密度で可視性を意識したグラウンド トゥルースを生成しました。パイプラインは、時間点群分離、動的オブジェクト変換、LIDAR 可視性推定、カメラ可視性推定などのいくつかのステップで構成されます。セルフポーズとオブジェクトの軌跡を利用することで、点群の集約と動的オブジェクトの変換により、静的シーンの密度が向上し、動的オブジェクトの詳細なジオメトリが復元されます。さらに、3D 占有予測タスクの評価には可視性マスクが重要であるため、著者らはレイキャスティング ベースのアプローチを利用して LIDAR とカメラの可視性を推定しています。公開されている Waymo オープン データセットと nuScenes データセットに基づいて、著者らは、このタスク用の 2 つのベンチマーク、Occ3D Waymo と Occ3D nuScenes を対応して生成します。このタスクでは、一連のボクセル中心のセマンティック セグメンテーション評価メトリクスを使用します。最後に、著者らは、CTF-Occ と呼ばれる、トランスフォーマーベースの粗密から粗密への 3D 占有予測モデルを開発しました。CTF-Occ は、クロスアテンション操作を通じて、粗いものから細かいものまで効率的に 2D 画像の特徴を 3D 空間に集約します。

要約すると、この論文の貢献は次のとおりです。

  1. 著者らは、ビジョンベースの自動運転アプリケーション向けの一般的かつ包括的な 3D 認識タスクである 3D 占有予測を提案しています。占有予測により、あらゆるシーンのセマンティクスとジオメトリを効率的に再現できます。

  2. 著者らは、占有率予測のための厳密なラベル生成パイプラインを開発し、2 つの困難なデータセット (Occ3D Waymo と Occ3D nuScenes) を構築し、将来の研究を促進するためのベンチマークと評価指標を確立しました。

  3. 著者らは、優れた占有予測性能を実現する新しい CTF-Occ ネットワークを提案します。この困難なタスクでは、CTF-Occ は Occ3D-Waymo のベースラインを 3.1 mIoU 上回りました。

関連作業

3D 検出: 3D オブジェクト検出の目的は、事前定義されたオントロジー内のオブジェクトの位置とサイズを推定することです。3D オブジェクトの検出は通常、LIDAR 点群で実行されます。最近では、ビジョンベースの 3D オブジェクト検出が、低コストで豊富なセマンティック コンテンツを備えているため、より注目を集めており、この分野ではいくつかの LIDAR とカメラの融合方法が提案されています。

3D 占有率予測: 3D 占有率予測に関連するタスクは占有グリッド マップ (OGM) です。これは、連続的な騒音範囲測定から確率マップを生成することを目的とした移動自動運転の古典的なタスクです。通常、自動運転の姿勢は既知であり、このマッピング問題はベイジアン フレームワーク内で解決できます。最近の作品の中には、下流タスクのためにセマンティック セグメンテーションと OGM をさらに組み合わせたものもあります。OGM では、LIDAR やレーダーなどの測距センサーからの測定が必要であり、シーンが時間の経過とともに静的であることも前提としていることに注意してください。著者らが提案した 3D 占有予測タスクにはこれらの制約がなく、動的シーンにおける視覚のみの自動運転システムに適用できます。並行研究である TPVFormer は、3D 占有率を予測するための 3 ビュー手法を提案しています。ただし、LiDAR の監視により出力はまばらです。

セマンティック シーン補完:もう 1 つの関連タスクはセマンティック シーン補完 (SSC) です。その目的は、部分的な観測から高密度の意味空間を推定することです。SSC は、次の 2 つの点で 3D 占有予測とは異なります。

  1. SSC は、可視部分が与えられた場合に遮蔽された領域を推測することに重点を置いていますが、占有予測は不可視領域を推定しません。

  2. 通常、SSC は静的なシナリオに適していますが、占有予測は動的なシナリオに適しています。

3D 占有率予測

タスク定義

一連のセンサー入力が与えられた場合、3D 占有予測の目的は、3D シーン内の各ボクセルの状態を推定することです。具体的には、タスクの入力は、N 個のサラウンド ビュー カメラ画像の T フレームの履歴シーケンスです (i=1...N、t=1...T)。

著者らはまた、各フレームで既知のセンサーの固有パラメータと外部パラメータ {[R_i|t_i]} を仮定しています。タスクの予期される出力は、占有 (「占有」、「空」) およびセマンティクス (カテゴリーまたは「不明」) を含む各ボクセルのステータスです。たとえば、車両上のボクセルにはラベル (「占有」、「車両」) が付けられ、自由空間内のボクセルには (「空」、「なし」) のラベルが付けられます。3D 占有予測フレームワークは、インスタンス ID や動きベクトルなどの追加の属性も出力としてサポートしていることに注意してください。作成者はこれらを将来の作業として残しています。

一般的な目標に取り組む

3D セマンティック ファジー予測タスクの主な利点の 1 つは、GO または未知のオブジェクトを処理できることです。すべてのオブジェクト カテゴリが事前定義されている 3D オブジェクト検出とは異なり、3D 占有予測では占有グリッドとセマンティクスを使用して任意のオブジェクトを処理します。オブジェクトのジオメトリは通常、(「占有」、「不明」) とラベル付けされた語彙外のオブジェクトを含むボクセルで表されます。一般的なオブジェクトを表現および検出するこの機能により、タスクがより一般的になり、自動運転の認識により適したものになります。

評価指標

mIoU: 3D ボクセル レベルの占有予測タスクと 2D ピクセル レベルのセマンティック セグメンテーション タスクの類似性により、著者は mIoU を使用してモデルのパフォーマンスを評価します。

075550b695a23ecc06a3e8fa1958c377.png

ここで、 、 、および は、それぞれカテゴリ c の真、偽陽性、および偽陰性の予測を示します。視覚中心のタスクに重点が置かれているため、実際には、多くのグラウンドトゥルース ボクセルが画像内に表示されません。したがって、著者らは画像内の可視領域の mIoU のみを計算します。

Occ3D データセット

データセット構築パイプライン

3D シーンの高密度のボクセル レベルのアノテーションを取得することは困難であり、非現実的な場合があります。この問題に対処するために、著者らは既存の注釈付き 3D 認識データセットを活用する半自動ラベル生成パイプラインを提案しています。まず、著者は複数のフレームからポイントを順次集計します。次に、著者らは暗号化された点群をボクセル化します。最後に、著者らは可視性に基づいてボクセルのタイプを識別します。

データの準備:ラベル生成パイプライン (以下の図 2 を参照) には、各シーンに次のセンサー データが含まれる 3D データセットが必要です。

  1. (マルチビュー) カメラ画像のシーケンス。

  2. 3D LIDAR 点群シーケンス。

  3. IMU からの 3D ポーズ シーケンス。

カメラと LIDAR のすべての組み込み関数と外部関数は、座標変換と投影にも必要です。さらに、作成者は、共通オブジェクトに対して人による注釈を付けたボックスレベルの意味ラベル、およびオプションでポイントレベルの意味ラベルを必要とします。

7ed1a955cb09d5a3eba49fe4d26bb805.png

点群の集約:まばらな LIDAR 観測からの 3D 再構成は、リアルタイム位置特定およびマッピング (SLAM) における古典的な問題です [10]。各フレームの一連の LiDAR 点群と IMU 姿勢測定値が与えられると、著者らは共同で自己姿勢を最適化し、点群を統合された世界座標系に集約できます。ただし、動的オブジェクトは、時間的な集約後にモーション ブラーが発生します。したがって、著者は動的ターゲットと静的ターゲットを別々に扱います。動的オブジェクトのポイントは、各フレームの境界ボックスの注釈と異なるフレーム間の自己ポーズに基づいて変換および集約されます。静的オブジェクトのポイントについては、自己ポーズに従って集計するだけです。

シーケンスの各フレームのラベル付けには時間がかかるため、一部の既存のデータセットはキーフレームでのみラベル付けします。たとえば、nuScenes は 10Hz でキャプチャされますが、2Hz でラベル付けされます。したがって、作成者は、注釈付きオブジェクト ボックスのシーケンスに対して時間補間を実行し、上記の動的ポイント集約を実行する前に、注釈なしのフレームに自動的に注釈を付けます。ラベルのないフレーム内のボックスで囲まれていない点に関しては、それらは静的な背景である可能性があります。したがって、著者は、K 最近傍を使用して、意味ラベルを決定するための投票を行います。このようにして、著者は、注釈が高密度に付けられた前景の動的オブジェクト インスタンスと背景の静的点群を取得します。

LiDAR の可視性:集約された LiDAR 点群から高密度で規則的な 3D 占有グリッドを取得するには、点を含むボクセルを「占有」として設定し、残りを「空」として設定するのが簡単なアプローチです。ただし、LIDAR ポイントはまばらであるため、一部の占有ボクセルは LIDAR ビームによってスキャンされず、誤って「空」とラベル付けされる可能性があります。この問題を回避するために、著者らはレイ キャスティング操作を実行して各ボクセルの可視性を決定しました。具体的には、著者らは各 LIDAR ポイントをセンサー原点と接続して光線を形成し、ボクセルが LIDAR ポイントを反映するか (「占有」)、光線が透過する (「空」) 場合にはボクセルが表示されます。それ以外の場合は、 とマークされます。 「観察されていない」として。このようにして、著者らはボクセルレベルの LIDAR 可視性マスクを生成します。

オクルージョン推論とカメラの可視性:視覚中心のタスクに焦点を当て、著者らはさらにオクルージョン推論アルゴリズムを提案し、各ボクセルが現在のマルチカメラ ビューで観察されているかどうかを示すカメラ可視性マスクを生成します。具体的には、各カメラ ビューについて、著者らは占有ボクセルの中心をカメラの中心に接続し、光線を形成します。各光線に沿って、最初に占有されたボクセルまでのボクセルを「観測」に設定し、残りのボクセルを「非観測」に設定します。どのカメラ光線によってもスキャンされなかったボクセルも「未観察」としてマークされます。下の図 3 に示すように、累積 LIDAR ビューでは白いボクセルが観察されますが、現在のカメラ ビューでは観察されません。

44682b0dd68eca89e0ab188aa9a3521d.png

LIDAR の可視性マスクとカメラの可視性マスクは、次の 2 つの理由で異なる場合があることに注意してください。

(1) レーザーレーダーとカメラの設置位置が異なります。

(2) LiDAR の可視性はシーケンス全体を通じて一貫していますが、カメラの可視性はタイムスタンプごとに異なります。

ボクセルの可視性を決定することは、3D 占有予測タスクを評価するために重要です。評価は、LIDAR ビューとカメラ ビューで「観察された」ボクセルに対してのみ行われます。

データセットの統計

上記の半自動ラベル付けパイプラインに基づいて、著者らは 2 つの 3D 占有予測データセット、Occ3D Waymo と Occ3D nuScenes を生成しました。Occ3D Waymo には、トレーニング用の 798 シーケンスと検証用の 202 シーケンスが含まれています。14 の既知のオブジェクト クラスと追加の GO クラスがあります。Occ3D nuScenes には、トレーニング用の 600 シーンと検証用の 150 シーンが含まれています。16 個の GO クラスがあります。以下の表 1 は、著者が提案した Occ3D データセットと既存のデータセットをさまざまな側面から比較したものです。

08a019ddae236c4d743422d044cc6270.png

粗いから細かい占有モデルへ

困難な 3D 占有予測問題に対処するために、著者らは Coarse-to-Fine Occupancy (CTF-Occ) ネットワークと呼ばれる新しいトランスベースのモデルを提案しています。著者はこのセクションでモデル設計について詳しく説明します。

全体的なアーキテクチャ

以下の図 4 は、CTF-Occ ネットワーク アーキテクチャ図を示しています。

07e266cd4e121488a248d15d137a6b06.png

まず、画像バックボーン ネットワークを使用して、多視点画像から 2D 画像の特徴を抽出します。次に、3D ボクセルは、クロスアテンション操作を介して、集約された 2D 画像の特徴を 3D 空間にクエリします。著者らのアプローチには、インクリメンタルなラベル選択と空間クロスアテンションを通じて、ボクセル単位の特徴表現を粗いものから細かいものへと徐々に洗練するピラミッド型ボクセルエンコーダーの使用が含まれます。このアプローチにより、空間解像度が向上し、オブジェクトの詳細な形状が洗練され、最終的にはより正確な 3D 占有予測が可能になります。さらに、著者らは暗黙的な占有デコーダを使用しており、これにより任意の解像度の出力が可能になります。

粗密ボクセルエンコーダー

3D オブジェクト検出と比較して、3D 占有予測タスクには、より複雑なオブジェクト ジオメトリのモデリングが含まれます。この点を説明するために、著者の方法では高さを圧縮せずに 3D ボクセル空間を保存します。最初に、著者らは、形状 H×W×L の学習可能なボクセル埋め込みを使用して、多視点画像の特徴を 3D グリッド空間に集約します。次に、著者らは複数の CTF ボクセル エンコーダーをスタックして、マルチスケール インタラクションを実現します。各ピラミッド レベルの各ボクセル エンコーダーは、インクリメンタル アノテーション選択モジュール、ボクセル空間クロス アテンション モジュール、畳み込み特徴抽出器の 3 つのコンポーネントで構成されます。

インクリメンタルトークン選択:前述したように、3D 占有を予測するタスクには詳細な幾何学的表現が必要ですが、マルチビュー画像の関心領域と対話するためにすべての 3D ボクセル注釈が使用される場合、これは大幅な計算コストとメモリコストにつながる可能性があります。シーン内のほとんどの 3D ボクセル グリッドが空であることを考慮して、著者らは、クロスアテンション計算において前景および不確実なボクセル アノテーションを選択的に選択する増分アノテーション選択戦略を提案しています。この戦略により、精度を犠牲にすることなく高速かつ効率的な計算が可能になります。具体的には、各ピラミッド レベルの開始時に、各ボクセル トークンがバイナリ分類器に入力されて、ボクセルが空かどうかを予測します。著者らは、バイナリのグラウンドトゥルース占有マップを監視として使用して分類器をトレーニングします。私たちの方法では、K 個の最も不確実なボクセル アノテーションが、その後の特徴の改良のために選択されます。K 個の最も不確実なボクセルを定義するには 3 つの方法があります。1 つは確率が 0.5 に近いボクセル、最も高いスコアを持つ上位 K 個の空ではないボクセル、または両方のボクセルを特定のパーセンテージで組み合わせたものです。アブレーション研究では、初期段階で前景ボクセルを選択することがより望ましい選択であることが示されています。

空間クロスアテンション:ピラミッドの各レベルで、最初に上位 K 個のボクセル アノテーションを選択し、次に対応する画像特徴を集約します。特に、著者らは空間クロスアテンションを適用して、ボクセルごとの特徴をさらに洗練させます。3D 空間交差注意は次のように定義されます。

0e845143a85c70c434cb9907ca69740d.png

ここで、i、j はカメラ ビューと参照点のインデックスです。選択されたボクセル注釈クエリごとに、i 番目の画像上の j 番目の参照点を取得するために投影が実行されます。Fは、i番目のカメラビューの特徴を示します。著者らは、p = (x,y,z) にあるクエリに対応する参照点の現実世界の位置 (x',y',z') を次のように計算します。

064e11be22b2f416cf866730c4d42f6a.png

ここで、H、W、L は現在のピラミッド レベルの 3D グリッド空間形状、s はボクセル グリッドのサイズです。

畳み込み特徴抽出器:作成者が関連する画像特徴に変形可能なクロスアテンションを適用すると、前景ボクセル注釈の特徴の更新を開始します。次に、一連のスタック畳み込みを使用して、3D ボクセルごとの特徴マップ全体にわたる特徴の相互作用を強化します。現在のレベルの最後に、著者は三重線形補間を使用して 3D ボクセル特徴をアップサンプリングします。プロセス全体は次のように説明できます。

2bb16ace118f46711b82f4c3168e3239.png

暗黙的な占有デコーダ

CTF ボクセル エンコーダはボクセル化された特徴出力を生成し、それが複数の MLP に供給されて最終的な占有予測が取得されます。ここで、C' はセマンティック クラスの数です。さらに、著者らは、暗黙的なニューラル表現を利用して任意の解像度の出力を提供できる暗黙的占有デコーダを紹介します。暗黙的デコーダーは、ボクセル エンコーダーによって抽出されたボクセル特徴ベクトルとボクセル内の 3D 座標の 2 つの入力を介して意味ラベルを出力する MLP として実装されます。このプロセスは次のように説明できます。

70be3edfe6867f91da32e103563713e9.png

損失関数

占有予測を最適化するために、著者らはモデルのトレーニングに OHEM [30] の損失を使用します。 、 、 ここで、 および は k 番目のクラスの損失の重み、ラベル、および予測結果を示します。さらに、著者らはバイナリ ボクセル マスクを使用して、各ピラミッド レベルのバイナリ分類ヘッドを監視します。バイナリ ボクセル マスクは、各空間解像度 si で仮数部占有ラベルを処理することによって生成され、レベル i のバイナリ分類ヘッドの出力は pi で示されます。バイナリ分類の損失は次のように定義されます。ここで、 i は i 番目のピラミッド レベルを示します。最終的に、総損失は です。

実験

実験設定

データセット: Occ3D Waymo には合計 1000 の公開シーケンスが含まれており、そのうち 798 シーンがトレーニングに使用され、202 シーンが検証に使用されます。シーン範囲は、X 軸と Y 軸に沿って -40 メートルから 40 メートル、Z 軸に沿って -5 メートルから 7.8 メートルに設定されます。Occ3D nuScenes には、700 のトレーニング シーンと 150 の検証シーンが含まれています。X 軸と Y 軸の占有範囲は -40m ~ 40m、Z 軸は -1m ~ 5.4m と定義されています。著者は、2 つのデータセットで実験を行うために 0.4m のボクセル サイズを選択しました。

アーキテクチャ:著者は、FCOS3D [36] で事前トレーニングされた ResNet-101 [13] を画像バックボーンとして使用します。Occ3D Waymo の場合、画像は (640×960) にサイズ変更され、Occ3D nuScenes の場合、画像は ( 928×1600)。Z 軸の解像度に加えて、著者らは 2 つのデータセットに同じ CTF-Occ ネットワーク アーキテクチャ設定を採用しました。ボクセル埋め込みの形状は (200×200)、256 チャネルです。ボクセルの埋め込みは、最初にトークンの選択なしで 4 つのエンコーダー層を通過します。Occ3D Waymo データセットには 3 つのピラミッド レベルがあり、それぞれの Z 軸解像度は 8、16、32 です。Occ3D nuScenes データセットの各ステージの Z 軸解像度は、それぞれ 8 と 16 (2 つのピラミッド ステージの場合) です。各ステージには SCA レイヤーが含まれており、増分トークン選択戦略の上位 K 比率はすべてのピラミッド ステージで 0.2 に設定されます。

著者らはまた、2 つの主流 BEV モデル、BEVDet [14] と BEVFormer [18] を 3D 占有予測タスクに拡張しています。著者らは、元の検出デコーダを CTF-Occ ネットワークで採用されている占有デコーダに置き換え、BEV 機能エンコーダをそのまま使用しました。オリジナルの設定に従って、著者らは FCOS3D [36] チェックポイントから初期化された ResNet101 DCN をイメージ バックボーンとして使用します。

実装の詳細:著者は、AdamW オプティマイザ [23] と学習率を 2e-4 に設定したコサイン学習率スケジューラを使用します。特に指定のない限り、すべてのモデルは比較のために 24 エポック、アブレーション研究のために 8 エポックでトレーニングされました。

6.2. 以前の方法との比較

Occ3D nuScenes:以下の表 2 は、Occ3D nuScenes データセットの関連手法と比較した 3D 占有予測のパフォーマンスを示しています。IoU メトリクスの下では、すべてのクラスで、私たちのメソッドが以前のベースライン メソッドよりも優れたパフォーマンスを示していることがわかります。これらの観察結果は、Occ3D Waymo データセットの観察結果と一致しています。

90e3201b58ba5fd9230805c85fbb1aeb.png

Occ3D Waymo:著者らは、CTF-Occ ネットワークのパフォーマンスを、新しく提案された Occ3D Waymo データセットの最先端モデルと比較しています。結果を以下の表4に示す。私たちの方法には以前の方法に比べて大きな利点があり、mIoU が 3.11 増加します。特に歩行者や自転車などの一部の小さな物体では、この方法はベースライン方法よりもそれぞれ 4.11 および 13.0 IoU 優れています。これは、作成者が高さを圧縮せずに 3D ボクセル空間でフィーチャをキャプチャし、オブジェクトの詳細なジオメトリが保存されるためです。この結果は、粗密ボクセル エンコーダーの有効性を示しています。

62373e4dfeba916e499a80ffabfafbe0.png

アブレーション研究

このセクションでは、著者は増分トークンの選択と OHEM 損失の選択を除去します。結果を以下の表3に示す。CCはトラフィックコーン、PEDは歩行者を表します。著者は、CC と PED に焦点を当て、小さな目標を達成していることを検証します。どちらのテクニックもパフォーマンスを向上させます。OHEM 損失とトップ K トークンの選択を使用すると、最高のパフォーマンスが得られます。OHEM 損失がなければ、著者は 10.06 mIoU しか得られません。OHEM 損失とランダム トークン選択戦略を組み合わせると、14.75 mIoU が達成されます。OHEM 損失を使用した不確実なトークン選択戦略は 17.37mIoU を達成します。トークンの選択では、非決定的な選択は上位 k の選択に匹敵し、ランダムな選択よりも大幅に優れています。

6f21ea3ae8ac9b6062a72810646b9bef.png

定性的な結果

著者らは、図 5 で CTF-Occ ネットワーク出力を、Occ3D Waymo データセット上の最先端のメソッド BEVFormer Occ と比較しています。著者らは、CTF-Occ ネットワークが BEVFormer-Occ の結果よりも詳細なボクセル ジオメトリを出力することを確認できます。さらに、著者のボクセル デコーダは、グラウンド トゥルース データの解像度に関係なく、任意の解像度で出力を生成できます。

f53bde85d322df8776b72993b7c35b73.png

結論は

著者らは、視覚認識のための大規模な 3D 占有予測ベンチマークである Occ3D を紹介します。ベンチマークには、データ生成プロトコル、2 つのデータセット、およびタスク用のモデル CTF-Occ ネットワークが含まれています。将来の研究を促進するために、それらはすべてオープンソース化されます。研究によると、意味論的占有によってオブジェクトがより表現豊かで豊かに表現されることがわかっています。さらに、既知の物体と未知の物体の統一的な表現を提供します。これは、屋外での自動運転の認識にとって重要です。このベンチマークは、直接使用する以外に、将来の研究にいくつかの道を開きます。たとえば、インスタンス ID をセマンティック ボクセルに追加すると、本質的にタスクがパノプティック セグメンテーションに変更され、より豊富な情報が提供されます。

参考

[1] Occ3D: 自動運転のための大規模 3D 占有率予測ベンチマーク

オープンソースのアドレス: https://tsinghua-mars-lab.github.io/Occ3D/

ビデオレッスンはこちらから!

自動運転の心臓部は、ミリ波レーダービジョンフュージョン、高精度地図、BEV知覚、センサーキャリブレーション、センサー展開、自動運転協調知覚、セマンティックセグメンテーション、自動運転シミュレーション、L4知覚、意思決定計画、軌道予測などを統合します。 . 方向学習ビデオ、ご自身で受講してください (コードをスキャンして学習を入力してください)

bd681ecb27b8113265d5a267e072407f.png

(コードをスキャンして最新のビデオをご覧ください)

中国初の自動運転学習コミュニティ

1,000 人近くのコミュニケーション コミュニティと 20 以上の自動運転技術スタックの学習ルートが、自動運転の認識 (分類、検出、セグメンテーション、キー ポイント、車線境界線、3D 物体検出、占有、マルチセンサー フュージョン、物体追跡、オプティカル フロー推定、軌道予測)、自動運転位置決めとマッピング(SLAM、高精度マップ)、自動運転計画と制御、フィールド技術ソリューション、AI モデル展開の実装、業界トレンド、求人リリース、スキャンへようこそ以下の QR コード、自動運転の中心となるナレッジ プラネットに参加してください。ここは本物の乾物がある場所です。この分野の大手の人々と、仕事の開始、勉強、仕事、転職に関するさまざまな問題を交換し、論文 + コードを共有します。毎日+ビデオ、交換を楽しみにしています!

5d585ef2cdb8c6d9891195b65d6f2aac.jpeg

自動運転の心臓部】フルスタック技術交流グループ

The Heart of Autonomous Driving は、物体検出、セマンティック セグメンテーション、パノラマ セグメンテーション、インスタンス セグメンテーション、キー ポイント検出、車線境界線、物体追跡、3D 物体検出、BEV 認識、マルチセンサー フュージョン、 SLAM、光流推定、深さ推定、軌道予測、高精度地図、NeRF、計画制御、モデル展開、自動運転シミュレーションテスト、プロダクトマネージャー、ハードウェア構成、AI求人検索とコミュニケーションなど。

b7c3e518960add49fe209720d0ca871b.jpeg

Autobot Assistant Wechat への招待を追加してグループに参加します

備考:学校/会社+方向+ニックネーム

おすすめ

転載: blog.csdn.net/CV_Autobot/article/details/131346175