論文通訳 - NVRadarNet: 自動運転のためのリアルタイムのレーダー障害物と自由空間検出

まとめ

       障害物の検出は、安全かつ効率的な自動運転の鍵です。この目的を達成するために、自動車レーダー センサーを使用して動的障害物や空きスペースを検出するディープ ニューラル ネットワーク (DNN) である NVRadarNet を提案します。このネットワークは、複数のレーダー センサーからの時間蓄積データを活用して動的障害物を検出し、トップダウンの鳥瞰図 (BEV) でその方向を計算します。また、ネットワークは、未分類の障害物を検出するために、走行可能な空きスペースを退行させます。当社の DNN は、まばらなレーダー信号を利用するこの種の最初の製品であり、レーダー データのみからリアルタイムで障害物と自由空間の検出を実行します。このネットワークは、実際の自動運転シナリオにおける自動運転車両の認識にうまく適用されています。ネットワークは組み込み GPU 上でリアルタイムよりも高速に実行され、地理的領域全体で優れた汎用性を示します。

1 はじめに

       動的障害物と静止障害物 (自動車、トラック、歩行者、自転車、危険物など) を検出する機能は、自動運転車にとって重要です。これは、オクルージョンが多く、さまざまな形の複雑なシーンがある半都市および都市環境では特に重要です。

       これまでの認識方法は、障害物を検出するためにカメラ [1][2][3] または LiDAR [4][5][6][7] を利用することに大きく依存していました。これらの方法にはいくつかの欠点があります。つまり、重度の閉塞では信頼性が低く、センサーは非常に高価になる可能性があり、悪天候条件 [8] や夜間では信頼性が低くなります。従来のレーダーベースの障害物検出方法は、反射特性が良好な移動物体を検出する場合にはうまく機能しますが、物体のサイズと方向を推定するのが困難なことが多く、静止物体やレーダー反射率が低い物体を検出する場合には完全に失敗することがよくあります。

       この論文では、移動障害物と静止障害物を検出し、その方向とサイズを計算し、レーダー データから走行可能な自由空間を検出できるディープ ニューラル ネットワーク (DNN) を提案します。市販の自動車レーダーを使用しながら、高速道路や都市部のシーンでトップダウンの鳥瞰図 (BEV) を採用しています。自動車レーダー ファームウェアはこのデータのみを提供するため、私たちのアプローチはレーダー ピーク検出のみに依存しています [9][10]。対照的に、他の方法 [11][12] では、生のレーダー データ キューブ断面に対する高価な高速フーリエ変換操作が必要ですが、これはほとんどの市販の自動車センサーでは利用できません。

       当社のディープラーニング手法は、静止した障害物 (車など) と静止した背景ノイズを正確に区別できます。これは、雑然とした都市環境を移動する場合に重要です。さらに、私たちの方法では、古典的な方法では提供できない、これらの障害物の寸法と方向を回帰することができます。当社の DNN は、歩行者のような反射率の低い障害物も検出できます。最後に、私たちの方法は、未分類の障害物にラベルを付け、運転可能な空きスペースを回帰するための占有確率マップを提供します。

       NVIDIA DRIVE AGX 組み込み GPU を実行している車両で NVRadarNet DNN をテストしました。当社の DNN は、エンドツーエンドで 1.5 ミリ秒とリアルタイムよりも高速に実行され、プランナーが安全に反応するのに十分な時間を与えます。

       私たちの貢献は次のとおりです。

       • NVRadarNet: 自動車レーダーからのピーク検出のみを使用し、トップダウンの鳥瞰図 (BEV) で後処理なしで移動物体と静止物体をエンドツーエンドで検出できる初のマルチレベル ディープ ニューラル ネットワーク。

       • レーダーピーク検出のみを使用した、新しい半教師あり運転自由空間検出方法。

       • 組み込み GPU 上でリアルタイムのエンドツーエンドより 1.5 ミリ秒高速に実行する DNN アーキテクチャ。

2. 前作

       障害物検出高速かつ効率的な障害物認識は、自動運転車の中核コンポーネントです。車載レーダー センサーは、豊富な 3D 位置および速度情報を取得するためのコスト効率の高い方法を提供し、ほとんどの最新の車両で広く使用されています。最近のいくつかの論文では、障害物検出を実行するための高密度レーダー データセットの使用について調査しています [11][12]。ただし、これらの方法では、そのような豊富なデータを取得するには、高い入出力帯域幅が必要です。このため、真の自動運転車には不向きになります。したがって、自動車レーダーアプリケーションでは、古典的なアプローチのほとんどは、分類と占有グリッド検出を実行するためにデータキューブからの後処理ピーク検出を利用します[13][14][15]。他の研究者は、レーダーのピーク検出をまばらな 3D 点群として見ることができるため、LiDAR DNN と同様のアプローチで 3D LiDAR ポイントとのセンサー フュージョンに使用できることを認識しました [4][16][17][5][18]。[19] など、レーダーを融合することでカメラの 3D 障害物検出を強化する試みがあります。

       空き領域の検出[20] および [21] は、レーダーベースの走行可能な自由空間の推定を試みました。

       当社の DNN は、動的および静的な障害物のマルチクラス検出を実行し、レーダー ピーク検出のみを使用して走行可能な自由空間をセグメント化します。当社の DNN アーキテクチャは軽量で、組み込み GPU (NVIDIA DRIVE AGX) 上でリアルタイムより 1.5 ミリ秒高速にエンドツーエンドで実行されます。実際の運転において堅牢であることが証明されており、自動運転スタックの一部として 10,000 キロメートルを超える高速道路や都市部の道路でテストされています。これまでのところ、これらすべてのタスクを実行し、自動運転車で効率的に動作できる、DNN のみのレーダー ピーク検出を私たちは知りません。

3. 方法

A : 入力生成

       私たちのネットワークへの入力は、自車両の周囲に蓄積されたレーダー検出ピークのトップダウン BEV 正射投影であり、このトップダウン鳥瞰図 (BEV) の中央に右を向いて配置されています。

       この入力を計算するには、まず車両上のすべてのレーダー センサー (360 度の視野をカバーする 8 つのレーダー) からのレーダー ピーク検出を蓄積し、次にそれらをエゴ車両リグ座標系に変換します。信号の密度を高めるために、これらのピーク検出時間も 0.5 秒を超えて累積しました。[16] と同様に、各データ ポイントにはその年齢を示す相対タイムスタンプがあります。次に、最新の既知の車両位置までの累積検出に対してエゴモーション補償を実行します。車両の既知のエゴモーションを使用して古いポイントを伝播し、DNN 推論時 (現在時刻) の位置を推定します。

       次に、蓄積された各検出を必要な空間量子化を使用してトップダウンの BEV グリッドに投影し、DNN の入力テンソルを作成します。入力解像度を 800 × 800 ピクセル、各方向の範囲が ±100 メートルに設定すると、解像度は 1 ピクセルあたり 25 cm になります。有効な各 BEV ピクセル (データ付き) は、そのピクセルに到達したレーダー検出の生の信号特徴を平均することによって計算された、深度チャネル内の一連の特徴を取得します。時間 t の最終入力はテンソル It ∈ R(h×w×5) です。ここで、h = 800 および w = 800 はトップダウン ビューの高さと幅です。深度チャネルの 5 つのレーダー機能は、ドップラー、仰角、レーダー断面積 (RCS)、方位角、および相対検出タイムスタンプの平均です。トレーニングの安定性のためにハードウェア仕様によって提供される最大値と最小値を使用して、これらの値を [0,1] の範囲に正規化します。結果として得られるテンソルは、ネットワークへの入力として使用されます。

B: ラベル転写

       レーダー DNN をトレーニングするためのグラウンド トゥルースとして、LIDAR ベースの人による注釈付き境界ボックス ラベルを使用します。これらのラベルは、レーダー DNN をトレーニングしたのと同じシーンの LIDAR データに対して作成されました。レーダー信号がいかにまばらであるかを考えると、BEV のトップダウンビューであっても、人間がレーダーポイントのみを使用して車両を区別することはほぼ不可能です。したがって、トレーニング データのラベル付けには LiDAR を利用します。LIDAR とレーダーのデータをさまざまな周波数で取得し、最も近い周波数を選択して処理します。次に、LIDAR シーンのトップダウン BEV 投影を作成し、人間が境界ボックス ラベルでオブジェクトに注釈を付け、ポリラインで空きスペースに注釈を付けます。ラベル付きの各 LiDAR BEV フレームについて、上記の前処理方法を介して最も近いレーダー BEV 累積画像を計算し、ラベルを RADAR のトップダウン ビューに転送します。レーダー検出が 4 件未満の車両ラベルを削除することで、グラウンド トゥルースをさらにクリーンアップします。これにより、ネットワークの精度が向上することが経験的に示されています。最後に、信号よりも多くのノイズが導入されると経験的に判断したため、RCS が -40 dBm を下回る検出をすべて削除します。図 1 に示すように。

図 1 LiDAR ドメインから RADAR ドメインに車の境界ボックスのラベルを渡す

C: 空き領域ラベルの生成

       自由空間ターゲットは、生の LiDAR 点群を使用して生成されます。まず、点群が前処理され、隣接する LIDAR スキャン ラインから表面の傾斜角を推定することで、走行可能な表面自体に属する点が特定および削除されます。次に、この推定をさらにクリーンにするために、手動で取得した LIDAR 自由空間ラベルをオーバーレイします。次に、自我車両の原点からさまざまな角度まで一連の光線を追跡すると、どの領域が次のものであるかを推定できます。

       • 監視され、自由に行動してください。

       • 監視して占有します。

       •私は気づかなかった。

       • 部分的な観察。

       最後に、既存の 3D 障害物ラベルを、自動生成された占有空間にオーバーレイします。障害物を観測済みおよび占有済みとして明示的にマークします。図 2 を参照してください。

 図 2 自由空間ターゲットの視覚的表現: 観測されたオブジェクトと自由なオブジェクトは黒、観測されたオブジェクトと占有されたオブジェクトは白、観測されていないオブジェクトは明るい灰色、部分的に観測されたオブジェクトは濃い灰色

 図 3. 暗低から高 (最高) までの確率の勾配を赤から黄色で示した、推定された密集占有確率マップ。

D: データセット

       私たちのモデルは、複数の地理的地域にわたる数百時間の走行サンプルから抽出された 300,000 を超えるトレーニング フレームと 70,000 を超える検証フレームで構成される多様な社内データセットでトレーニングされています。データセットには都市データと高速道路データの組み合わせが含まれており、LIDAR、レーダー、IMU の同時測定値が含まれています。ラベルには人間による注釈が付けられ、車両、自転車、歩行者、運転可能な空きスペースが含まれます。

E: ネットワーク構造

       私たちは、Feature Pyramid Network [22] に似た DNN アーキテクチャを使用します。当社の DNN には、エンコーダーとデコーダーのコンポーネント、およびさまざまな出力/再生オプションを予測するためのいくつかのヘッドが含まれています。高レベルの構造については図 4 を、詳細については表 1 を参照してください。

       私たちのエンコーダーは、64 フィルター、ストライド 2、および 7 × 7 カーネルを備えた 2D 畳み込み層から始まります。これに、それぞれ 4 つのレイヤーを持つ 4 つのブロックが続き、それぞれフィルターの数を 2 つ増やしながら、解像度を半分に分割します。ブロック内の各層は、バッチ正規化と ReLU アクティベーションを備えた 2D 畳み込みで構成されます。

       デコーダは、各ヘッドのストライド 4 および 4 × 4 カーネルの 2D 転置コンボリューションで構成されます。また、スキップ接続を間に挟んだ 2 つの転置 2D 畳み込みを使用することも実験しました。結果として得られる出力テンソルは、入力の空間解像度の 1/4 です。

       ネットワークでは次のヘッダーを使用します。

       • クラス分割ヘッダーは、クラスごとに 1 つのチャネルのマ​​ルチチャネル テンソルを予測します。各値には、特定のピクセルがそのチャネルに対応するクラスに属していることを示す信頼度スコアが含まれています。

       • インスタンス回帰ヘッドは、各予測ピクセルの nr (nr = 6) チャネルからの情報を使用して、オブジェクト指向のバウンディング ボックスを予測します。nr 要素ベクトルには、[δx, δy, w0, l0, sin θ, cos θ] が含まれます。ここで、(δx, δy) は対応するオブジェクトの重心を指し、w0 × l0 はオブジェクトの寸法、θ はトップダウンのBEVの方向性。

       • インバース センサー モデル ヘッド (ISM) は、各グリッド セルの占有確率マップを計算します [20]。

       図 4 ネットワーク アーキテクチャ。私たちのネットワークは、スキップ接続によるエンコーダおよびデコーダとして CNN を使用しています。ネットワークには、分類ヘッド (検出確率の生成)、形状回帰ヘッド (境界ボックス パラメーターの生成)、および自由空間セグメンテーション ヘッドの 3 つのヘッドがあります。

表 1 NVRadarNet のネットワーク構造

 F:損失関数       

       私たちの損失には、少数派クラスをより重み付けした分類ヘッドの標準クロスエントロピー損失、境界ボックス回帰の L1 損失、および自由空間検出の逆センサー モデル損失が含まれます [20]。

       [23] で説明されているアプローチに従い、各タスクの重みを等分散的なタスク依存の不確実性としてモデル化することにより、重みのベイズ学習を使用してこれらの損失を結合します。このアプローチにより、モデル全体の精度を損なうことなく、これら 3 つの異なるタスクを効率的に共同トレーニングすることができます。

       全体的な損失関数は次のように定義されます。

                                                   (1)

       ここで、K はタスク/ヘッドの数、Li はタスク i の損失、δi は各タスクの学習された対数分散パラメーター、uw は wi の重みの平均値です。

 G: エンドツーエンドの障害物検出

       高価な非最大抑制 (NMS) や後処理 (DBSCAN など) によるクラスタリングを回避するために、OneNet [24] にヒントを得て、障害ごとに個々のピクセルを分類するエンドツーエンドのアプローチを採用します。

       まず、回帰ヘッドの L1 損失と分類ヘッドのピクセルレベルの分類損失を計算します。次に、各ターゲット障害物について、(ClassWeight * ClassLossPerPixel) + RegressionLossPerPixel の間で合計損失が最小となる前景ピクセルを選択します。このピクセルは最終的な損失計算のために選択されますが、残りの前景ピクセルは無視されます。背景ピクセルからの損失は、ハード ネガティブ マイニングを使用して選択的に利用されます。最後に、クロスエントロピー損失の総量を上記のプロセスで選択した正のピクセルの数で割ることにより、バッチ正規化を実行します。選択した正のピクセルの回帰損失のみを計算します。

       推論時には、各クラスの分類ヘッドで特定のしきい値を超えるすべての候補ピクセルを選択するだけです。バリア次元は、対応する各しきい値候補の回帰ヘッドから直接選択されます。

       この手法を使用することで、ネットワークは高価な後処理を行わずに最終的な障害物を直接出力できます。

H: ISM ヘッダー出力を半径方向距離マップに変換します

       自動運転車アプリケーションは通常、走行可能な自由空間領域をその境界輪郭によって表します。このセクションでは、必要に応じて境界等高線を放射距離マップ (RDM) に変換する方法について説明します。自動運転車のトップダウン BEV ビューでは、RDM は自動運転車上の基準点と運転可能な自由空間の境界の間の距離 df に対する一連の角度方向 φf を指定します。RDM を計算するには、まず高密度占有確率マップ (DNN 出力) を参照点を中心とする極座標系にリサンプリングします。最近傍補間モードを使用することにより、リサンプリング プロセスをインデックス操作として表現できます。これにより、極性で表される各ピクセルの値 (φf,df) が、予測密占有確率マップの 1 つのピクセルの値として割り当てられます。このマッピングは占有マップのサイズと参照点の位置にのみ依存するため、必要なすべてのインデックスをオフラインで計算し、ルックアップ テーブルに保存できます。図 5 は占有確率マップです。図 3 は、極座標でのリサンプリングを示しています。リサンプリング後、各角度方向 φf の距離 df は、占有確率があるしきい値 pocc に達する各角度軸に沿った最初のピクセルを見つけることによって決定されます。図 6 は、図 3 に示す密集占有確率マップからプログラムによって導出された、運転可能な自由空間境界の RDM 表現を示しています。 

図 5 で予測された高密度占有マップは、参照点を中心とする極座標系にリサンプリングされます確率は赤(低)から黄色(高)で示されます。

図 6. 予測された密集占有確率マップから抽出された、走行可能な自由空間境界の半径方向距離マップ表現。

4. 実験

A. 内部データセットの実験

       現在、レーダーベースの障害物や自由空間の検出に特化したデータセット、ベンチマーク、公開されている DNN が限られているため、評価が困難になっています。利用可能なメソッドとそのプロパティのリストについては、表 2 を参照してください。最も近い研究 [17][5][19][18] はセンサー フュージョンを使用しており、レーダー結果のみを公開していません。したがって、私たちの知る限りでは、レーダーのピークのみを使用して障害物の検出、分類、および自由空間回帰のベースラインを設定しています。レーダー信号がまばらであるため、歩行者や自転車の検出は大きな課題です。

       NVIDIA の RADAR データセットと nuScenes パブリック データセットで DNN を評価します。また、DNN を他の公開作品と可能な限り比較し、すべての結果をこのセクションにリストします。

       社内の NVIDIA Radar データセットについては、セクション III-D で説明したテスト データを評価に使用します。レーダー ピーク検出が少なすぎるグラウンド トゥルース境界ボックスがフィルターで除外された場合でも (セクション III-B で説明されているように)、依然としてノイズの多いグラウンド トゥルース ラベルが得られることに注意してください。たとえば、多くの場合、車両は他の車両によって遮られているため、人間のラベラーは LIDAR データだけから適切なグラウンド トゥルースを作成することはできません。この場合、RADAR は依然として有効な結果をもたらしますが、一部の障害物は DNN によって正しく分類されていますが、グラウンド トゥルースの欠陥により評価時に誤検出としてフラグが立てられます。これにより精度が低下します。さらに、LIDAR センサーはレーダー センサー (バンパー) よりも車両 (ルーフ) の高い位置に取り付けられているため、一部の障害物が LIDAR で認識される可能性があり、レーダーの視界が制限されるため、レーダー データとタグにノイズが発生します。これは偽陰性を引き起こし、記憶力を低下させる可能性があります。

       物体検出タスクの結果を表 III、IV に示します。空き領域検出タスクのメトリクス (表 V) は、空き領域領域と空き領域 RDM に対して個別に計算されます。空き領域領域は、占有確率 po < 0.4 によって定義されます。

B. NuScenes データセットのパフォーマンス

       さらに、公開されている nuScenes データセット [25] でメソッドを評価します。このデータセットには、1 つの LIDAR と 5 つのレーダーからのセンサー データが含まれています。ただし、このデータセット内のセンサーは古い世代のものであるため、直接比較することは困難です。nuScenes データ収集に使用される LIDAR センサーには 32 個のビームしか含まれていませんが、社内データセットには 128 個のビームがあります。このデータセットのスパース性が増すと、自動的に生成される空き領域ターゲットの品質が低下します。同様に、nuScenes データセットで使用されているコンチネンタル ARS 408-21 レーダーは、社内データセットで使用されている新世代のコンチネンタル ARS430 レーダー センサーよりも検出数が大幅に少なくなりました。それにもかかわらず、特に近距離で立派な結果を示しました。詳細については、表 6、表 7、および表 8 を参照してください。

       さらに、NVRadarNet DNN の空き領域検出精度を、[21] で公開されている方法と比較します。この方法では、nuScenes データセットでも結果が得られます。ただし、この方法は、各側 10 m で最大 86 m までの自車両の前方エリアをカバーするグリッド上で動作し、私たちの方法とは異なり、フォールバックしたりバリアを分類したりしません。この比較では、予測される占有確率を次の 3 つのクラス (占有、空き、未観測) に変換しながら、同じ画像領域で評価します。

       • 占有率: pocc > 0.65

       • フリー: pocc < 0.35

       • 観察されなかった: 0.35 <= pocc <= 0.65

       結果を表9に示す。当社の DNN は、占有スペース回帰において他の手法よりも優れたパフォーマンスを発揮し (最良の結果は太字で表示)、他のタスクでも同様にパフォーマンスを発揮します。

C. NVRadarNet ディープ ニューラル ネットワーク推論

       当社の NVRadarNet DNN は、精度を失うことなく混合精度モードで INT8 量子化を使用してトレーニングできます。NVIDIA TensorRT を使用してネットワークをエクスポートし、自動運転車で使用される NVIDIA DRIVE AGX の組み込み GPU で時間を計測します。私たちの DNN は、3 つのヘッドすべてに対して 1.5 ミリ秒のエンドツーエンド推論を達成できます。すべてのサラウンド レーダーを処理し、リアルタイムの組み込み GPU よりもはるかに高速に障害物の検出と自由空間のセグメンテーションを実行します。直接比較できる他の RADAR ディープ ニューラル ネットワークの推論時間を文献で見つけることは困難です。[11] だけが 1 桁遅いことがわかりました。

表 2 関連するレーダー検出方法。私たちの方法 (太字) はレーダー データのみを使用し、物体と自由空間の検出をサポートし、結果を公開します。

 表 3 内部 NVIDIA データセットにおける DNN の障害物検出精度 (カテゴリと範囲別に分類)。

 表 4. NVIDIA 内部データセットにおける DNN の障害物検出精度 (カテゴリ別に分類)。

表 5. 内部 NVIDIA データセットにおける DNN の自由空間回帰精度。

表 6 カテゴリと範囲別に分類された、nuScenes データセット上の DNN の障害物検出精度。

表 7. nuScenes データセット上の DNN の障害物検出精度 (カテゴリ別に分類)。

 表 8 nuScenes データセット上の DNN の空き領域回帰精度。

表 9 nuScenes データセット上の occancynet [21] との比較。太字のテキストが最適です。

 5。結論

       この研究では、一般的な自動車レーダーから提供される生のレーダー データから障害物や走行可能な自由空間を検出するためのリアルタイム ディープ ニューラル ネットワークである NVRadarNet ディープ ニューラル ネットワークを提案します。内部 NVIDIA データセットとパブリック nuScenes データセットで DNN のベンチマークを行い、精度の結果を示します。当社の DNN は、NVIDIA DRIVE AGX の組み込み GPU 上で 1.5 ミリ秒のエンドツーエンド推論時間により、リアルタイムよりも高速に実行されます。これまでのところ、車に組み込まれたコンピューター上でリアルタイムよりも高速に実行しながら、障害物検出と自由空間回帰の両方を実行できるレーダー ネットワークは他に見つかりません。

ありがとう

       技術的な貢献をしていただいた Sriya Sarathy、Tilman Wekel、Stan Birchfield に感謝いたします。また、David Nister 氏、Sangmin Oh 氏、Minwoo Park 氏のご支援に感謝いたします。

元のリンク

[2209.14499] NVRadarNet: 自動運転のためのリアルタイムのレーダー障害物と自由空間検出 (arxiv.org)

おすすめ

転載: blog.csdn.net/weixin_41691854/article/details/127493277