自動運転および運転支援システム用のカメラとミリ波レーダーによる認識: コンセプト、データセット、メトリクス

文章:自動運転車とADASのカメラとレーダーの認識:概念、データセット、メトリクス

著者:フェリペ・マンフィオ・バルボーサ、フェルナンド・サントス・オソリオ

編集: 点群 PCL

出典: arXiv 2023

ナレッジ プラネットへの参加、PDF 論文の入手、友人の輪への転送を歓迎します。記事は学術的な共有のみを目的としています。侵害がある場合は、連絡して記事を削除してください。ブロガーの許可なく転載しないでください。

点群処理、SLAM、3Dビジョン、高精度地図などの分野で乾物を共有するための公式アカウントですので、ぜひご参加ください、興味のある方は[email protected]までご連絡ください。著者の許可なく転載することはご遠慮ください。学生の皆様は積極的にシェアやコミュニケーションを行ってください。

まとめ

交通事故を減らすための重要な方法の 1 つは、運転支援システムや完全自動運転システムによって車両の安全性を向上させることであり、これらのシステムでは、特にディープラーニングに基づく障害物検出やセグメンテーションなどのタスクが現場で重要です。正確かつ安全なナビゲーションを確保するために重要な役割を果たします。さらに、今日の車両で広く使用されているセンサーは、照明や悪天候下での認識の堅牢性など、困難な状況におけるナビゲーションを向上させるための豊富な代替手段を提供します。したがって、このホワイトペーパーは、ディープラーニングベースの検出およびセグメンテーションタスクの概要を提供することに加えて、ADASおよび自動運転車のカメラとミリ波レーダーの認識の現状に関する研究を実施し、両方のセンサーとその融合に関連する概念と機能を提示することを目的としています。 、車両認識における主要なデータセット、指標、課題などに関する未解決の問題も含まれます。

主な貢献

この調査では、自動運転車およびADASにおけるカメラおよびレーダーベースの認識の使用に関する主要な概念、データセット、および指標が調査されます。

まず、ADAS と自動運転車の概念的な概要を説明し、次に車両の認識に使用される各センシング モダリティの長所と短所を分析し、その限界に対する解決策としてのセンサー フュージョン アプローチについて説明します。その後、深層学習ベースの物体検出と画像セグメンテーションの主な概念と最も注目すべき成果のいくつかを紹介します。次に、使用される主なデータセットと指標を要約し、最後に主な課題について説明し、この分野の将来の方向性を検討します。この研究の主な貢献は次のとおりです。

 • カメラとレーダーの特性が包括的に説明され、それらの主な利点と欠点が自動運転車と ADAS の文脈で議論されます。さらに、各知覚モダリティが単独で存在する場合に生じる制限を克服する方法として、センサー フュージョン手法を提案します。

 • 自動運転のための深層学習ベースの物体検出と画像セグメンテーションの主な概念の包括的な概要。 

 • 車両知覚に最も関連性の高い最新のオープンソース データセットの包括的な概要。知覚モード、データの多様性、サイズ、および意図された知覚タスクの観点からその主な特徴を示します。

 • データセットごとにグループ化された検出およびセグメンテーションのパフォーマンスを評価するための主要な指標の概要。

 • 自動運転車とADASの認識における主要な課題と将来の方向性について、特にこの文脈におけるミリ波レーダー認識の役割に焦点を当てて議論します。

表 I は、前述の調査と私たちの研究の主な貢献との比較をまとめたものです。他の著作とは異なり、この論文は知覚に使用される方法を正確に説明することに焦点を当てておらず、ベースライン モデルを簡単に紹介することを選択し、興味のある読者がさらに参照できるように最新のモデルを引用し、物体検出と画像セグメンテーションで使用されるメトリクスを要約し、次のことを要約しています。 Set グループ化によるデータ。

0e042d4756ea331a8c813d9c9fe9274e.png

メインコンテンツ

完全な自動運転を実現するには、図 1 に示すように、車両は自動車技術者協会 (SAE) によって定義された 6 つのレベルの運転支援技術を経る必要があります。

522c8cca590b49a7c93ecf304f2566dd.png

センサー

3a3c7e7fb65978526658696e589583ca.png

図 2: 自動運転車で一般的に使用されるセンサーの例

自動運転システムは周囲の状況を強力に認識する必要があり、各センサーには固有の特性があります (図 2 を参照)。次に、単一モードの知覚を改善する方法としてデータ融合技術を紹介することに加えて、カメラとミリ波レーダーの主な動作特性、利点、制限について説明します。図 3 は、動作特性のさまざまな特性を考慮したカメラ、レーダー、および LIDAR センサーの比較を示しています. LIDAR の知覚については多くの研究が行われていますが、コストが非常に高いため、カメラとミリ波レーダーの知覚に焦点を当てていることに言及する価値があります。興味深いことに、一部の著者は、車両の認識においてミリ波レーダー データが LIDAR データに置き換わると考えています。実際、図 3 に示すように、カメラとミリ波レーダーを組み合わせると、考慮されたすべての特性が満たされるため、 LIDAR センシングの実行可能な代替手段です。

d9108611b1faa3bf8b356367dcb02087.png

図 3: カメラ、ミリ波レーダー、ライダーセンサーの特性の比較

カメラ:カメラは、環境からの光情報を受け取ることによって動作する受動的センサーです。この特性により、カメラは環境から色、形状、質感の情報を取得するのに適したセンサーになります。その一方で、カメラが図 7 に示すように、日の出や夜間の太陽光の反射や低照度条件は、カメラの認識に悪影響を与える可能性があります。さらに、カメラはほこり、雨、雪、霧によって隠れる場合があります。

35eaafacb400b5f73bb9edf854f8a4fe.png

図 7: 悪条件下での動作の例

単眼視: 単眼視は、コンピュータ ビジョンにおける最も一般的な知覚モダリティですが、単眼視法の主な制限は、データに奥行きの概念がないことであり、特に都市環境では、さまざまな形式があるため、知覚を危険にさらす可能性があります。オブジェクトの奥行きを考慮しない視覚情報は、2D 図形をエンティティとして誤って分類する可能性があります - 図 4。

52c4671efc69c07648201542f2c18e59.png

図 4: 2D 認識におけるエラーの例

2. 両眼視: 図 5 に示すような双眼カメラは、単眼視における奥行き情報の欠如を補い、環境の 3 次元認識を提供します。

842516d27fba660358e1c044b1af093f.png

 図 5: StereoLabs のステレオ カメラ ZED2

このタイプのセンサーは、一定量オフセットされた単眼カメラ画像をキャプチャすることによって動作し、この画像のペアとカメラ固有のパラメーターから視差マップが生成され、シーン深度マップに変換されます (図 6)。

95935f7f647388328dd84e85a7a49275.png

図 6: シーンとその深度マップ

その主な利点は、輪郭情報と奥行き情報の両方を含む画像の生成にあり、これによりさまざまな目的で広く使用されていますが、重大な制限もあります。最初の制限は、20 ~ 30 メートルの低距離に関するものです。これは、自動運転車のアプリケーションでは特に不利です。車両がさらなるリスクを回避するために時間内に行動できるように、より広い範囲が必要となるためです。2 番目の制限は、データ内の色またはテクスチャの手がかりの欠如に関連しており、最後の制限は、悪条件下 劣化中。

ミリ波レーダー:センサーは、音波の反射と同様の原理に従って、電磁パルスを送信および受信することによって動作します。まず、送信機が高出力の高周波パルスを生成し、アンテナを介して媒体 (通常は空気) に送信されます。パルスが物体に到達すると、物体への RF エネルギーの送信によりこれらのパルスがエコー (またはエコー) を生成し、少量の反射エネルギーがアンテナを通ってレーダーに戻り、受信機に向けられます。最後に信号処理センサーにエネルギーを送り、識別された物体の方向、距離、さらには速度を決定します。その主な利点は、航続距離が長いことと、天候や照明条件に対する堅牢性、距離や暗闇によって肉眼では見えない障害物の位置を、他のセンサー (カメラなど) と比較しても特定できる機能であることです。または天気 目に見えない。近年、ミリ波レーダデータを用いたディープラーニングによる物体検出が注目を集めており、[99]では、距離角レーダ画像における物体検出において、時間的および多スケールの空間的特徴を抽出することにより、DANetと呼ばれるネットワークを提案している。[101] は、道路障害物検出のための超広帯域レーダー信号処理にリカレント ニューラル ネットワークを適用しました。[103] は、Fast R-CNN などの任意の物体検出ネットワークに統合できるレーダーベースのリアルタイム領域提案方法を導入しました。[104] は、レーダー画像処理における物体検出への Faster R-CNN [64] と SSD [69] の適用を研究しました。[105] は、距離方位角ドップラー テンソルの処理に基づいた車両検出アーキテクチャを提案しました。しかし、レーダーベースのセグメンテーションに関する文献はまだ少なく、[100] の研究では、レーダー点群のセマンティック セグメンテーションのために PointNet++ [83] に基づく RadarPCNN モデルを提案しています。[102] は、メモリ フットプリントの低さとリアルタイム処理に重点を置いて、ロボット ナビゲーションにおけるオープン スペースのセグメンテーションの問題を取り上げました。このセンサーの主な制限は、検出された物体の形状を決定できないことです。図 9 は、検出された物体を表すレーダー読み取り値の例を示しています。

30b4f65ca3287d0faa791976564722c7.png

図 9: レーダー検出結果はドットで表されます

センサーフュージョン 

カメラとミリ波レーダー センサーの制限を軽減し、その制限から恩恵を受けるために、2 つの知覚モダリティを統合して環境のより豊かな表現を生成し、最終的により堅牢な知覚に貢献することを目的としたハイブリッド データ融合手法が提案されています。[12] では、自動運転車に関連する将来の開発の中心的な柱の 1 つとしてデータ融合が提案されており、著者らはまた、単一の知覚モダリティに対するカメラとミリ波レーダーの融合の利点についても議論しています (図 8)。

cb331b9a391c05b5dfad02ffa53051d5.png

図 8: 単一の知覚ベースのモダリティに対するセンサー フュージョンの利点

早期融合:さまざまな知覚モダリティからの入力データを融合するデータレベル融合、またはネットワークの最初の層の機能を融合することもできます。初期融合の主な利点は、生データの完全な探索と低い計算コストです。なぜなら、ネットワークは融合された知覚モダリティを集合的に処理し、ネットワーク計算を共有するからです。ただし、欠点もあります。1 つ目は、知覚モダリティが変化した場合に再トレーニングする必要があるモデルの柔軟性のなさです。2 番目の欠点は、キャリブレーション エラー、センシング レート、またはセンサーの故障による時空間的不一致の影響を受けやすいことです。

中期融合:機能レベルの融合には、ネットワークの中間層の機能の融合が含まれます。これは、1 層融合、ディープ融合、または高速融合のいずれかになります。図 10 (c)、(d)と(e)、それぞれ。中期フュージョンの主な欠点は、特定のネットワーク アーキテクチャごとに最適なフュージョン ソリューションを見つけるのが難しいことです。

後期融合:またはデシジョンレベル融合。ネットワーク処理パイプラインの次のステップの出力に近く、さまざまな認識モードの専門ネットワーク (専門家) の出力を組み合わせます。その主な利点はモデルの柔軟性です。なぜなら、新しいモダリティの導入により、モダリティをセンシングするときは、そのエキスパート ネットワークのみを再トレーニングする必要があるためです。その一方で、主な欠点は、計算コストとメモリ コストが高くつくこと、および中間層で重要な機能が破棄される可能性があることです。[10] では、著者らは、どのレベルのネットワーク構造の融合が最も有益であるかを自動的に学習する深層学習モデルを提案することで、「いつ融合するか」という質問に答えています。

69576c2f9f72ed5266f310810cda0e27.png

図 10: 初期融合、中期融合、後期融合のスキーム

知覚タスク

自動運転車やADASの文脈では、前述のセンサーを通じて取得されたデータは、特に深層学習によって駆動されるさまざまな認識タスクに使用されます。コンピュータービジョンの分野を考慮すると、物体検出や画像セグメンテーションなどのタスクが行われます。重要な、重要な。

検出:オブジェクト検出は、画像内の要素を特定して分類することを目的とし、2D または 3D 境界ボックスを使用できます。最初のケースでは、各要素はラベル (そのカテゴリを示す) と 2D 境界ボックス (その位置を示す) に関連付けられます (図。図 11(b) に加えて、各エンティティは速度、方向、さらには動作記述子 (車両が移動しているか、駐車しているか、停止しているかなど)。検出は文献で広く研究されているタスクであり、ディープ ラーニング ベースのオブジェクト検出器など、この場合に非常に高速で正確なディープ ラーニング モデルがすでに存在するため、良好なナビゲーション条件下で解決できると考えられます。 1段検出器と2段検出器。2 段階検出器は、文献で提案されている深層学習ベースの検出器の最初のグループです。彼らは、複数の物体の検出というタスクを 2 つのステップで解決しようとしています。最初のステップでは、オブジェクトが存在する可能性が高い画像内の領域を表す領域提案を生成します。次に、2 番目のステップで、これらの領域提案が CNN によって処理され、オブジェクトの位置と分類が取得されます。このグループの中で、領域提案アーキテクチャのファミリー (R-CNN と呼ばれる) が際立っており、R-CNN は先駆的な手法です。その後継バージョンは、以前のバージョンの問題を解決しようとしています。より高速な R-CNN により、エンドツーエンドのトレーニングが可能になります。より高速な R-CNN は、領域提案の生成をプロセス全体に統合します。マスク R-CNN はインスタンスのセグメンテーションの目的で提案されていますが、分類と検出のブランチもあり、検出精度の向上により、パフォーマンスが向上します。1 段階検出器は、複数の物体検出問題を 1 回のパスで解決しようとし、より高速なパフォーマンス (より高速な推論、より高いフレーム/秒) を提供します。

c0ae24989d3adc94ba8f1ee658f0e0c9.png

図 11: 2D および 3D 検出の例

画像のセグメンテーション:画像のセグメンテーションは、ピクセル レベルで画像を分類するタスクを指します。各ピクセルはラベルに関連付けられ、考慮されたクラスの 1 つを参照します (図 11(c) を参照)。セグメンテーションには基本的に、セマンティック セグメンテーション、インスタンス セグメンテーション、およびジェネリック セグメンテーションの 3 つのタイプがあります。これら 3 つのタイプについては、以下で説明します。 

1) セマンティック セグメンテーション: セマンティック セグメンテーションには、同じカテゴリのインスタンスを区別せずにピクセル レベルでの画像分類が含まれます。このタイプの画像セグメンテーションにおける最初の注目すべき研究は 2015 年に発表されました。Fully Convolution Networks (FCN) は、著者が「畳み込み」と呼ぶプロセスを通じて、全結合層を畳み込み相当の層に置き換えることを提案しています。このようにして、すべての密なレイヤーを削除した後、ネットワークは任意のサイズの画像を処理でき、クラス ベクトルを出力する代わりに、「ヒートマップ」の形式で密な分類 (ピクセル レベルの予測) を生成します。このタイプの表現では、各 2D 位置は元の画像内のピクセルを表し、各クラスに関連付けられた確率がその深さに沿った位置に保存されます。

2) インスタンスのセグメンテーション: インスタンスのセグメンテーションは、自動車、歩行者、自転車などの数えられるカテゴリの要素を区別するため、セマンティック セグメンテーションを改良しています。ただし、空、建物、道路などの不規則なカテゴリや数え切れないカテゴリは分類できません。最も有名なインスタンス セグメンテーション手法の 1 つは、Mask R-CNN です。このメソッドは、マスク予測ブランチを既存のバウンディング ボックス ブランチに追加することで Faster R-CNN を拡張し、追加のオーバーヘッドをほとんど発生させずに検出とインスタンス セグメンテーションを同時に実行できるようにします。 

3) ジェネリック セグメンテーション: ジェネリック セグメンテーションは、前の 2 つのセグメンテーション モードの利点を組み合わせて、可算要素 (インスタンス セグメンテーション) (車や歩行者など) と不規則/不可算要素 (セマンティック セグメンテーション) (セグメンテーション) のマスクを生成します。 

車両アプリケーションでは、リアルタイム操作は、起こり得るリスクに迅速に対応できるため、重要な要件です。画像セグメンテーションは十分に確立された研究テーマですが、ほとんどの研究努力は精度の向上に焦点を当てています。制約を考慮すると、新しい軽量で効率的かつ高速な画像セグメンテーションの方法とアーキテクチャが必要です。

34ca5ed5e8bb3bf91c7bb74346ed32a6.png

図 12: セマンティック セグメンテーション (a)、インスタンス セグメンテーション (b)、およびパノラマ セグメンテーション (c) の例。

データセット

最近まで、自動運転車両認識タスク用に構築されたデータベースは、主に理想的なナビゲーション条件下でキャプチャされた 2D 画像データに基づいていましたが、困難なシナリオでのナビゲーションにますます注目が集まっており、データ融合戦略への移行により、不利な航行条件と複数の知覚様式をカバーするデータセット。車両認識に使用される主なデータベースを以下に示します。私たちは、認識パターン、不利な条件の存在、意図の適用の種類、およびデータセットのサイズを含む分析を実行しました (表 II にまとめられています)。

222b7eedd1ecfc28e6e1d1ff0444dba5.png

さらに、2012 年から 2021 年までのカメラとミリ波レーダーの注釈付きデータの利用可能性 (深層学習における教師あり学習の必要条件) を図 17 に示します。

83966e0a94a64dfd749794fd0fcac3b9.png

図 17: 自動運転車と ADAS における検出とセグメンテーションのためのミリ波レーダーとカメラの注釈付きデータの利用可能性 (2015 ~ 2021 年)

検出およびセグメンテーション手法のパフォーマンスを評価するために使用される一連の指標は広範囲に及びます。通常、これらのメトリックはデータベースのプレゼンテーションとともに定義されます。したがって、検討するベンチマークに応じて異なる計算が行われる可能性があります。表 3 は、各データベースで使用されるメトリックをまとめたものです。

8c51874acd4358b6e9070f79704a7ea2.png

要約する

この記事では、ADAS、自動運転車、および完全自動運転の間の基本概念に関連するいくつかの基礎を示し、次に、カメラおよびレーダーベースの知覚の主な概念と現状を示します。堅牢な知覚のためのセンサー フュージョン技術の重要性を考慮して、次に、深層学習ベースの検出とセグメンテーションの主な概念を紹介し、その後、自動運転車と ADAS 研究を促進するために現在使用されているデータセットの分析を行います。これには、提供されるデータ モダリティ、逆境ナビゲーション条件の範囲、そのデータ モダリティなどのさまざまな特性が含まれます。サイズと目的。次に、検出およびセグメンテーション手法のパフォーマンスを評価するための最も一般的な指標について説明し、最後に、この分野が直面しているいくつかの主要な課題と未解決の問題を示します。このレビューの結果は、ミリ波レーダーとデータ融合手法の使用の増加とその使用が証明しているように、困難な動作条件下でもロバストなセンシングが可能な車両認識手法の開発への関心が高まっていることを示していますが、これらの手法はまだ研究されていません。さらに、ADAS や自動運転に関する規制の試みに沿って、知覚方法のパフォーマンスを評価するための標準的な指標を採用することで、分野の開発を加速することができ、最終的には、バランスのとれた多様なデータは、堅牢な支援システムや自律システムを開発し、自転車利用者などの少数民族を認識するための深層学習モデルをトレーニングし、多様な交通インフラを処理するために不可欠であり、将来の交通における交通安全には気象条件や光の状態が不可欠です。

リソース

自動運転・測位関連のシェアリング

【点群紙速読】LiDARベースの走行距離計と3次元点群地図での測位手法

自動運転におけるオプティカルフローに基づく動体検知

セマンティックセグメンテーションに基づくカメラの外部キャリブレーション

レビュー: 自動運転用パノラマ魚眼カメラの理論モデルと認識の紹介

高速シナリオにおける自動運転車の位置推定手法に関する調査

Patchwork++: 点群に基づく高速かつ堅牢な地面セグメンテーション手法

PaGO-LOAM: 地面の最適化に基づく LiDAR オドメトリ

マルチモーダルな道路エッジ検出およびフィルタリング方法

複数のLiDARの同時キャリブレーション、位置特定、マッピングのためのフレームワーク

動的な都市環境におけるロッドの抽出、マッピング、および長期的な位置特定

非反復走査ライダーの動き歪み補正

高速密結合スパースダイレクトレーダー慣性視覚オドメトリ

カメラと低解像度LiDARに基づく3D車両検出

3D 点群のセマンティック セグメンテーションのためのアノテーション ツールと都市データセット

ROS2 を始めるための基本的な概要

ソリッドステート LiDAR およびカメラ システムの自動キャリブレーション

LiDAR+GPS+IMU+ホイールスピードメーターのセンサーフュージョン測位ソリューション

スパースセマンティック視覚特徴に基づく道路シーンのマッピングとローカリゼーション

自動運転における LIDAR に基づく車両の道路と歩道のリアルタイム検出 (コードオープンソース)

3D 点群のセマンティック セグメンテーションのためのアノテーション ツールと都市データセット

その他の記事もご覧いただけます:点群学習履歴の記事の概要

SLAM および AR 関連の共有

TOFカメラの原理の紹介

TOF 飛行時間型深度カメラの紹介

構造化 PLP-SLAM: 点、線、面を使用した単眼カメラ、RGB-D、および双眼カメラ向けの効率的なスパース マッピングおよび位置特定スキーム

オープンソースの最適化された F-LOAM ソリューション: 最適化された SC-F-LOAM

【オープンソースソリューション共有】ORB-SLAM3はオープンソースです!

【紙速読み取り】AVP-SLAM:自動駐車システムにおけるセマンティックSLAM

【点群紙速読】StructSLAM:構造化線機能SLAM

SLAM と AR の概要

一般的に使用される 3D 深度カメラ

AR デバイス用の単眼視覚慣性航法 SLAM アルゴリズムのレビューと評価

SLAM の概要 (4) レーザーとビジョンの融合 SLAM

リアルタイム再構築のための Kimera セマンティック SLAM システム

SLAM の概要 (3) - ビジョンと慣性航法、ビジョンとディープラーニング SLAM

拡張が簡単な SLAM フレームワーク - OpenVSLAM

Xiang Gao: 非構造化道路レーザー SLAM の課題

魚眼カメラをベースにしたSLAM方式の紹介

さらに詳細なコンテンツについては、バックグラウンドで「Knowledge Planet」を送信し、Knowledge Planet に参加して詳細をご覧ください。

スマート運転フル​​スタックと3Dビジュアル学習プラネット:主にインテリジェント運転フル​​スタック関連技術、3D/2Dビジュアル技術の学習と共有知識プラネットを目的としており、引き続き乾物技術を共有し、知識ポイントを要約し、コードパズルを共有し、最新の論文や疑問を解決する 質問などに答えます。The Planet は、継続的な共有能力を備えたさまざまな分野の専門家を招待し、初心者に技術的な指導を提供し、すべての質問に答えます。同時に、Planet はさまざまな有名企業と協力して、オートパイロット、マシン ビジョン、その他の関連求人情報や紹介機会を公開し、学習や雇用において共有し、互いに助け合うことができる技術人材クラスターを構築します。

上記の内容に誤りがある場合は、コメントを残して修正や交換を歓迎します。権利侵害がある場合は、削除するために連絡してください

QRコードをスキャンします

                   フォローする

一緒に共有して学びましょう!私たちは、愛の共有に新たな活力を注入するために、アイデアを持ち、喜んで共有する人が知識の惑星に参加することを楽しみにしています。共有されるトピックには、3D ビジョン、点群、高精度地図、自動運転、ロボット工学およびその他の関連分野が含まれますが、これらに限定されません。

共有と協力方法:Wechat「920177957」(要備考) 連絡先メールアドレス:[email protected]、企業は公式アカウントに連絡して協力を開始することを歓迎します。

「探している」をクリックすると、見た目が良くなります

fb9b93a178e68dda4c8b47547f3d7aa9.gif

おすすめ

転載: blog.csdn.net/u013019296/article/details/129848976