ミリ波レーダーとビジョンフュージョンの拡張ネットワークによる目標検出アルゴリズム

タイトル: ミリ波レーダーとビジョンフュージョンのための拡張ネットワークに基づくターゲット検出アルゴリズム

要約: 主要な運転支援から高度な自動運転に至るインテリジェント運転の発展に伴い、外部環境情報を認識する独立した知的個体としての車両に対する需要が高まっています。通常の独立した感知ユニットが外部環境を認識する能力は、センサー自体の特性とアルゴリズムのレベルによって制限されます。したがって、通常の独立したセンシングユニットは、雨、霧、夜間などの条件下で独立して総合的なセンシング情報を取得することはできません。これに基づいて、補完的な知覚性能、費用対効果、およびオンボードセンシング要素の独立した検出技術の成熟度を組み合わせて、拡張されたネットワークベースのミリ波レーダーとビジョンフュージョンターゲット検出アルゴリズムが提案されます。本稿では、ミリ波レーダーとビジョンフュージョン技術のルートの分析を通じて、初めて機能レベルフュージョンを採用しました。このアルゴリズムは、nuScenes データセットと自作のデータ収集プラットフォームのテスト データでトレーニングおよびテストされます。これに基づいて、VGG-16+FPNバックボーン検出ネットワークに基づくRetinaNet一段階目標検出アルゴリズムが深く研究され、ミリ波レーダー画像が視覚画像目標検出のための補助情報として導入されます。我々は、2 チャネルのレーダーと 3 チャネルのビジョン画像をフュージョン ネットワークへの入力として使用し、ミリ波レーダーとビジョンのフュージョンに適した VGG-16 拡張ネットワークと拡張機能ピラミッド ネットワークを提案します。テスト結果は、純粋な視覚画像オブジェクト検出の基準ネットワークと比較して、提案されたネットワークが mAP で 2.9% の増加と、小さなオブジェクトの精度で 18.73% の向上を達成したことを示しています。この発見は、視覚に鈍感な物体に対する提案された拡張融合物体検出ネットワークの検出能力とアルゴリズムの実現可能性を検証します。

キーワード: インテリジェントドライビングカー、マルチセンサーフュージョン、ターゲット検出、拡張ネットワーク

1 はじめに

        車両衝突回避、車線維持、自動走行制御などの技術の継続的な開発に伴い、自動運転車のセンシング機能に対する需要が徐々に高まっています。ミリ波レーダー、超音波レーダー、優れた外部感知能力を備えたビジョンカメラなどの独立した感知ユニットが、車両物体検出に徐々に適用されてきました。しかし、単一タイプのセンシング ユニットでは、車両自動化のためのセンシング機能の強化のニーズを満たすことができず、研究者は研究の焦点を単一センサ センシングからフュージョン センシングに徐々に移しつつあります。多くの研究者の共同の努力により、視覚カメラに基づく画像ターゲット検出技術は成熟し、実際のシーンに適用できるようになりました。

        Krizhevsky らは、視覚認識チャレンジで深層畳み込みニューラル ネットワークAlexNetを提案し、深層学習物体検出の分野における研究の基礎を築きました。Girshickらは、物体が存在する可能性のある候補領域を特定するための畳み込みニューラルネットワークベースのR-CNN検出モデルを提案した。彼らは、R-CNN における入力画像の固定サイズの制限を解決するために、空間ピラミッド プーリング アルゴリズムSPPNetを確立しました。このアルゴリズムは、以前に提案されたYOLOアルゴリズムよりも小型ターゲットの検出に優れており、小型ターゲットの検出能力が向上します。レーダーイメージングは​​広く研究されています。Chen は、不均衡なエネルギー分布によって引き起こされるエラーを効果的に回避できる拡張アルゴリズムを開発しました。Dong は、マルチセンサー融合のアイデアを提供する合成開口レーダー圧縮センシング アルゴリズムを提案しました。

視覚オブジェクト検出は、従来のオブジェクト検出アルゴリズム深層学習に基づくオブジェクト検出アルゴリズムの 2 段階の開発        を経て、画像オブジェクトの検出精度と速度が大幅に向上しました。ただし、純粋に視覚ベースの物体検出には、複数の物体の重なり、交通量の多い場所での歩行者検出、霧の天気などの複雑なシーンを扱う場合には依然として固有の欠点があります。ミリ波レーダは、物標の検出において、物標の位置や速度などの状態データの推定から、十分な探知能力を示している。ただし、物体分類や物体レーン推定などのタスクにミリ波レーダーを使用するには制限がありますしたがって、多くの研究者は、物体検出におけるマルチセンサー融合法の適用を検討してきました。

2.関連作品

        マルチセンサー融合物体検出の目的は、主に、検出能力、生産、保守コスト、安​​定性などのさまざまな条件下で複数のセンサーの相補的な特性を利用することです。ミリ波レーダーとビジョン フュージョンに関する研究はまだ初期段階にあり、ミリ波レーダー データを含む公的に利用可能なデータセットが不足しているため限界があります。nuScenesデータセットとCARLAなどのシミュレーション ソフトウェアのリリースにより、ミリ波レーダーに基づく融合アルゴリズムが徐々に研究の注目を集めています。

        Ji らは、物体検出用の単純なニューラル ネットワークで画像オブジェクト検出とレーダー検出のための関心領域を作成します。多くの研究では、画像内の物体検出をガイドするためにミリ波レーダー検出も利用しています。Jinらは、時空間次元におけるミリ波レーダーとビジョンフュージョンの融合を研究することにより、画像検出関心領域に基づいて複数のターゲットの検出と認識を実現した。Songらは、画像の3次元目標検出を備えたミリ波レーダーを適用し、目標の半径方向の距離に応じてセンサーのタスクを分割し、マルチセンサーの監視下で危険な目標の検出と分類を実行しました。Vijayらは、ミリ波レーダー構造を備えたRVNetとカメラ画像データを畳み込みニューラルネットワークへの入力として使用することを提案した。Jhaらは、ミリ波レーダーとビジョンセンサーの独立した検出結果をデシジョンフュージョンアルゴリズムに使用しました。Lekicらは、敵対的ネットワークベースの深層学習アプローチを利用して、カメラとミリ波レーダーのデータを鳥瞰図に融合し、自由空間を検出しています。Chadwickらは、ミリ波レーダーのデータを画像面に投影し、検出にディープニューラルネットワークを使用し、シリアルフュージョンによってレーダーの特徴と視覚的特徴を融合し、著者のカスタムデータセットで満足のいくパフォーマンスを達成しました。

        ミリ波レーダーとビジョンフュージョン技術は、小型目標の検出に有利です。Azizらは、ミリ波レーダーと視覚情報を融合して物体検出を実現するためのアルゴリズムフレームワークを提案した。Changらは、空間注意融合に基づくミリ波レーダーとビジョンフュージョン目標検出アルゴリズムを提案し、空間注意モジュールを導入することで小さく確実性の低い目標の検出を改善しました。Nabati らは、センターベースのミリ波レーダーとビジョン フュージョンに基づく 3D ターゲット検出アルゴリズムを確立し、ミリ波レーダーと視覚ターゲットの関連付けを実現しました。Jhonらは、検知が弱い環境でミリ波レーダー、視覚カメラ、熱画像カメラを使用し、夜間、雨や霧の状況下での視覚カメラの目標検出能力を向上させた。Nabatiらは、レーダ点検出対象の不確実性に応じて、検出フレームの中心から周囲に拡張し、画像検出のための検出事前フレームのセットを取得した。Wangらは、車両の単一センサー検出の欠陥を補うために、車両エッジ検出による座標変換を使用しました。Wang らは、注意メカニズムとドライバーの認識を融合して、全体的なパフォーマンスを向上させています。

        ミリ波レーダーと視覚情報に基づく融合アルゴリズムの研究は、主に意思決定レベルに焦点を当てています。この手法は、独立したミリ波レーダーと視覚による検知結果を確立されたロジックに従って融合するものですが、検知率や環境適合性の向上にはまだ課題があります。したがって、この論文では、複雑な気象条件におけるモデルの検出精度とロバスト性を向上させるために、ミリ波レーダーと視覚生情報の多層特徴融合に基づく拡張物体検出ネットワークを提案します。

3. 方法

3.1 FPN拡張ネットワーク

        研究者は通常、検出ネットワークの各層から個別に特徴を予測するため、特徴の深さが増すと、特徴マップ内の情報の有効性が低下し、アルゴリズムが小さな物体の検出に効果的でなくなります。提案された特徴ピラミッド ネットワーク (FPN) は、マルチスケール特徴を備えた物体検出のための満足のいくソリューションを提供できます。これは主に、物体検出におけるマルチスケールの問題に対処します。FPN は、トップダウンの水平接続構造を使用して、低レベルの位置情報と高レベルのセマンティック情報が豊富な特徴マップを融合します。新しい特徴マップに格納された基礎となる物体の位置情報が取得され、小規模な物体の検出能力が向上します。異なる畳み込み層から取得された深度特徴は、チャネル マッチングに 1 × 1 畳み込みカーネルを使用し、融合された特徴マップは 3 × 3 畳み込みカーネルを使用して処理され、異なる層の特徴融合によって引き起こされるエイリアシング効果を低減します。3 層 FPN を例として取り上げ、それを拡張します。FPN 構造を図 1a に示します。

 図 1. フィーチャ ピラミッド ネットワークとその拡張機能。CはCNNの畳み込み層を表し、Pは予測層を表します。

(a) FPN 構造、(b) 拡張 FPN (E-FPN)

        深い特徴のアップサンプリング、加算 (Add) による浅い特徴の融合により、画像特徴 C1、C2、C3 の強化されたセマンティクスを備えた特徴マップ P1、P2 が得られ、小さなターゲットを認識するアルゴリズムの能力が向上します。FPN と多層セマンティック情報の合成におけるその許容可能なパフォーマンスに基づいて、検出結果にはまだ改善の余地があります。図 1b に示すように、拡張 FPN (E-FPN) を提案します。このアルゴリズムは、対応するスケールのミリ波レーダー機能をシリーズ (カスケード) 融合用の P1、P2、および P3 の機能マップに追加し、FPN を介して P1、P2、および P3 の機能マップを抽出して、強化された P1_E、P2_E、および P3_E 融合機能マップ 予測を行いますこの研究では、7 層 FPNを使用してセンサー データ融合検出タスクを実行しました。セクション 3.2 では VGG ネットワークも拡張します。

3.2 VGG 拡張ネットワーク モジュール設計

        VGG ネットワークは、オックスフォード大学の Visual Geometry Group によって研究室名の頭字語として提案されました。VGG の調査は、ImageNet 2014 チャレンジでの発見の一部を示しており、基礎となるブロックを再利用することでディープ モデルを構築できることを示しています。VGG ネットワークのブロック構造を図 2a に示します。CNN ビルディング ブロックは通常、畳み込み層、ReLU などの非線形活性化関数、および最大プーリング層などのプーリング層として構築されます。VGG 研究で提案された方法は、パディング 1 およびウィンドウ形状 3 × 3 の複数の連続する同一の畳み込み層を使用し、その後にストライド 2 およびウィンドウ形状 2 × 2 の最大プーリング層を使用することを目的としています。畳み込み層は入力と出力の高さと幅を一定に保ちますが、プール層は入力のサイズを半分にします。VGG ネットワークに基づいて、拡張 VGG ネットワークを提案します。

 図 2. VGG ネットワーク モジュールと拡張モジュール。(a) VGG-16 モジュール。(b) VGG ネットワーク モジュールを拡張します。

        拡張機能によって生成されたレーダー画像には、レーダー断面積 (RCS)とレンジ チャネルの 2 つのチャネルが含まれています。レーダー画像のサイズは可視画像のサイズと同じです。VGG ネットワーク ブロック構造は、ネットワーク入力として「ミリ波レーダー視覚画像」拡張画像に対応するように再設計され、レーダー画像の機能が畳み込みネットワークに組み込まれています。図 2 は、VGG のモジュール構造と拡張 VGG ネットワークを示しています。図2bに示すように、拡張VGGネットワ​​ークは、ミリ波レーダーの2チャネル画像と視覚(R、G、B)の3チャネル画像をネットワーク入力として使用します。画像チャネルは、元の VGG ブロックの畳み込みとプーリングを完了し、それをミリ波レーダー画像特徴とつなぎ合わせます。結果として得られる特徴マップは、次の層の VGG ブロックの入力として使用されます。

        この論文では、VGG-16+E-FPN 拡張 RetinaNet に基づいて、ミリ波レーダー拡張目標検出ネットワークと視覚融合の高度なアーキテクチャを図 3 に示します。拡張された VGG-16 バックボーン検出ネットワーク構造を図 3 の左側に示します。一方、拡張された FPN 構造は中央の破線のボックスに示されています。

 図 3. 拡張物体検出ネットワークの高度なアーキテクチャ

図 3 から、拡張されたネットワーク構造はミリ波レーダー画像 2 チャンネルと視覚画像 3 チャンネルを入力として取り、視覚画像特徴とレーダー画像特徴がシリーズ フュージョン (複合特徴チャネル) によって複合特徴にカスケード接続されていることがわかります        。数値 = pre 連結されたレーダー特徴チャネルの数 + 事前連結された画像特徴チャネルの数)。拡張 VGG バックボーン検出ネットワークの各層の複合特徴出力はそれぞれ C5_reduced、C4_reduced、および C3_reduced であり、レーダー特徴マップは R1、R2、...R7 です。VGG バックボーン検出ネットワークから取得された融合機能とレーダー機能は、E-FPN の入力として使用されます。同時に、拡張ピラミッドネットワークを使用して得られた拡張特徴マップP3_E、P4_E、P5_E、P6_E、P7_Eがターゲットネットワークの入力として使用されます。

        ミリ波レーダーと画像ピクセルの基本的な違いは、ピクセルに含まれる情報量に現れます。レーダー画像ではターゲットの距離をピクセル値として使用しますが、視覚画像のターゲット情報は単一のピクセルとその近くのピクセルで表す必要があります。レーダー画像と視覚画像の浅い融合は、入力情報が最小限の意味的類似性を示し、特徴を間接的に関連付けるだけであるため、両方によって表現される情報との相関性が低くなります。ディープ ネットワークの入力データは、ますます密度の高いセマンティック情報を表現し、分類タスクに必要な特徴情報を提供することができます。したがって、深い畳み込み特徴 C5_reduced、C4_reduced、および C3_reduced が特徴出力として選択され、FPN でのマルチスケール画像の拡張と、深い特徴におけるミリ波レーダーと視覚情報の間の意味的類似性が保証されます。ネットワーク トレーニングのプロセスでは、さまざまなレーダー フィーチャ レイヤーの重みをそれに応じて調整できるため、E_FPN のピラミッド ネットワーク出力フィーチャ P3_E、P4_E、P5_E、P6_E、P7_E とミリ波を融合することで、ネットワークを適応的にトレーニングできます。レーダーは、最良の予測および分類効果を得るために、R1、R2、...R7 などを特徴とします。

4. 結果

4.1 評価指標

        この論文で提案されるミリ波レーダーと視覚の融合に基づく物体検出アルゴリズムは、ミリ波レーダーデータに基づく誘導ネットワークを通じて画像物体検出を強化することを目的としています。画像オブジェクト検出の評価では、オブジェクト分類の評価は平均精度に基づいて行われ、オブジェクト位置特定の評価は交差とマージ比率に基づいて行われます。評価指標は以下のとおりです。

(1) True Positive (TP): IoU の予測値とグラウンド トゥルース ボックスの両方がしきい値より大きく、分類は正しいです。

IoU は、2 つの領域の重なりを 2 つの領域の合計で除算した結果です。しきい値を設定すると、結果が IoU 計算と比較されます。IoU の定義は次のとおりです。

 (2) 偽陽性 (FP): 予測ボックスにはターゲットが含まれていますが、真理ボックスが存在しないか、真理ボックスの IoU がしきい値未満です。

(3) 偽陰性 (FN): ターゲットは現実であるにもかかわらず、実際のターゲットについて予測が行われない、検出を逃した状況。

(4) 精度: IoU がしきい値を満たすすべての検出されたオブジェクトのうち、正しく分類されたオブジェクトの割合。

(5) 再現率 (再現率): すべてのグラウンド トゥルース オブジェクトのうち、正しく分類され、IoU がしきい値より大きいオブジェクトの割合が検出されます。

適合率と再現率は次のように計算されます。

 4.2 データセットの紹介

        自動運転データセットは通常、視覚画像と LIDAR の生データを中心に設計されています。公開データセットにミリ波レーダー データが存在しないことと、独自に構築したデータセットの可用性が低いことが、コレクションの開発をある程度妨げています。この問題は、2019 年に nuScenes データセットがリリースされたときに徐々に緩和されました。nuScenes データセットは、Motional チームによって開発された自動運転用の大規模な公開データセットです。データセットはボストンとシンガポールで収集され、各運転シーンは約 20 秒、合計 1,000 件あります。

        この取り組みでは、HYPERVIEWインテリジェント ドライビング カー プラットフォームを使用してセンサー データを収集し、アルゴリズムをテストおよび検証します。図4は、ミリ波レーダー、視覚カメラ、およびライダーを含む車両捕捉プラットフォームの物理的な概略図である。

図 4. NuScenes データ収集プラットフォームのセンサー構成。(a) 車両収集プラットフォーム。(1) はカメラ (2) はミリ波レーダーです

                                                                         (b) は HMI ツールのインターフェイスです

        自社構築のミリ波レーダーデータ収集プラットフォームは、ProtoBufおよびSQLiteデータ圧縮を採用し、路上試験中に視覚画像の収集を実行します。ミリ波レーダーの具体的なパラメータを表1に示します。

表 1:コンチネンタル ARS410 ミリ波レーダーの動作パラメータ。

        データ取得および再生 HMI ツールのインターフェイスを図 4b に示します。このツールは、ミリ波レーダー構造データとリアルタイムで表示される視覚画像を取得するために使用され、同時に自車両の運動情報とセンサーのタイムスタンプを保存します。

4.3 フュージョンネットワークとリファレンスネットワークの検出効果の比較

        nuScenes データセット内の画像と生成されたレーダー画像の幅と長さは、ネットワークへの入力として 360 × 640 にサイズ変更されますこのセクションでは、nuScenes および自己構築されたデータセットでの主観的な検出結果を示します。

        車載用ミリ波レーダー技術の応用において、ミリ波レーダーで検出した障害物は、ミリ波レーダーの視野(FOV)内の上面図に分布します。したがって、垂直方向のターゲットの物理座標は含まれず、視覚化およびデータ表現のために 2 次元平面に投影できます。投影法は小口径性能モデルにおける古典的な座標変換法を採用しています。これは、画像平面およびピクセル平面上の点群マップとして表現できます。

        図 5 は、融合ネットワークと nuScenes データセットのテスト セットで実行された参照ネットワークの物体検出パフォーマンスの比較を示しています。図6は、自作データセットにおけるフュージョンネットワークとリファレンスネットワークのターゲット検出効果の比較を示しています。図 5 と図 6 で使用されている参照ネットワークは、 VGG-16+FPN バックボーン検出ネットワークに基づく RetinaNet 物体検出ネットワークです。図 5 の各列はシーンに対応します。最初の行は、予測に使用されるミリ波レーダー点群の視覚画像への投影を示します。2 行目は、拡張オブジェクト検出ネットワークの最初の拡張 VGG 検出ブロックの特徴出力と、参照ネットワークの最初の VGG 検出ブロックの特徴出力を表します。3行目は、拡張ネットワークと参照ネットワークの最初の検出ブロックの特徴差を表します。4行目は、拡張物体検出ネットワークP3_Eと参照ネットワークP3の特徴量出力を表す。5 行目は、拡張ネットワークと参照ネットワーク FPN-P3 (P3_E) の機能の違いを説明します。6段目は、拡張物体検出ネットワークP5_Eと参照ネットワークP5の特徴量出力を示している。7行目は拡張ネットワークとリファレンスネットワークFPN-P5(P5_E)の機能差分です。8行目は、提案された拡張融合物体検出ネットワークの検出性能を示しています。最後に、9 行目は参照ネットワークの検出パフォーマンスを示します。

 図 5. NuScenes データセットの検出結果の比較

         図 5 の比較分析から、融合ターゲット検出ネットワークは、長距離の小さなターゲット (影の中の歩行者など)、複数の物体など、認識が困難な特徴シーンで強化された認識および分類効果を示すことがわかります。同様のテクスチャを使用したターゲット (2 列目の複数の白いトラックなど) と、雨で隠れた歩行者ターゲット (レーダー拡張画像に従って、フィーチャが異なる半径距離で重ね合わされます) が重なり合います。フュージョン ネットワークの最初の列で検出された小さな歩行者オブジェクトを例に挙げます。P3_EとP3の特徴差分画像に対応する位置では、歩行者の位置は明らかなレーダ出力特徴を有している。一方、フュージョン ネットワークの 2 列目で検出された大型ターゲット トラックを例に挙げます。複数の白いバンが重なり、テクスチャの輪郭が明確ではないため、リファレンスネットワーク画像ターゲット検出では認識および分類できませんが、レーダー画像チャネルに基づくフュージョンネットワークでは満足のいく検出結果が得られます。

 図 6. データ収集プラットフォームの検出効果の比較

        融合物体検出ネットワークは、夜間や曇天環境での遠距離小型物体の認識(図6)や、自作データセットでの遠距離小型物体の検出において、参照ネットワークよりも優れた性能を発揮します図 6 の検出された小型目標の位置の P3 (P3_E) 特徴を強化することにより、ミリ波レーダー画像チャネル情報を追加することで、遠く離れた小型目標と重なり合う車両の独立した特徴認識を強化できることがわかります。列 2 に示すように、検出プロセス用。

4.4 異なるシナリオでの連続検知効果の比較

4.4.1 日中の複雑なシーンでの物体検出

        図 7 は、日中のシーンにおける連続 3 フレームの物体検出パフォーマンスを比較しています。最初の行は、提案された拡張融合オブジェクト検出の効果を示しています。2 行目は、参照ネットワークの物体検出パフォーマンスです。図からわかるように、この論文の拡張融合物体検出ネットワークは、近距離の物体の検出継続性を強化します強化されたレーダー点群機能に基づいて、左側のぼやけた小さな目標(車両)に対して満足のいく検出結果が得られ、画像情報が不完全な近視の大型トラックに対しても検出と分類が実現できます。

図 7. nuScenes データセットにおける昼間のシーンの連続検出効果の比較。 

        図8と図9に示すように、夜のシーンでは、車は自動運転車に徐々に近づき、最後には衝突します。最初の行は拡張フュージョン ネットワークのオブジェクト検出パフォーマンスを示し、2 行目は各画像セットにおける参照ネットワークのオブジェクト検出パフォーマンスを示します。参照ネットワークを使用する場合と比較して、拡張融合知覚ネットワークはターゲット接近中に 3 倍早くターゲットを検出します (図 8)。参照ネットワークは物体の検出中に分類エラーを生成し、図 9 に示す遭遇プロセス中に参照ネットワークが視野から徐々に遠ざかるため、物体を検出する能力を失います。

図 8. nuScenes データセット内の夜間シーンの比較。ターゲットの存在を継続的に検出します。

 

図 9. 夜景の比較。nuScenes データセットに対するオフターゲット配列検出の影響。

4.4.2 夜間の複雑なシーンでのターゲット検出

        図 9 の最初の行の画像から、融合知覚検出ネットワークが遠くの歩行者ターゲットを検出できることがわかります。過酷な環境下での小さなターゲットの検出能力を向上させ、事故を引き起こす可能性のある危険なターゲットが自動運転車の運動状態に与える影響を軽減します。

4.5 統合ネットワークおよび参照ネットワークの検出機能の分析

nuScenes データセットの v1.0-test サブセット内の 150 シーンから 25 シーンをランダムに選択すること        で、さまざまなクラスのオブジェクトに対して提案された拡張フュージョン ネットワークと参照ネットワークがテストされ、統計的に分析されます。解析結果を図 10 に示します。

 図 10. フュージョン ネットワークとリファレンス ネットワークはオブジェクト統計を検出します。

        カテゴリごとに検知対象の総数を求めました(図10)。

        参照ネットワークと比較して、拡張フュージョン ネットワークによって検出されるターゲットの数は全体で 25.36% 増加し、自動車や歩行者などの大きなサンプル ターゲットの検出能力は約 20% 増加しました (表 2)。前節で説明したターゲット検出効果の比較分析は、提案された拡張ネットワークに基づく融合ターゲット検出アルゴリズムが、単一タイプのセンサーと比較して検出効果が大幅に向上していることを示しています。

表 2. nuScenes データセットのミリ波レーダー データ構造。

4.6 価値の客観的な分析

        nuScenes データセットの v1.0-trainval サブセットからアルゴリズムの 20% を抽出し、検証セットとして使用することで、提案された拡張フュージョン オブジェクト検出アルゴリズムの実用的な有効性と検出精度が検証されます。

        図 11 は、さまざまなクラスの下で提案された拡張融合オブジェクト検出ネットワーク (実線部分) と参照ネットワーク (破線部分) の平均精度の統計分析を示しています。2 つのアルゴリズムの全体的な平均精度 (mAP) を計算して比較し、曲線をプロットします。

 図 11. nuScenes データセット内のカテゴリごとにテストされた拡張ネットワークと参照ネットワークの比較。

実線は提案された手法を表し、破線は参照ネットワークを表します。

        表 3 は、nuScenes データセットのカテゴリ別のさまざまなアルゴリズムの平均精度の比較を示しています。RRPNはミリ波レーダーとビジョンを統合した目標探知ネットワークです。Fast R-CNNBaseline は、純粋に視覚的な物体検出ネットワークです。nuScenes データセットには少数の 2D オブジェクト検出アルゴリズムしか含まれていないため、これらのアルゴリズムを使用して比較が行われます。本稿では、検出フレームを生成するFast R-CNNアルゴリズムの選択探索アルゴリズムの代わりに、RRPNアルゴリズムのリアルタイムミリ波レーダーデータを使用して領域提案フレームを生成します。この方法により、選択的検索アルゴリズムの精度と再現率が向上し、アルゴリズムの消費時間が大幅に削減されます。

表 3. nuScenes データセットで AP によって分類されたさまざまなアルゴリズムの比較。

         mAP 指標の分析により、本論文で提案した RRPN、高速 R-CNN 画像オブジェクト検出ネットワーク、参照ネットワークと比較して、本論文で提案した拡張ネットワークに基づく融合オブジェクト検出アルゴリズムでは mAP が 3.5%、4.7 増加したことがわかります。それぞれ % と 2.9% (表 3)。AP インデックスの分類分析によると、nuScenes データセットでは、この論文で提案した検出アルゴリズムは、歩行者、車、トレーラーなどの道路上の一般的な物体の中で最高のパフォーマンスを達成します。本稿で提案する拡張融合に基づく特徴レベルの融合物体検出ネットワークは、関心領域に基づいて検出フレームを生成し、その性能は融合アルゴリズムの観点からはRRPNアルゴリズムよりも大幅に優れています。COCO データセットのさまざまなスケールでの AP の定義に従って、この研究では次の方法を使用して、さまざまなスケールでのターゲット検出能力に対する提案された融合ターゲット検出方法の改善効果を検証します。

(1) Aps:32^{2}フレーム領域が より小さい小規模オブジェクトの予測の平均精度。

32^{2}(2) APm: 予測フレーム領域が [ , ]以内に収まる中規模オブジェクトの平均精度96^{2}

96^{2}(3) API:フレーム領域が より大きい大型オブジェクトの予測の平均精度。

         この作業は、nuScenes データセットの v1.0-trainval train-validation セットに対してテストされます図 12 と表 4 から、この論文のアルゴリズムは、すべてのスケールで視覚参照ネットワークに基づく物体検出アルゴリズムよりも優れていることがわかります。小型物体の平均検出精度は 18.73% 向上し、中型および大型物体の検出能力よりも大幅に高くなります。

図 12. nuScenes データセット拡張ネットワークとスケール テスト参照ネットワークの比較。

実線は提案された手法を表し、破線は参照ネットワークを表します。 

表 4. この論文で提案する拡張フュージョン ネットワークと参照ネットワークのスケール AP の比較

5. ディスカッション

        スマートカーが動作する運転環境は、速度と複雑さの点で、他の人工知能マシンが動作する作業環境とは異なります。画像データの取得に使用されるカメラは光に弱く、点群データの取得に使用される LIDAR は過酷な環境に弱いです。ミリ波レーダーは静止目標の検出が苦手であり、センサー自体の欠陥により、スマートカーがセンサー 1 つだけでセンシングタスクを完了することは不可能です。LIDAR は高価であるため、本稿では主にミリ波レーダーのデータとカメラのデータを統合して周囲環境の検出を実現する方法を研究します信頼性の高いセンシング システムは、スマート カーが複雑な交通状況で適切に動作するための前提条件であり、研究者らは、マルチセンシング技術が検出精度を向上させるだけでなく、堅牢であることを期待しています。たとえば、低照度環境では、検出対象が小さすぎる場合でも、センシング システムは正常に動作できます。この目的を達成するために、本論文ではミリ波レーダとカメラデータを融合した物体検出アルゴリズムを提案する。 まず、ミリ波レーダーとビジョンフュージョンの実現可能な技術ルートの分析に基づいて、この論文のフュージョンルートは機能レベルフュージョンであると判断され、nuScenes データセットに基づいてアルゴリズムがトレーニングおよびテストされます。 。そこで、可視画像における物体検出の補助情報としてミリ波レーダー画像を導入します。この論文では、VGG-16+FPN バックボーン検出ネットワークに基づく RetinaNet 1 レベルの物体検出アルゴリズムのスケーラビリティを研究します。VGG-16 とフィーチャー ピラミッド ネットワークに関する研究に基づいて、ミリ波レーダーとビジョン フュージョンに適した拡張 VGG-16 ネットワークと拡張フィーチャー ピラミッド ネットワーク (E-FPN) が提案されます。バックボーン検出ネットワークの各層でミリ波レーダーの特徴と視覚的特徴の連続融合を実行することにより、ミリ波レーダーと視覚融合のための深く拡張された融合物体検出ネットワークが提案されますnuScenes データセットでのトレーニングとテストにより、純粋な視覚画像オブジェクト検出用の (VGG-16+FPN) RetinaNet リファレンス ネットワーク (ベースライン) と比較して、この論文のネットワークの mAP は 2.9% 増加し、小さなオブジェクト検出精度は 18.73% 向上しました、この論文で提案された拡張融合物体検出ネットワークを検証します。また、この論文で提案されている視覚に鈍感なターゲットに対する拡張融合ターゲット検出ネットワークの検出能力とアルゴリズムの実現可能性も検証します。この論文の研究は、特にフュージョンターゲット検出の分野における、インテリジェント運転車両のためのマルチセンサーフュージョン知覚技術の研究にとって一定の参考値を持っています。

6 結論

        現在、単一センサーベースの知覚とロジックベースの異種センサー融合では、環境サンプル情報に対する高度な自動運転の詳細な要件を満たすことができなくなりました。センサー技術の研究と目標検出技術の開発がボトルネック期間に入っているため、インテリジェント運転の市場応用では、短期的には単一センサーの検出能力の大幅な向上は期待できません。この研究は、研究対象としてミリ波レーダーと視覚検出を備えたインテリジェント運転車両に基づいており、マルチセンサー融合ターゲット検出アルゴリズムを研究することにより、都市環境や高度な環境に対処するための拡張融合ターゲット検出ネットワークを提案します。レベルのインテリジェントな運転高速道路環境では、インテリジェントなセンシング機能に対する要件が高くなります。この論文は、VGG-16+FPN バックボーン検出ネットワークに基づいて RetinaNet アルゴリズムを拡張し、検出精度の点で RetineNet の第 1 レベルのターゲット検出アルゴリズムの欠陥を解決しますミリ波レーダー画像や可視画像の多チャンネル入力に適したVGG-16拡張ネットワークとE-FPNを提案する。ミリ波レーダー特徴抽出ネットワークと視覚的目標検出ネットワークはディープフュージョンのために導入され、nuScenes データセットでトレーニングされています。提案ネットワークの検証と参照ネットワークとの比較により、提案ネットワークの物体検出率は約 25% 向上し、平均物体率は 2.9% 向上し、小さな物体の平均精度は 18.73 向上しました。 %。この研究の実験では、交通環境目標検出の応用能力と技術的アプローチを強化する際に、ミリ波レーダーフィルタリングアルゴリズムに基づいて提案された拡張融合目標検出ネットワークの実現可能性が検証され、特に小さな目標の検出能力が大幅に向上しました。 。

おすすめ

転載: blog.csdn.net/m0_63604019/article/details/129198475
おすすめ