マルチブランチコンテキストフュージョンに基づく空対地目標検出アルゴリズム

出典: 現代の防衛技術

著者: 何明、朱子涵、ザイ・シュロン、ザイ・ジェン、ハオ・チェンペン。

まとめ

UAV のインテリジェントなアプリケーションは、現在の研究のホットスポットであり、効率的かつリアルタイムの UAV 地上目標検出を実現するために、エッジ デバイスに適用される軽量の空対地目標検出アルゴリズム MBCF-YOLO が提案されています。深さ方向の分離可能な畳み込みを導入して、元のバックボーン ネットワークを最適化します。循環注意メカニズムが埋め込まれた小さなターゲット検出ブランチがネックネットワークに追加され、検出精度と小型および微小ターゲットの特徴融合能力が向上します。焦点損失関数と損失ランク マイニングを組み合わせることで、元の損失関数が改善され、空対地データセットのデータの不均衡問題が改善されます。このアルゴリズム モデルに対して、いくつかの制御された実験と実機アプリケーションが実行されました。その結果、他の現在のアルゴリズムと比較して、MBCF-YOLO アルゴリズムが VisDrone2021 データセットでの精度と遅延の間のより良いバランスを達成していることが示されました。

キーワード

空対地目標検出 ; ネットワークの軽量化 ; サイクリック アテンション メカニズム ; 小型目標検出 ; 機能融合

序章

近年、無人群技術は軍事分野で広く利用されており、戦場相互接続を実現する効率的なノードとして [1]、無人航空機 (Unmanned Aerial Vehicle、UAV) が研究のホットスポットとなっています。2022 年 2 月末に勃発したロシアとウクライナの軍事紛争では、多数の UAV が偵察やリモートセンシング、斬首攻撃、損害評価などの任務に直接関与し [2] 、良好な成果を上げました。軍用 UAV は戦場の外でも大きな注目を集めています。マシン ビジョンなどの新興センシング テクノロジーの導入により、UAV の軍事応用の可能性がさらに探求される可能性があり、それによって生み出された空対地目標検出タスクは、現在の研究でホットなトピックです [3]。 ) 位置を特定して分類し、その後の目標評価と損害攻撃を達成します。

国内外の研究者は、シングルステージフルコンボリューションモデル FCOS [4]、アンカーフリー軽量モデル Nanodet [5]、YOLO-RET [6] などの効率的なターゲット検出フレームワークの設計に取り組んでいます。 COCO や VOC などの一般的なデータ セットに基づいてトレーニングされていますが、空対地目標探知の特定の場面では、依然として 2 つの実際的な問題が存在します。

  • (1) ハードウェアのコストの問題。既存のアルゴリズムモデルには多数のネットワーク層と多数のパラメータが含まれていますが、消費電力の制約とドローンに搭載されるエッジデバイスの計算能力の制限により、リアルタイムで高精度な航空情報を実現することは依然として困難です。 -地上目標検出。

  • (2) 前景と背景のアンバランス。具体的なパフォーマンスは、目標スケールの不均衡とサンプルの不均衡です。空対地目標探知データセット Visdrone2021 では、同じ種類の物体でも背景が異なるとサイズが大きく異なり、サンプル数が異なります。オブジェクトの種類も不均一であり、モデルがすべての前景オブジェクトをトレーニングすることは困難であり、検出精度に影響します。

上記の問題を解決するために、本論文は、YOLOv5モデルに基づいてUAV機器に適したマルチブランチコンテキストフュージョンアルゴリズムMBCF-YOLO(マルチブランチコンテキストフュージョンYOLO)を再設計し、効率的かつリアルタイムの空対地を実現します。ターゲットの検出。行われた主な作業は次のように要約されます。

  • (1) UAV 機器の限られた計算能力の問題を解決するために、深さ方向に分離可能な畳み込みとステム サンプリング モジュール (StemBlock) を導入して、軽量のバックボーン ネットワークを再構築し、推論速度を最適化し、特徴抽出能力を確保し、リアルタイム検出を実現します。

  • (2) 入力画像の解像度を変えることなく、小型・微小なターゲットの検出が困難であることと、物体のスケールが大きく変化することを考慮して、小型ターゲット検出ヘッドの分岐を追加して、画像内の特徴マップを拡大します。受容野。モデル パラメーターと予測精度のバランスをとるために、プラグ アンド プレイのコンテキスト情報融合モジュールが設計され、モデル ネック ネットワークの特徴融合パフォーマンスが向上します。

  • (3) サンプル数の不均衡の問題を目的として、フォーカス損失と損失ランク マイニングと組み合わせて、トレーニング プロセスにおけるさまざまな種類のサンプルの学習損失のバランスをとり、学習プロセスによって引き起こされるバイアスを排除する新しい損失関数を構築します。サンプル数の違いを調べて、より本質的な特徴を学習します。

関連作品1件

1.1  軽量モデル

軽量物体検出に関する現在の研究は、主にモデルのネットワーク構造を対象としています。国内外の学者は、ポイントバイポイント畳み込みとグループ畳み込みを導入することで計算量を削減し、Mobilenet[7]、GhostNet[8]、ShuffleNet[9]など、優れたパフォーマンスを備えた一連の軽量ネットワーク モデルを提案しました。意味特徴情報の損失を引き起こしやすいため、ネックネットワークでは、受容野間の情報集約を達成するために、さまざまな段階で抽出された特徴マップを再処理する必要があります。

1.2 コンテキストの融合

UAV画像では、大規模なカバーエリアには複雑で多様な背景が含まれることが多いのに対し、畳み込みニューラルネットワークは特徴抽出を行う際に現在の受容野のピクセルのみを対象とし、文脈上の意味情報や大域的な特徴を抽出することが困難です。アテンション メカニズムは、畳み込みアテンション [10] (畳み込みブロック アテンション モジュール、CBAM)、チャネル アテンション [11] (チャネル アテンション、CA)、座標アテンション (座標アテンション、CA) [12] などのコンピューター ビジョン タスクで優れたパフォーマンスを示しています。 ] やその他のメカニズムは、グローバルな情報を取得するのに良い結果をもたらします。

2 MBCF-YOLO アルゴリズム

図 1 に示すように、この論文で提案する MBCF-YOLO の全体的なフレームワークは、軽量バックボーン ネットワーク、コンテキスト融合ネック ネットワーク、およびマルチブランチ検出ヘッドの 3 つの部分に分割できます。

写真
図 1 MBCF-YOLO アルゴリズムのフレームワーク図

2.1  バックボーンネットワーク

実際には、バックボーン ネットワークがデータの特徴を抽出するための重要なコンポーネントであることが示されているため、軽量で効率的なバックボーン ネットワークを設計することが非常に重要です。図 2 に示すように、改良されたバックボーン ネットワークは、最初にステム サンプリング モジュールを通じてダブル ダウンサンプリングを実行し、各ブランチの出力はチャネル次元に従って結合され、特徴マップのチャネルはスタックされた深さの分離可能な畳み込みモジュールを通じて1つずつ操作され、同じ位置にある異なる特徴マップの情報が重み付けされます。 1×1 ポイントの畳み込みを使用することで、最終的な出力特徴マップがスケール縮小後にも十分なセマンティック情報を確実に保持できるようにします。

写真
図2 バックボーンネットワークの概略図

2.2   マルチブランチコンテキスト融合モジュール

COCO データセットでは、32 ピクセル × 32 ピクセルと 96 ピクセル × 96 ピクセルを基準として、画像内のオブジェクトを小、中、大のオブジェクトに分割します。したがって、UAV ターゲット検出データセット VisDrone2021 では、検出されたオブジェクトの 60% 以上が小さなターゲットです。

小さなオブジェクトのアルゴリズムの検出精度を向上させるために, この論文では, マルチブランチコンテキスト融合メカニズムを設計します. 中心となるアイデアは, ネックネットワークに小さなオブジェクト検出ブランチを追加し, より大きな特徴マップをサンプリングし, より小さなアンカーフレームを使用することです.検出し、バックグラウンドの影響を軽減します。同時に、簡素化されたネットワークの情報抽出能力を確保するために、検出精度を確保するための巡回セルフアテンション アルゴリズムをブランチに追加します。アルゴリズムの具体的なプロセスは次のとおりです。

入力特徴マップ TT に対して、1×1 畳み込み演算により特徴マップ Q、K、V をそれぞれ生成し、特徴マップの高さに応じて平坦化し、垂直方向の自己注意を計算し、次に、Q、K をそれぞれ垂直方向の固有行列 H として取得します。

写真

 。この 2 つを乗算すると、画素の垂直方向の特徴マップの相関度を示す H×H 行列が得られ、この行列に対してソフトマックス演算が行われ、垂直方向の注目度 AttH が求められます。 AttH、垂直方向が得られます 直線方向出力 OutH。上記の手順を繰り返して水平方向の OutW を取得し、チャネル次元の 2 方向の出力を集約し、元の特徴マップ T と結合して再重み付けされた特徴マップを取得します。

写真

要約すると、本論文で提案する RCA モジュールの計算プロセスをアルゴリズム 1 に示します。

アルゴリズム 1: RCA モジュール

入力: 特徴マップ T

出力: 重み付けされた特徴マップ

写真

# 特徴マップ T に従って Q、K、V を計算します 

写真

2.3損失関数

VisDrone2021 画像データセットでは、さまざまなカテゴリのオブジェクトの数のバランスが取れていません。たとえば、歩行者カテゴリのサンプル数は 79,337 ですが、三輪車カテゴリのサンプル数は 4,812 です。オリジナルの YOLOv5 損失関数は、このようなロングテール分布に対処することが困難です [13]。この問題を解決するために、この論文では、焦点損失関数 [14] と損失ランク マイニング [15] を組み合わせて、ネットワークがサンプルの少ないカテゴリにより多くの注意を払うようにします。

一般的なモデルでは、トレーニング損失の計算に式 (1) に示すクロスエントロピー損失関数がよく使用され、Focal Loss 損失関数は、式に示すように、それに基づいて変調係数 −α(1−p)γ を導入します。 (2) 図に示すように、γ は焦点パラメータ、α は補正パラメータであり、全損失に対する陽性サンプルと陰性サンプルの共通の重みを制御するために使用されます。つまり、分類しやすいサンプルの重みを減らすことにより、モデルは、トレーニング中に分類が難しいサンプルにさらに重点を置くことが推奨されます。

写真

(1)

写真

(2)

単段ターゲット検出モデルの場合、トレーニング損失は主に 3 つの部分で構成されます: ① 検出フレームと対応するオブジェクトのキャリブレーション分類が正しいかどうかを評価するために使用される分類損失 Clsloss; ② 正と負を区別するために使用される信頼損失 Objlossサンプル ; ③測位損失 Boxloss、予測フレームと実際のフレーム間の誤差を計算するために使用されます。式(3)に示すように、本論文ではクロスエントロピー損失関数によって得られるカテゴリ損失を使用します。

写真

そして自信喪失

写真

焦点損失関数によって計算されます。困難なサンプルを採掘するモデルの能力を向上させるために、信頼性の損失

写真

さらに、ロスランクマイニング戦略が採用されています。式 (4) に示すように、各検出ヘッド ブランチによって取得された画像サンプルを平坦化した後、信頼損失値が異なるベクトルに結合され、損失値が並べ替えられ、上位 K が最大の損失が選択されます。これらの検出結果はトレーニング プロセス中に選択され、残りの検出値はフィルタリングされ、最終的な損失は式 (5) に示されます。

写真

(3)

写真

(4)

写真

(5)

MBCF-YOLO は、首のネットワーク内の小型および微小ターゲットを検出するためにマルチブランチ検出ヘッドを追加するため、改善された損失関数がトレーニング段階でマルチブランチ検出ヘッドに適用され、4 つの異なるスケールの特徴マップに適しています。検出オブジェクト。

3. 実験と結果の分析

3.1  データセット

この論文では、VisDrone2021 データセット [15] を使用して、提案された MBCF-YOLO アルゴリズムの総合的なパフォーマンスを検証します。データセットには合計 8,629 枚の画像が含まれており、画像の種類は歩行者、自転車、人物、自動車、トラック、オープン三輪車、三輪車、バン、オートバイ、バスの 10 種類です。データセットの配分比率は、トレーニングセットが 6471、検証セットが 548、テストセットが 1610 です。

3.2  実験環境

この論文の実験は Windows 10 X64 オペレーティング システムで実行され、CPU は Intel i9 [email protected]、GPU は NVIDIA RTX3090@24GB、メモリは 32​​GB、言語環境は Python 3.8.5、トレーニングは深層学習フレームワーク Pytorch 1.8.0 の下で実行されます。具体的なトレーニング パラメーターは次のように設定されます。トレーニング中の入力画像サイズは 640×640、バッチ サイズ (Batchsize) は 16、モデルの過学習を防ぐため、トレーニング ラウンド数 (Epoch) は 100、そして最適化手法は確率的勾配降下法 (SGD) です)、初期学習率は 0.01、データ強化にはモザイク演算が使用されます。

3.3  評価指標

実験ではモデル性能の評価指標としてmAP、モデル推論速度GFLOPSなどを利用します。このうちmAP値とは、多クラスターゲット探知における各クラスの正解率と再現率に応じて求められる平均的な精度指標を指し、ターゲット探知タスクの総合的な評価指標となります。

3.4  実験結果の解析

(1) ネットワークモデル比較実験

この論文で提案する MBCF-YOLO アルゴリズムの総合的なパフォーマンスをより適切に比較するために、同様のサイズの 5 つのネットワーク モデル (YOLOv5-Nano、YOLOX-Tiny、YOLOv7-Tiny、Faster R-CNN-1xFPN、RetinaNet-ResNet18) が選択されています。比較のために、実験の最終結果を表 1 に示します。

写真
表 1 さまざまなネットワークのパフォーマンスの比較

結果は、VisDrone2021 データセットには多数の小型および微小ターゲットが含まれているため、RetinaNet-Resnet18 などの従来の単一段階ターゲット検出アルゴリズムのパフォーマンスがあまり良くなく、テスト セットの mAP 値がわずかであることを示しています。 17.7%。アンカーフリーメカニズムを使用した YOLOX-Tiny アルゴリズムは、テストセットで 16.8% の mAP 値を持ち、小型および微小なターゲットに対する検出効果は平均的です。YOLOv7-Tiny アルゴリズムはモデル スケーリングなどの強化されたメカニズムを使用しているため、検出精度は最も高くなりますが、その優れたパフォーマンスにはより高い推論速度も必要です。これに対し、本論文で提案する MBCF-YOLO アルゴリズムは、推論速度がわずか 2.9GFLOPs の場合でも mAP 値が 22.3% となり、パラメータ量、計算量、検出精度のバランスが取れています。

(2) アブレーション実験

この論文で提案した各モジュールの実際の機能を検証するために、この論文では6つのアブレーション実験グループを設定しました。具体的な設定の詳細は次のとおりです: 実験グループ 1 は、単純化されたネットワーク構造後の元の YOLOv5 モデルである制御ベースラインとして使用されます; 実験グループ 2、3、および 4 は単一モジュールの比較実験であり、損失ランク マイニングが追加されます実験 1. 機能、RCA モジュール、および小型ターゲット検出ブランチに基づいて、実験グループ 5 は小型ターゲット検出ブランチの追加に基づいて RCA モジュールを統合し、実験グループ 6 は改善された損失関数を追加し続け、最終結果を示します。表 2 にあります。

写真
表 2 アブレーション実験グループの性能比較

1) 損失関数改善の解析

表のデータから、損失関数を改善してもモデルの精度が大幅に向上するわけではなく、その効果は主に最適化されたモデルのトレーニング プロセスにあることがわかります。図 3 は、実験グループ 2 (図 3a)) と実験グループ 1 (図 3b)) の間の損失削減の比較チャートです。改善された損失ランク マイニングは主に信頼損失 Objloss に作用するため、図 3b) の Objloss の曲線はは初期段階にあります。勾配降下プロセスは比較的速く、その後の減少は比較的スムーズです。

写真
図3 損失低減効果の比較図

2) RCAモジュールの性能解析

RCA モジュールを追加した後、実験グループ 3 のパフォーマンスが大幅に向上しました。このモジュールの機能をさらに分析するために、本稿では、異なる推論段階での実験グループ 1 と実験グループ 3 の特徴マップを視覚化します。図 4 に示すように、モデルのバックボーン ネットワーク ステージ (ステージ 0 とステージ 1) では、2 つの特徴マップと画像の浅い特徴 (色、エッジなど) の間に大きな違いはありません。抽出することができます。しかし、特徴抽出の後半段階では、RCA モジュールを追加した実験グループ 3 は、多くの特徴情報を失った実験グループ 1 と比較して、画像の高レベルの意味論的特徴をより適切に抽象化できます (ステージ 4) )。

写真
図 4 視覚的な比較表

3) 小型ターゲット検出分岐のパフォーマンス解析

小さなターゲット検出ブランチの追加による実験グループ 4 のパフォーマンスの向上が最も明白であり、このモジュールがモデルの精度に大きな寄与率を持っていることを示しています。図 5 は、同じ入力画像に対する実験グループ 4 と実験グループ 1 の検出結果を示しており、小さなターゲット検出ブランチの追加により、モデルの小型および微小ターゲットの検出能力が向上していることがわかります。

写真
図5 小型物体の検出結果の比較

図 6 はアブレーション実験の PR 曲線です. 実験グループ 5 と 6 は、上記のモジュールを段階的に追加した後でも同等の性能向上を達成できませんでした. これはモデル自体の構造上の限界によるものであり、性能向上には限界があります. しかし、最新のターゲット検出ネットワーク モデルを使用した後、mAP 値はほぼ 2 倍になり、このホワイト ペーパーの作業の有効性がさらに検証されました。

写真
図6 PR曲線比較表

(3) 実機アプリケーション

この論文で提案したアルゴリズムの実際の効果を検証するために、図 7 に示す実際のマシン プラットフォーム上でモデルを検証します。まず、OPENVINO 導入ツールを通じて Intel J1900 産業用制御プラットフォームに適用し、Intel NCS コンピューティング能力拡張デバイスは、これを加速するために使用されます。ビデオは、Qt フロントエンド インターフェイスを通じてリアルタイムで収集および表示されます。最終的な効果は、図 8 に示されています。

写真
図7 実機実験プラットフォーム

写真
図8 実機走行効果の比較

図 8b) は、元の YOLOv5s ネットワーク モデルの実行結果であり、その FPS 値はわずか 11 です。この論文で提案されている MBCF-YOLO アルゴリズムの FPS 値は 23 であり、最適化されたアルゴリズムの実行速度が実際のアプリケーション要件を満たすことができることを示しています。

4 結論

この論文では、リアルタイム UAV 検出のための空対地物体検出アルゴリズム MBCF-YOLO を提案します。このアルゴリズムは、まずバックボーン ネットワークを最適化および改善して実行速度を向上させ、検出精度を確保するために、ネック ネットワーク層に小さなオブジェクト検出ブランチと循環アテンション メカニズムを追加します。損失関数をさらに改善して、データセットの分布の不均衡の問題を解決します。アルゴリズムのパフォーマンスは VisDrone2021 データセットで検証されています。結果は、小さなターゲット検出ブランチがアルゴリズムのパフォーマンスを最も明らかに向上させていることを示しています。循環注意メカニズムと改善された損失関数も、検出精度に一定のプラスの影響を与えています。最後に、MBCF-YOLO アルゴリズムを実際に展開して、このメソッドの可用性をさらに検証します。

免責事項:公式アカウントに転載された記事や写真は、参考や議論のための非営利の教育および科学研究を目的としたものであり、彼らの見解を支持したり、その内容の信頼性を確認したりするものではありません。著作権は原著作者に帰属しますので、転載原稿に著作権等の問題があった場合は、速やかに削除のご連絡をお願いします。

「人工知能技術とコンサルティング」をリリース

おすすめ

転載: blog.csdn.net/renhongxia1/article/details/131779549