ヨロエス

研究者らは、シンプル、高速、効率的なネットワークであるYOLO-Sを提案しました。これは、バイパスとカスケードを介したスキップ接続を備えた小さな特徴抽出器と、ネットワーク全体での特徴の再利用を容易にし、低レベルの位置情報をより意味のある高レベルの情報と組み合わせるためにパススルー層の再形成を利用します。

小さな物体の検出は、特にモバイルまたはエッジ アプリケーション向けの高速かつ正確なソリューションを求める場合、依然として困難な課題です。次の共有では、何人かの研究者が、シンプルで高速かつ効率的なネットワークであるYOLO-Sを提案しました。これは、バイパスとカスケードを介したスキップ接続を備えた小さな特徴抽出器と、ネットワーク全体での特徴の再利用を容易にし、低レベルの位置情報をより意味のある高レベルの情報と組み合わせるためにパススルー層の再形成を利用します。

航空画像における小さな物体の検出は、今日の注目の研究テーマとなっています。実際、ドローンなどのデータ対応テクノロジーの最近の出現は、カメラの軸、航空機の高さ、種類に応じて、広範かつほぼ無制限の数のユーザーを満足させる、幅広い顧客ベースに費用対効果の高いソリューションを提供します。使用済みフィルムの必要性。

さらに、衛星やドローンのセンサーから公的に利用できる車両データの利用可能性が高まっているため、この分野の研究が促進されています。しかし、画像内の車両の低解像度、小さな物体の貧弱な特徴、車両のタイプ、サイズ、色のばらつき、乱雑な背景や不穏な大気要因の存在は、依然として畳み込みニューラル ネットワークの車両検出率に課題をもたらしています。

さらに、輸送用コンテナ、建物、道路標識などの紛らわしい物体の存在により、誤検知の可能性が高まる可能性があります。さらに、精度と遅延の間の合理的なトレードオフが必要です。主流のオブジェクト検出器はメモリを大量に消費し、通常は集中型の高性能プラットフォームでのみ実行可能です。特に、2 段階の検出器はリアルタイム検出には適していませんが、1 段階の検出器は強力なリソースでのみリアルタイムのパフォーマンスを提供します。それらのどれも、小さな物体の検出に十分に適合していません。さらに、多くの産業用アプリケーションでは、データ処理コストの削減、高速化、リモート サーバーとのデータ交換の信頼性の低さ、またはセキュリティとプライバシーへの懸念から、データ ソースに近いエッジ デバイス上に CNN をローカルに展開する必要がありますが、通常はハードウェア リソースが限られているという特徴があります。パフォーマンス、コストなどの点で、GPU は含まれません。したがって、小さなオブジェクトに対しても十分な精度を維持しながら、高速かつ軽量の CNN が必須となります。Tiny-YOLOv3 は、バックボーンの特徴抽出が不十分で出力スケールが粗いため、十分なパフォーマンスを保証できません。

他の研究活動では、精度とスピードを引き換えにしています。「畳み込みニューラルネットワークに基づく航空リモートセンシング画像の飛行機・船舶検出に関する研究」では、DOTAにおいて受容野を縮小するためにYOLOv3に4番目の出力サイズ104×104を追加しました(航空画像における物体設計に関するデータ3%)推論が遅くなるにもかかわらず、mAP の改善はセットに基づいて得られます。YOLOv3 は主に 52×52 のスケールの小さなターゲットを検出します。[.In Proceedings of the International Conference on AI and Big Data Application] は、52×52 と 104×104 の 2 つの出力に基づく YOLO-E を提案し、ネットワークの深さを減らすために双方向残差サブモジュールを実装しました。また、和集合 (IoU) メトリックを GIoU に置き換え、YOLOv3 損失関数に新しい項 1-GIoU を追加することで、オブジェクトの位置に対する感度も向上します。VEDAI では、91.2% の mAP を達成します。これは、YOLOv3 のほぼ 5 分の 1 の精度ですが、6.7% 遅くなります。[カスケード畳み込みニューラル ネットワークに基づく航空画像における堅牢な車両検出] では、VGG16 アーキテクチャに基づくカスケード検出器が提案されており、VEDAI およびミュンヘン データセットでの Faster R-CNN よりも優れた性能を発揮しますが、推論速度は 20 ~ 30% 遅くなります。さらに、低解像度の航空画像では、外観がぼやけて背景と類似しているため、車両から意味のある特徴を抽出することがさらに困難になります。[Joint-SRVDNet: 「超解像度と車両検出ネットワークの共同学習」では、2 つの超解像度ネットワークと検出ネットワークを共同学習することで、超解像度画像でより意味のあるオブジェクトとより高い知覚品質を実現でき、それが検出の精度につながることが実証されています。タスクが改善され、低解像度航空画像のパフォーマンスは、対応する高解像度画像を入力した最先端の手法のパフォーマンスに近づきます。この問題を解決するために、超解像および車両検出の共同ネットワーク (Joint SRVDNet) が提案されています。これは、2 つの相互に関連する超解像および検出タスクの補完的な情報を利用します。共同 SRVDNet は、2 つの主要モジュールで構成されています。1 つはアップサンプリング係数 4 の画像超解像度用のマルチスケール MsGAN、もう 1 つは車両検出用の YOLOv3 です。具体的には、著者らは、2 つのネットワークの共同学習により、超解像度画像でより意味のあるオブジェクトとより高い知覚品質が可能になり、その結果、検出タスクの精度が向上し、低解像度が改善されることを実証しています。高解像度航空画像のパフォーマンスに近いものです。対応する高解像度航空画像によって提供される既存の最先端の方法に加えて。

フレームワーク詳細分析

研究者らは、WESCAM MX-15 EO/IR イメージング システムによって送信される、1920 × 1080 解像度の航空フル高解像度 (FHD) 画像で構成される新しい車両データベースである AIRES (ヘリコプター画像からの車両検出) を発表します。このシステムは、有人警察ヘリコプター AW169 の機首に取り付けられたマルチセンサー 4 軸ジャイロ安定化タレット システムに収容されています。ヘリコプターは約 300 メートルから 1000 メートルまでのさまざまな高度を飛行し、約 5 度から 80 度のさまざまなカメラ角度を使用します。これらの画像は、2019 年 6 月から 9 月にかけて、イタリア北部のロンバルディア州とノルウェーのオスロ市という 2 つの異なる地理的地域で撮影されました。このデータセットは、LabelImg ソフトウェア [36] で注釈が付けられた 1275 枚の画像で構成され、バン、トラック、自動車、オートバイ、人物、その他、ボート、公共の車の 8 つのカテゴリに分類された 15247 個の注釈付きグラウンド トゥルース (GT) オブジェクトが含まれています。統計は表 1 にまとめられています。大多数のカテゴリーは自動車ですが、人口の少ないカテゴリーはオートバイの 0.5%、その他のカテゴリーの 0.8% で、後者には建設現場で使用されるブルドーザーやその他の地上移動車両が含まれます。 AIRES データセットのいくつかの画像

この研究では、2 つの新しい YOLO に似たアーキテクチャ、YOLO-L と YOLO-S が提案されており、そのアーキテクチャを次の図に示します。

提案されている CNN の詳細は以下の表に示されており、各層の受容野と累積ストライドも報告されています。入力画像がデフォルトのサイズ 416×416 にサイズ変更されると仮定します。YOLO-L は推論速度が限られているため、高出力ハードウェアでのオフライン処理にのみ適しているため、主にベンチマークに使用されます。YOLO-S (YOLO-small) は、効率的で軽量かつ正確なネットワークをエッジ デバイスに展開するために提案されています。 

さらなる詳細は以下の表に示されており、提案されたネットワークがパラメータ数、ボリューム、BFLOP、およびアーキテクチャ特性の観点から他の最先端の検出器と比較されています。 

YOLO-S を例に挙げます。上の図 b に示すように、これは小型で高速なネットワークです。機能融合の概念と、図 c に示す浸透層の再形成を使用して、初期の微細なネットワークの正確な位置情報を統合します。 -粒状特徴マップ 低解像度の深い特徴マップからの意味のある意味情報と組み合わせます。基本的に、これは Darknet20 バックボーンに基づいており、特徴抽出段階で Tiny-YOLOv3 の最大プーリング層をインターリーブ畳み込み層と残差ユニットに置き換えることで、ダウンサンプリング中の情報損失を削減し、受容野を効果的に増加させます。7 つの残差ブロックで構成される軽量のバックボーンにより、小規模な検出オブジェクトに対する無駄な畳み込み演算も回避され、最終的なピクセルの特徴がわずか数個しか得られない可能性があります。さらに、YOLO-S は、単一出力スケール 52 のヘッド サブネットを採用しています。 ×52 と、推論を高速化するための 6 つの YOLO-L と YOLOv3 の代わりに、1×1 と 3×3 の 4 つの交互の畳み込み層だけで構成される小さな畳み込みセットです。これにより、出力受容野は 101×101 という大きさになり、ソース画像がネットワークで期待されるサイズに再スケールされた後、オブジェクトの周囲の意味のあるコンテキスト情報を取得するには十分です。

最後に、スキップ接続は、4x、8x、および 16x ダウンサンプリングされた特徴マップに対応するバックボーンの 8 層、13 層、および 19 層を横方向に接続することによって実装され、より堅牢な位置特定特徴を抽出します。このような特徴マップは異なる解像度を示すため、連結前に各次元を 52 × 52 の形状に適合させるために、アップサンプリングが 19 番目の層に適用され、再整形が 8 番目の層に適用されます。

全体として、YOLO-S のモデル サイズは YOLOv3 より 87% 小さく (YOLO-S のサイズは YOLOv3 の 7.9% にすぎません)、785 万 3000 個近くのトレーニング可能なパラメーターが含まれているため、Tiny-YOLOv3 よりも 10% も軽量です。さらに、上の表に示すように、34.59 BFLOP が必要ですが、これは SlimYOLOv3-SPP3-50 に近く、YOLOv3 のほぼ半分です。ただし、実験では、提案モデル YOLO-S が精度の点で YOLOv3 を上回っています。ワオソフト アイオット http://143ai.com

実験と視覚化

まず、データセットは、各クラスの層化サンプリングによってトレーニング (70%) とテスト (30%) にランダムに分割されます。次に、モデル学習中に利用可能な統計を強化するために、水平反転、サイズ変更、トリミング、明るさ、コントラスト、彩度、色相のランダムな歪みなどの標準的なデータ拡張技術が有効になりました。ただし、データ不足による過剰適合の問題は、特に少数派クラスの場合、データ拡張手法では効果的に対処できないことがよくあります。

したがって、公的に利用可能なデータベースで利用可能な知識を活用するために、いわゆる「転移学習」技術が採用されました。これは精度の点で特に有益です。予備的な特徴を抽出する基礎となるタスクが対象のターゲット タスクに類似すればするほど、達成可能な精度が高くなります。詳細は以下のとおりです。

AIRES データセットの実験 1 と実験 2 の比較結果 

(a) YOLOv3; (b) Tiny-YOLOv3; (c) [小型ターゲット検出のためのシンプルで効率的なネットワーク]、(d) YOLO-L。(e) YOLO-S  

おすすめ

転載: blog.csdn.net/qq_29788741/article/details/131913560