YOLOv8 に基づく安全ヘルメット検出システム (3): DCNv2 に基づいて最適化された DCNv3 変形可能畳み込み、動作検出を支援 | CVPR2023 InterImage

 目次

 1.Yolov8の紹介

2. 安全帽子データセットの紹介

3.インターンイメージ紹介

4. トレーニング結果の分析


 1.Yolov8の紹介

         Ultralytics YOLOv8 は、Ultralytics が開発した YOLO ターゲット検出および画像セグメンテーション モデルの最新バージョンです。YOLOv8 は、これまでの YOLO の成功を基盤とし、パフォーマンスと柔軟性をさらに向上させるための新機能と改善を導入した最先端の最先端 (SOTA) モデルです。大規模なデータセットでトレーニングでき、CPU から GPU まで、さまざまなハードウェア プラットフォームで実行できます。

具体的な改善点は以下の通りです。

  1. Backbone : CSP のアイデアを引き続き使用していますが、YOLOv5 の C3 モジュールが C2f モジュールに置き換えられ、さらなる軽量化が実現されています。同時に、YOLOv8 では YOLOv5 や他のアーキテクチャで使用されている SPPF モジュールが引き続き使用されています。

  2. PAN-FPN : YOLOv8 が依然として PAN の考え方を使用していることは間違いありませんが、YOLOv5 と YOLOv8 の構造図を比較すると、YOLOv8 は YOLOv5 の PAN-FPN アップサンプリング段階での畳み込み構造を削除していることがわかります、C3 も削除されます。モジュールは C2f モジュールに置き換えられます。

  3. 分離頭: 何か違う匂いがしますか? はい、YOLOv8 は分離ヘッドに移行します。

  4. アンカーフリー: YOLOv8 は以前のアンカーベースを放棄し、アンカーフリーのアイデアを使用しました。

  5. 損失関数: YOLOv8 は、VFL 損失を分類損失として使用し、DFL 損失 + CIOU 損失を分類損失として使用します。

  6. サンプル マッチング: YOLOv8 は、以前の IOU マッチングまたは一方的な割合割り当て方法を放棄し、代わりに Task-Aligned Assigner マッチング方法を使用します。

フレームワーク図はリンクで提供されています: YOLOv8 モデル構造の概要 · Issue #189 · Ultralytics/ultralytics · GitHub

2. 安全帽子データセットの紹介

データセットのサイズは 3241 画像、train:val:test は 7:2:1 としてランダムに割り当てられ、カテゴリ: hat

 

3.インターンイメージ紹介

論文: https://arxiv.org/abs/2211.05778

代価:GitHub - OpenGVLab/InternImage: [CVPR 2023 ハイライト] InternImage: 変形可能な畳み込みを使用した大規模ビジョン基盤モデルの探索

  理論的な部分については、Zhihu: CVPR2023 ハイライト | 学者モデルが COCO ターゲット検出を支配し、研究チームの解釈が公開 - Zhihuを参照してください。 

      大規模なコアに焦点を当てた最近の CNN ソリューションとは異なり、InterImage はコア操作として変形畳み込みを使用します(下流のタスクに必要な有効受容野を備えているだけでなく、入力およびタスクの適応型空間ドメイン集約機能も備えています)。提案されたスキームは、従来の CNN の厳密な帰納的バイアスを軽減し、同時により強力でロバストな表現能力を学習できます。ImageNet、COCO、ADE20K などのタスクに関する実験により、提案されたソリューションの有効性が検証されました。注目すべき点は、 InternImage-H が COCO test-dev で 65.4mAP の新記録を達成したことです。 

InterImage は、(1) DCNv2 オペレーターに基づく共有投影重み、マルチグループ メカニズム、およびサンプリング ポイント変調を導入する DCNv3 オペレーターを含むオペレーターとモデル構造を再設計することにより、畳み込みモデルのスケーラビリティを向上させ、誘導性バイアスを軽減します。

(2) モデル構築の基本モジュール単位としてアドバンストモジュールを統合したベーシックモジュール

(3) モジュールのスタッキング ルール。モデルを拡張する際に、モデルの幅、深さ、グループの数、その他のハイパーパラメータを標準化します。

研究者は、DCNv2 オペレーターをベースに DCNv3 オペレーターを再設計、調整、提案し、具体的には以下の部分を改善しました。

(1) 共有投影の重み。従来の畳み込みと同様に、DCNv2 のさまざまなサンプリング ポイントには独立した投影重みがあるため、パラメータ サイズはサンプリング ポイントの総数と線形に関係します。パラメータとメモリの複雑さを軽減するために、分離可能な畳み込みのアイデアを利用し、位置に依存しない重みを使用してグループ化重みを置き換え、異なるサンプリング ポイント間で射影重みを共有し、すべてのサンプリング位置の依存関係が保持されます。

(2) 複数のグループのメカニズムを導入します。マルチグループ設計は、グループ化畳み込みで最初に導入され、Transformer のマルチヘッド セルフ アテンションで広く使用されており、適応空間集約と組み合わせて、機能の多様性を効果的に向上させることができます。これに触発されて、研究者は空間集計プロセスをいくつかのグループに分割し、各グループは独立したサンプリング オフセットを持ちます。それ以来、単一の DCNv3 レイヤーの異なるグループが異なる空間集約パターンを持ち、その結果、機能の多様性が豊かになりました。

(3) サンプリングポイント変調スカラー正規化モデル容量が拡張されたときの不安定性の問題を軽減するために、研究者らは正規化モードをサンプルごとにソフトマックス正規化に設定し、これにより大規模モデルのトレーニングプロセスがより安定するだけでなく、すべてのサンプリング ポイントのモデル、接続関係。

 

ソース コードの詳細については、次を参照してください。ポイント増加アーティファクト: Yolov8 が CVPR2023 InternImage を導入: 新しいメカニズムの挿入、DCNv3 の拡張、ポイント増加に貢献、COCO 新記録 65.4mAP! -CSDN ブログ

4. トレーニング結果の分析

訓練結果は以下の通りです。

[email protected] 0.897 が 0.914 に増加

おすすめ

転載: blog.csdn.net/m0_63774211/article/details/133543501