YOLO-MS: リアルタイム物体検出のためのマルチスケール表現学習の再考 (論文研究ノート)

YOLOv8 および RTMDet を超えるパフォーマンス、プラグ アンド プレイ

論文アドレス: https://arxiv.org/pdf/2308.05480.pdf

コードアドレス:記事内にgithubアドレスが記載されていますが、一時的に開けなくなります(2023.08.15)

まとめ

著者らは、YOLO-MS と呼ばれる効率的で高性能の物体検出器を物体検出コミュニティに提供することを目指しています。コア設計は、さまざまなカーネル サイズの畳み込みがさまざまなスケールでのターゲット検出のパフォーマンスにどのように影響するかに関する一連の研究に基づいています。研究結果は、リアルタイム物体検出器のマルチスケール特徴表現を大幅に強化できる新しい戦略です。著者の戦略の有効性を検証するために、著者はYOLO-MSと呼ばれるネットワークアーキテクチャを構築しました。著者らは、ImageNet などの大規模なデータセットや事前にトレーニングされた重みに依存せずに、MS COCO データセット上で YOLO-MS をゼロからトレーニングします。当社の YOLO-MS は、同じ数のパラメータと FLOP を使用しながら、YOLO-v7 や RTMDet などの最新のリアルタイム オブジェクト検出器よりも優れたパフォーマンスを発揮します。YOLO-MS の XS バージョンを例にとると、わずか 450 万の学習可能なパラメータと 8 億 7,000 万の FLOP で、MS COCO で 43% 以上の AP スコアを達成できます。これは、同じモデルの RTMDet よりも約 2% 以上高いです。サイズも さらに、作者の作品は、他の YOLO モデルのプラグ アンド プレイ モジュールとしても使用できます。一般に、著者の方法では、YOLOv8 の AP を 37%+ から 40%+ に大幅に増加させることができ、さらに使用するパラメータと FLOP を少なくすることができます。

1 はじめに

YOLO シリーズに代表されるリアルタイムの物体検出は、産業分野、特にドローンやロボットなどのエッジデバイスで重要な用途に使用されています。以前の物体検出器とは異なり、リアルタイム物体検出器は速度と精度の最適なバランスをとることを目指しています。この目標を達成するために、多数の研究が提案されています。第一世代の DarkNet から CSPNet、そして最近の拡張 ELAN に至るまで、リアルタイム物体検出器のアーキテクチャは、パフォーマンスの急速な向上とともに劇的な変化を遂げてきました。

優れたパフォーマンスにもかかわらず、さまざまなスケールでの物体を認識することは、リアルタイム物体検出器にとって依然として根本的な課題です。これにより、著者らは、表現力豊かなマルチスケールの特徴表現を学習するための強力なエンコーダ アーキテクチャを設計するようになりました。具体的には、著者らは、次の 2 つの新しい観点から、リアルタイムの物体検出のためのマルチスケール特徴のエンコードを検討しています。

  • ローカルな観点から、著者らは、シンプルだが効果的な階層型機能融合戦略を使用して MS ブロックを設計します。Res2Net に触発されて、著者は特徴抽出のために MS-Block に複数のブランチを導入しましたが、異なる点は、作者が大規模なカーネルの効率的な使用を達成するために深い畳み込みを備えた逆ボトルネック ブロックを使用したことです。

  • グローバルな観点から、著者は、ネットワークが深くなるにつれて、畳み込みのカーネル サイズを徐々に大きくすることを提案しています。著者は、浅い層で小さなカーネル畳み込みを使用して、高解像度の特徴をより効率的に処理します。一方、深層では、広範囲の情報を取得するために大規模なカーネル畳み込みを採用します。

上記の設計原則に基づいて、著者らは YOLO-MS と呼ばれるリアルタイム物体検出器を紹介します。YOLO-MS のパフォーマンスを評価するために、MS COCO データセットに対して包括的な実験を実施します。私たちのメソッドの堅牢なパフォーマンスを実証するために、他の最先端のメソッドとの定量的な比較も提供されます。図 1 に示すように、YOLO-MS は、計算パフォーマンスのバランスの点で、他の最近のリアルタイム物体検出器よりも優れています。

具体的には、YOLO-MS-XS は、わずか 450 万の学習可能なパラメータと 8 億 7,000 万の FLOP で、MS COCO 上で 43% 以上の AP スコアを達成しています。YOLO-MS-S と YOLO-MS はそれぞれ 46%+ と 51%+ の AP を獲得し、学習可能なパラメータはそれぞれ 810 万と 2,220 万でした。さらに、作者の作品は、他の YOLO モデルのプラグ アンド プレイ モジュールとしても使用できます。一般に、著者の方法では、YOLOv8 の AP を 37%+ から 40%+ に大幅に増加させることができ、さらに使用するパラメータと FLOP を少なくすることができます。

2 関連作品

2.1 リアルタイムの物体検出

2.2 マルチスケール特徴表現

この部分は飛ばしていますので、興味のある方はご自身で原文をお読みください

3 方法

3.1 マルチスケールビルディングブロック設計

CSP ブロックは、ステージレベルの勾配パスに基づいたネットワークであり、勾配の組み合わせと計算コストのバランスをとります。これは、YOLO ファミリで広く使用されている基本的な構成要素です。YOLOv4 および YOLOv5 のオリジナル バージョン、Scaled YOLOv4 の CSVoVNet、YOLOv7 の ELAN、RTMDet で提案された大規模カーネル ユニットなど、いくつかの亜種が提案されています。著者らは、元の CSP ブロックと ELAN の構造をそれぞれ図 2(a) と図 2(b) に示します。

前述のリアルタイム検出器で見落とされている重要な側面は、基本的な構成要素でマルチスケールの特徴をエンコードする方法です。強力な設計原則の 1 つは Res2Net です。これは、さまざまなレイヤーからの機能を集約してマルチスケール表現を強化します。ただし、この原則は、視覚認識タスク用の CNN ベースのモデルで効果的であることが証明されている大規模なカーネル畳み込みの役割を完全には調査していません。Res2Net に大規模なカーネル畳み込みを組み込む際の主な障害は、ビルディング ブロックが標準の畳み込みを使用しているため、カーネル畳み込みによって導入される計算オーバーヘッドです。著者の方法では、大規模なカーネル畳み込みの利点を享受するために、標準の 3 × 3 畳み込みを逆ボトルネック ブロックに置き換えることを提案しています。

これまでの分析に基づいて、著者らはMS-Blockと呼ばれる階層的特徴融合戦略を備えた新しいブロックを提案し、高速な推論速度を維持しながらマルチスケール特徴を抽出するリアルタイム物体検出器の能力を強化します。

MS-Block の具体的な構造を図 2(c) に示します。仮説はX\in R^{H \times W \times C }入力特徴です。1×1 畳み込みによる変換後、X のチャネル次元は n*C に増加します。次に、著者らは X を n 個の異なるグループに分割し、 として示し\左 \{ X_{i} \右 \}ますi\in 1,2,3,...,n計算コストを削減するために、著者は n を 3 に選択します。

他の各グループを除きX_{1}、他の各グループは で示される逆ボトルネック ブロック層を通過し、 をIB_{k \times k}(\cdot )取得することに注意してください。ここで、k はカーネル サイズを表しますY_{i}Y_{i}の数学的表現は次のとおりです。

この定式化によれば、作成者は逆ボトルネック ブロック層を に接続せずX_{1}、これをステージ間接続として作成し、前の層からの情報を保持します。最後に、著者らはすべての分割を連結し、1×1 畳み込みを適用してすべての分割間で相互作用し、それぞれが異なるスケールで特徴をエンコードします。この 1×1 畳み込みは、ネットワークが深くなるにつれてチャネル数を調整するためにも使用されます。

3.2 異種カーネル選択プロトコル

ビルディング ブロックの設計に加えて、著者はマクロの観点から畳み込みの使用についても調査します。以前のリアルタイム オブジェクト検出器は、異なるエンコーダ ステージで均一な畳み込み (つまり、同じカーネル サイズの畳み込み) を採用していましたが、著者らは、これがマルチスケールの意味情報を抽出するための最良のオプションではないと考えています。

ピラミッド構造では、通常、検出器の浅いステージから抽出された高解像度の特徴が、小さなオブジェクトの検出に使用される詳細なセマンティクスをキャプチャするために使用されます。代わりに、ネットワークのより深い段階からの低解像度の特徴が、大きなオブジェクトの検出に使用される高レベルのセマンティクスをキャプチャするために使用されます。著者がすべてのステージで統合された小さなカーネル コンボリューションを使用すると、深いステージの有効受容野 (ERF) が制限され、大きなターゲットのパフォーマンスに影響を与えます。各段階で大規模なカーネル畳み込みを導入すると、この問題の解決に役立ちます。ただし、大きな ERF を備えた大きなカーネルは、より広い領域をエンコードできるため、小さなオブジェクトの外側にノイズのある情報が含まれる可能性が高まり、推論速度が低下します。

この研究では、著者らは、より豊富なマルチスケール特徴を捕捉するのに役立つ、さまざまな段階での異種畳み込みを提案しています。具体的には、エンコーダの最初のステージでは最小のカーネル コンボリューションを採用し、最後のステージでは最大のカーネル コンボリューションを採用します。その後、作成者は、機能解像度の増加と一貫性を保つために、中間段階でカーネル サイズを徐々に増加させました。この戦略により、粒度の細かいセマンティック情報と粗粒度のセマンティック情報の両方の抽出が可能になり、エンコーダーのマルチスケール特徴表現機能が強化されます。

図3に示すように、著者はエンコーダの浅い段階から深い段階までkの値をそれぞれ3、5、7、9の値として割り当てます。著者らはこれを異種カーネル選択 (HKS) プロトコルと呼んでいます。

著者の HKS プロトコルは、浅い層に他の影響を与えることなく、深い層の受容野を拡張することができます。セクション 4 の図 4 は、著者らの分析を裏付けています。さらに、HKS は、より豊富なマルチスケール特徴のエンコードに役立つだけでなく、効率的な推論も保証します。

表 1 に示すように、高解像度の特徴に大規模なカーネル畳み込みを適用すると、計算オーバーヘッドが高くなります。ただし、著者の HKS プロトコルは、低解像度の特徴に対して大規模なカーネル畳み込みを採用しているため、大規模なカーネル畳み込みのみを使用する場合と比較して、計算コストが大幅に削減されます。

実際に、著者らは、HKS プロトコルを使用した YOLO-MS の推論速度が、深さ方向に分離可能な 3 × 3 畳み込みのみを使用した場合とほぼ同じであることを経験的に発見しました。

3.3 アーキテクチャ

図 3 に示すように、著者のモデルのバックボーンは 4 つのステージで構成されており、各ステージの後にはダウンサンプリングのためのストライド 2 の 3 × 3 の畳み込みが続きます。第 3 段階以降、RTMDet と同様に SPP ブロックを 1 つ追加しました。著者のエンコーダでは、著者は PAFPN をネックとして使用して特徴ピラミッドを構築します [31、35]。バックボーンのさまざまな段階から抽出されたマルチスケールの機能を融合します。Neck で使用される基本的な構成ブロックも、著者の MS ブロックです。この MS ブロックでは、高速推論のために 3 × 3 の深さ方向に分離可能な畳み込みが使用されます。

さらに、速度と精度のより良いバランスを達成するために、作成者はバックボーンのマルチレベル機能のチャネル深さを半分にしました。著者は、異なるスケールで 3 つの YOLO-MS バリアント (YOLO-MS-XS、YOLO-MS-S、YOLO-MS) を提供しています。さまざまなスケールでの YOLO-MS の詳細な構成を表 2 に示します。YOLO-MS の他の部分については、作成者は RTMDet と同じにしています。

4 実験

4.1 実験のセットアップ

実験設定では、実験で使用される機器、データセットなどについて説明します。

4.2 MSブロックの解析

このサブセクションでは、MS ブロックに対して一連のアブレーション分析を実行します。デフォルトでは、著者はすべての実験に YOLO-MS-XS モデルを使用します。

逆ボトルネック ブロック の著者は、MS ブロックの逆ボトルネック ブロックのチャネル拡張率 (r で示される) に関するアブレーション研究を実施しました。結果を表 3 に示します。

結果は、r = 2 で検出器がパフォーマンスと計算オーバーヘッドの間で最適なバランスを達成していることを示しています。また、チャネル拡張率は検出器の性能に大きく影響し、r = 2 と比較して、r = 1 の場合は 1.2 AP 性能が低下しますが、r = 3 の場合は 1 AP 性能が向上します。これは、逆ボトルネック ブロック内のチャネル拡張により、深さ方向に分離可能な畳み込みの表現能力が強化され、特徴の意味情報が強化されることを意味します。

ただし、r = 3 は最高のパフォーマンスを実現しますが、計算コストも高くなります。したがって、著者らは、高い計算効率を維持するために、以降のすべての実験でデフォルト設定として r = 2 を設定しました。

機能融合戦略 通常、MS-Block は加算を通じて隣接するブランチ間の機能を徐々に融合します。著者らは、特徴融合戦略の有効性を評価するためにアブレーション研究を実施しています。

結果を表 4 に示します。これは、モデルのパフォーマンスを向上させるにはブランチ間の特徴の融合が重要であることを示しています。特にYOLO-MSのAPスコアが+1.2%と大幅に向上しました。

MS レイヤーの数著者らは、N_{l}さまざまな数の MS レイヤー ( で示される) についての計算コストと推論速度も分析します。結果を表5に示す。

MS-Block 内の MS-Layer の数が YOLO-MS の速度に大きく影響することがわかります。たとえば、YOLO-MS-XS の場合、N_{l}パラメーターの数は、1 から 2 に増加するにつれて 25.8% 増加し、さらに 3 に増加すると 51.5% 増加します。

さらに、FLOP はそれぞれ 18.1% と 36.2% 増加しました。N_{l}= 2 と= 3の場合N_{l} 、推論プロセスの FPS もそれぞれ 9.2% と 16.6% 低下します。したがって、著者らはその後のすべての実験でN_{l}デフォルト設定として = 1 を使用しました。

アテンションのメカニズムは RTMDet と一致しており、著者らは最後の 1 × 1 畳み込み後に SE アテンションを使用してチャネル間の相関を捕捉します。著者らは、チャネルの注意力の効果を調査するために実験研究を実施しています。計算解析を表 6 に、性能を表 12 に示します。興味深いことに、アテンション メカニズムはパフォーマンスをわずかに向上させるだけですが、推論時間は短縮します。そのため、ユーザーは自分の状況に応じてチャンネルアテンションを使い分けることができます。

分岐の数 作成者の MS ブロックは、特徴入力を分割して複数の分岐に渡します。ただし、ブランチの数が増えると、MS レイヤーの数も増え、各ブランチのチャネル数も減ります。N_{b}枝の数( で示される)の影響を調査するために、著者らはアブレーション研究を実行しました。結果を表7に示す。興味深いことに、ブランチの数を直接増やすことが必ずしもパフォーマンスの向上につながるわけではありません。

特に、N_{b}= 3 の場合、YOLO-MS は 43.4% の AP で最高のパフォーマンスを達成します。これは、N_{b}= 2 よりも 1.2% 高く、N_{b}= 4 よりも 0.2% 高くなります。したがって、著者らは、その後のすべての実験でデフォルト設定として = 3 を使用しましたN_{b}

PAFPN モジュールのアブレーション分析 著者は PAFPN モジュールのアブレーション研究を実施しました。結果を表 9 に示します。PAFPNは他のYOLOモデルでも広く採用されている人気の構造です。著者は、著者の方法の有効性をさらに検証するために、YOLO-MS から PAFPN モジュールを削除します。

実験結果は、著者らの提案した方法が、計算コストをほとんど増加させることなく、事前に訓練された重みなしで PAFPN と同様のパフォーマンスを生成できることを示しています。

さらに、著者が提案した方法は、PAFPN を使用しない Baseline モデルよりも優れています。さらに、著者の方法は FPN モジュールと直交しています。著者らは、元の PAFPN と PAFPN-MS (MS-Block を備えた PAFPN) を比較しました。実験結果に示されているように、PAFPN-MS を備えた検出器は、わずか約 60% のパラメーターと約 80% の FLOP で、より優れたパフォーマンス (+0.2% AP) を達成しています。

画像解像度の分析 ここで、著者らは画像解像度とマルチスケール ビルディング ブロック設計の関係を調査する実験を実施します。著者らは、推論中にテスト時間拡張を適用して、画像 (320 × 320、640 × 640、および 1280 × 1280) にマルチスケール変換を実行しました。さらに、著者らはこれらの解像度を個別に使用してテストも実行しました。著者がトレーニングで使用した画像解像度は 640 × 640 であることに注意してください。結果を表10に示す。実験結果は一貫した傾向を示しています。画像解像度が増加すると、AP も増加します。ただし、解像度が低い画像でもより高い APl を達成できます。これにより、作成者の HKS プロトコルの有効性も検証されます。

他の YOLO モデル  作成者によって適用されたメソッドは、他の YOLO モデルのプラグアンドプレイ モジュールとして使用できます。著者の方法の一般化能力を実証するために、著者はこの方法を他の YOLO モデルに適用し、MS COCO データセットで包括的な比較を実行します。結果を表 11 に示します。YOLOv6 と YOLOv8 の AP スコアは、より少ないパラメーターと FLOP で、それぞれ 43.5% (+2.5%) と 40.3% (+3.1%) まで増加できます。

 4.3 HKSプロトコルの分析

このサブセクションでは、著者らはさまざまな畳み込みカーネル サイズ設定を調査することにより、HKS プロトコルの有効性を評価する実験を実施します。表記を簡略化するために、著者らは [ k_{1}, k_{2}, k_{3}, k_{4}] という形式を使用します。ここで、k_{i}は i 番目のステージの畳み込みカーネル サイズを示します。著者らは、3、5、7、9、11 と HKS の逆バージョン、つまり [9、7、5、3] を使用した均一畳み込みカーネル サイズ設定を研究しています。

表 8 に示すように、実験の結果から興味深い洞察が得られます。著者らは、単純に畳み込みカーネル サイズを増やすだけでは、必ずしもパフォーマンスが大幅に向上するとは限らないことを観察しています。ただし、HKS を使用すると、パフォーマンスが大幅に向上し (AP 43.4%)、他のすべての均一コンボリューション カーネル サイズ設定を上回ります。

さらに、ステージ内でコンボリューション カーネルを配置する順序も重要な役割を果たします。具体的には、浅いステージで大きなカーネルを使用し、深いステージで小さなカーネルを使用すると、HKS と比較してパフォーマンスが 0.9% AP 低下します。これは、浅い段階と比較して、深い段階では粗粒度の情報を効果的に捕捉するためにより大きな受容野が必要であることを示しています。

計算コストを考慮すると、HKS は計算オーバーヘッドが最小限であるという点で際立っています。これは、異なる畳み込みカーネル サイズの畳み込みを適切な位置に戦略的に配置することで、作成者がこれらの畳み込みの効率的な使用を最大化できることを示しています。

著者は、[5、7、9、11] と [3、7、11、15] という 2 つの新しい設定も使用します。結果を以下の表に示します。結果によれば、[3, 5, 7, 9] の設定がより低い計算コストでより良いパフォーマンスを達成することが直感的にわかります。

有効受容野解析 以前の研究では、深層畳み込みニューラル ネットワーク (CNN) の動作を理解するための指標として有効受容野 (ERF) の概念が導入されました。ERF は、フィーチャ表現の影響を受ける入力空間内の有効面積を測定します。ここで著者らは、ERF の概念をさらに活用して HKS の有効性を研究しています。

具体的には、著者らは、エンコーダのステージ 2、3、および 4 で寄与の高いピクセルに含まれる ERF の辺の長さを測定します。視覚的な比較を図 4 に示します。図4(a)に示すように、畳み込みカーネルサイズが増加するにつれて、すべてのステージのERFエリアも大きくなり、これは畳み込みカーネルサイズと受容野との間の正の相関関係を裏付けています。

さらに、浅いステージでは ERF エリアが他のほとんどの設定よりも小さくなりますが、深いステージではその逆になります。この観察は、このプロトコルが浅い段階を損なうことなく深い段階の受容野を拡大することを示唆しています。図 4(b) では、HKS が深部ステージで最大の ERF を達成しており、これにより大きな物体の検出が向上していることがわかります。

4.4 最先端技術との比較

CAM との視覚的比較 検出器が画像のどの部分に焦点を当てているかを評価するために、著者らは Grad-CAM を使用してクラス応答マップを生成しました。著者は、YOLOv6-tiny、RTMDet-tiny RTMDet、YOLOV7-tiny、YOLO-MS-XS のネック部分からクラス応答マップを生成し、MS COCO データセットから小、中、大のターゲットを含むさまざまなサイズの典型的な画像を選択しました。 。

視覚化の結果を図 5 に示します。YOLOv6-tiny、RTMDet-tiny、および YOLOV7-tiny は、群衆などの高密度の小さなオブジェクトを検出できず、オブジェクトの一部を無視します。対照的に、YOLO-MS-XS はクラス応答マップ内のすべてのターゲットに対して強い応答を示し、その優れたマルチスケール特徴表現能力を示しています。さらに、さまざまなサイズの物体と、さまざまな密度の物体を含む画像の両方に対する当社の検出器の優れた検出性能が強調されています。

定量的比較 著者らは、YOLO-MS と現在の最先端の物体検出器を比較します。

表 12 から、著者らは YOLO-MS が速度と精度の大幅なバランスを達成していることがわかります。2 番目に優れたマイクロ検出器である RTMDet RTMDet と比較すると、YOLO-MS-XS は 43.4% の AP を達成しており、これは ImageNet の事前トレーニング済みモデルを使用した場合より 2.3% 高いです。YOLO-MS-S は 46.2% の AP を達成し、YOLOv6 と比較してパラメータ サイズが半分になり、5.7% の AP 向上をもたらします。さらに、YOLO-MS は 51.0% の AP を示し、YOLOv6-M や YOLOv6-L などの大規模モデルであっても、同様のパラメーターと計算複雑さを備えた最先端の物体検出器を上回ります。結論として、YOLO-MS はリアルタイムの物体検出の有望なベースラインとして機能し、強力なマルチスケールの特徴表現機能を提供します。

おすすめ

転載: blog.csdn.net/athrunsunny/article/details/132306207