ディープ ラーニングの論文: Gold-YOLO: Gather-and-Distribute Mechanism とその PyTorch 実装による効率的なオブジェクト検出器

深層学習の論文: Gold-YOLO: 収集および分散メカニズムによる効率的なオブジェクト検出器とその PyTorch 実装
Gold-YOLO: 収集および分散メカニズムによる効率的なオブジェクト検出器
PDF: https://arxiv.org/pdf/2309.11331。 pdf
PyTorch コード: https://github.com/shanglianlm0525/CvPytorch
PyTorch コード: https://github.com/shanglianlm0525/PyTorch-Networks

1。概要

過去数年間で、YOLO ファミリのモデルはリアルタイムの物体検出の分野で主要な手法になりました。多くの研究では、アーキテクチャの変更、データの追加、新しい損失関数の設計によってベースラインをより高いレベルに押し上げています。ただし、Feature Pyramid Network (FPN) と Path Aggregation Network (PANet) によってこの問題はある程度軽減されましたが、以前のモデルにはまだ情報融合の問題があります。したがって、この研究では、畳み込みとセルフアテンション操作を通じて実装される高度な収集および配布メカニズム (GD メカニズム) を提案します。Gold-YOLO と呼ばれるこの新しく設計されたモデルは、マルチスケール機能融合機能を向上させ、すべてのモデル スケールにわたって遅延と精度の理想的なバランスを実現します。さらに、この記事では、YOLO シリーズに MAE スタイルの事前トレーニングを初めて実装し、YOLO シリーズ モデルが教師なし事前トレーニングの恩恵を受けることができるようにします。Gold-YOLO-N は、COCO val2017 データセットで 39.9% という優れた AP を達成し、T4 GPU で 1030 FPS を達成し、同様の FPS で 2.4 % のパフォーマンス向上を実現した以前の SOTA モデル YOLOv6-3.0-N を上回りました。
ここに画像の説明を挿入します

2 ゴールド-YOLO

ここに画像の説明を挿入します

2-1 予選

YOLOシリーズの中間層構造は従来のFPN構造を採用しており、マルチスケール機能融合のための複数の分岐が含まれています。ただし、これは隣接するレベルの機能を完全に統合するだけであり、他のレベルからの情報は間接的かつ「再帰的」にのみ取得できます。
ここに画像の説明を挿入します
従来の FPN 構造には、情報送信プロセス中に大量の情報が失われるという問題がありました。これは、層間の情報のやり取りが中間層によって選択された情報に限定され、選択されなかった情報は送信プロセス中に破棄されるためです。この状況により、特定のレベルの情報は隣接するレイヤーのみを完全に支援できますが、他のグローバル レイヤーにはあまり役に立たないという結果になります。したがって、情報融合の全体的な有効性は制限される可能性があります。
送信プロセス中の情報の損失を避けるために、この論文では、元の再帰的方法を放棄し、新しい「収集および配布」メカニズム (GD) を採用します。このメカニズムでは、統合モジュールを使用して、すべてのレベルから情報を収集および融合し、それをさまざまなレベルに配布します。このようにして、著者は従来の FPN 構造に固有の情報損失の問題を回避するだけでなく、遅延を大幅に増加させることなく中間層の情報融合機能の一部を強化します。

2-2 下段収集配布ブランチ 下位収集配布ブランチ

出力 B2、B3、B4、および B5 特徴は、融合のためにバックボーン ネットワークから選択され、小さなターゲット情報を保持した高解像度特徴が得られます。
ここに画像の説明を挿入します

低段階特徴アライメント モジュール (低段階特徴アライメント モジュール):低段階特徴アライメント モジュール (Low-FAM) では、平均プーリング (AvgPool) 操作を使用して入力特徴をダウンサンプリングし、統一されたサイズを実現します。フィーチャのサイズをグループ内の最小フィーチャ サイズに変更する(RB 4 = 1/4 R) (R_{B4} = 1/4R)RB4 _=1/4 R )、整列された特徴F align F_{align}F揃っ_ _ _低次特徴アライメント技術により、情報の効率的な集約が保証されると同時に、変換モジュールによる後続の処理の計算の複雑さが最小限に抑えられます。その中からRB 4 R_{B4}を選択しますRB4 _特徴量調整の目標サイズは、主に、大きな計算遅延を引き起こすことなく、より多くの低レベル情報を保持することに基づいています。

低段階情報融合モジュール (低段階情報融合モジュール):低段階情報融合モジュール (Low-IFM) 設計には、多層再パラメータ化畳み込みブロック (RepBlock) と分割演算が含まれています。具体的には、RepBlock はF align (channel = sum ( CB 2 , CB 3 , CB 4 , CB 5 ) ) F_{align} (channel= sum(C_{B2}, C_{B3}, C_{B4}, C_{ B5}))F揃っ_ _ _(チャンネル_ _ _=スムC _ _B2 _CB3 _CB4 _CB5 _))を入力としてF ヒューズを生成します (チャネル = CB 4 + CB 5 ) F_{fuse} (チャネル = C_{B4} + C_{B5})Fヒューズ_ _(チャンネル_ _ _=CB4 _+CB5 _ここで、中央のチャネルは、さまざまなモデル サイズに対応するために調整可能な値 (例: 256) です。RepBlock によって生成された特徴は、チャネル次元でF inj P 3 Finj_P3JFP3およびF inj P 4 Finj_P4JFP4 に基づいて、さまざまなレベルの機能と融合します。
ここに画像の説明を挿入します
情報注入モジュール (情報注入モジュール):特徴量F local F_{local}Fl oc a lおよびIFM によって生成されるグローバル インジェクション情報F inj F_{inj}F注射F inj F_{inj}で 2 つの異なる Conv を使用するF注射F globalembed F_{global_embed}をそれぞれ計算して取得します。Fグロバル_ _ _ _mb e dそしてF 行為 F_{act}Fアクト_ _。ただし、localembed F_{local_embed}Fロクアル_ _ _mb e d次に、Conv to F local F_{local}を使用します。Fl oc a l計算された。融合機能F out F_{out}Fあなた_注意メカニズムを通じて計算されます。F ローカル F_{ローカル}以来Fl oc a lF グローバル F_{グローバル}Fグローバル_ _ _ _平均プーリングまたは双線形補間を使用したF inj F_{inj}間のサイズ差F注射Fの次元globalembed F_{global_embed}Fグロバル_ _ _ _mb e dそしてF 行為 F_{act}Fアクト_ _適切な位置を確保するためにスケールを調整します。RepBlock は、情報をさらに抽出して融合するために、各アテンション フュージョンの最後に追加されます。
ここに画像の説明を挿入します

2-3 高段集配分岐

高レベルのグローバル特徴調整モジュール (High-GD) は、低レベルのグローバル特徴調整モジュール (Low-GD) によって生成された特徴 {P3、P4、P5} を融合します。
ここに画像の説明を挿入します
ハイステージ フィーチャ アライメント モジュール: High-FAM は avgpool で構成され、入力フィーチャの次元を均一なサイズに削減するために使用されます。具体的には、入力フィーチャのサイズが { RP 3 R_{P3}の場合 RP3 _RP 4 R_{P4}RP4 _RP 5 R_{P 5}RP5 _}、avgpool は、特徴サイズを特徴グループ内の最小サイズに縮小します ( RP 5 R_{P5}RP5 _=1/8R)。変換モジュールは高レベルの情報を抽出するため、プーリング操作により情報の集約が容易になり、変換モジュールの後続のステップの計算要件が軽減されます。

高段階情報融合モジュール (高段階情報融合モジュール):高段階情報融合モジュール (High-IFM) には、トランスフォーマー ブロックと 3 つのステップで構成されるセグメンテーション操作が含まれています。 (1) トランスフォーマー ブロックを使用して、 High-FAM から派生したF を派生 align F_{align}F揃っ_ _ _組み合わせると、 F ヒューズ F_{fuse}になります。Fヒューズ_ _(2) Conv1×1演算によるFヒューズF_{fuse}の変換Fヒューズ_ _チャネル数を合計したもの ( CP 4 C_{P4}CP4 _CP5C_{P5}CP5 _)。(3) スプリット操作により、F ヒューズ F_{fuse}Fヒューズ_ _チャネル次元に沿ってF inj N 4 F_{inj_N4}に分割FjN4 F i n j N 5 F_{inj_N5} FjN5、現在のレベルの機能と融合するために使用されます。

ここに画像の説明を挿入します
Transformer fusion モジュールは、複数の積層されたトランスで構成され、トランス ブロックの数は L 個です。各変換ブロックは、マルチヘッド アテンション ブロック、フィードフォワード ネットワーク (FFN)、および残差接続で構成されます。マルチヘッド アテンション ブロックは LeViT と同じ設定で構成され、キー K とクエリ Q のヘッド ディメンションとして 16 チャネル、値 V のヘッド ディメンションとして 32 チャネルを使用します。推論プロセスを高速化するために、レイヤー正規化操作がバッチ正規化に置き換えられ、すべての GELU アクティベーション関数が ReLU に置き換えられます。変換ブロックのローカル接続を強化するために、2 つの 1x1 畳み込み層の間に深さ畳み込み層が追加されます。同時に、速度と計算コストのバランスを取るために、FFN の拡張係数は 2 に設定されます。

情報注入モジュール:高レベルのグローバル機能調整モジュール (High-GD) の情報注入モジュールは、低レベルのグローバル機能調整モジュール (Low-GD) の情報注入モジュールと同じです。高度な段階では、ローカル特徴量 (Flocal) は Pi に等しいため、式は次のようになります。
ここに画像の説明を挿入します

2-4 レイヤ間情報フローの強化 レイヤ間情報フローの強化

パフォーマンスをさらに向上させるために、YOLOv6 の PAFPN モジュールからインスピレーションを得た Inject-LAF モジュールが導入されました。このモジュールは射出モジュールの拡張バージョンであり、射出モジュールの入力位置に追加される軽量隣接層融合 (LAF) モジュールが含まれています。速度と精度のバランスを取るために、LAF 低レベル モデルと LAF 高レベル モデルの 2 つの LAF モデルが設計されており、それぞれ低レベル インジェクション (2 つの隣接するレイヤーの特徴を結合する) と高レベル インジェクションに使用されます。注入 (隣接するレイヤーのフィーチャをマージする)。フィーチャ)。それらの構造を図 5(b)に示します。さまざまなレベルの特徴マップがターゲット サイズと確実に一致するように、実装内の 2 つの LAF モデルは、共一次補間 (小さすぎるアップサンプリング特徴)、平均プーリング (大きすぎるダウンサンプリング特徴)、および 1x1 畳み込みの 3 つの演算子のみを使用します。 (ターゲットチャンネルとは異なる機能を調整します)。モデル内で LAF モジュールと情報注入モジュールを組み合わせることで、精度と速度の関係のバランスが効果的に取れます。簡素化された操作を使用することにより、異なる層間の情報フロー パスの数を増やすことができ、それによって待ち時間を大幅に増加させることなくパフォーマンスを向上させることができます。
ここに画像の説明を挿入します

3 実験

ここに画像の説明を挿入します
ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/shanglianlm/article/details/133163439