CNN は Transformer、Convnext の純粋な畳み込みアーキテクチャを超える: 2020 年代の ConvNet

視覚認識の急速な発展は、ビジョン トランスフォーマー (ViT) の導入から始まりました。ViT はすぐに CNN に取って代わり、最も人気のある画像分類モデルになりました。レイヤード トランスフォーマー (Swin Transformer) の提案と、さまざまなビジュアル タスクでの優れたパフォーマンスにより、トランスフォーマー モデルは非常に人気があります。しかし、He Kaiming の研究室の研究者によって再設計された CNN、つまり純粋な畳み込みネットワークの ConvNet は、CNN が無意味になっていないことを証明しています。
ここに画像の説明を挿入

この記事では ConvNet について紹介していますが、著者の ConvNet に対する無限の愛が伝わってきます。

概要

1920 年代にビジョン トランスフォーマー (ViT) が導入されると、畳み込みニューラル ネットワーク (CNN) を上回り、さまざまなコンピューター ビジョン タスクで非常に優れたパフォーマンスを発揮し、最も高度な画像分類モデルになりました。この論文では、著者は純粋な畳み込みニューラル ネットワーク (CovNext) を再設計し、標準の ResNet を「最新化」して変換器の設計を実現し、いくつかの主要コンポーネントを変更してモデルのパフォーマンスを向上させました。

1、はじめに

著者は、2020 年までの深層学習に対する畳み込みニューラル ネットワーク (CNN) の影響を簡単にレビューし、コンピューター ビジョン タスクで重要な役割を果たします。著者は、ViT は多数のデータ セットに適応できる大規模なモデルであり、分類分野で ResNet を大幅にリードできるため、うまく機能すると考えています。しかし、CV には分類タスクだけではなく、ほとんどの CV タスクでは、スライディング ウィンドウと完全な畳み込みが使用されます。同時に、著者は ViT の最大の問題の 1 つを指摘しました: ViT におけるグローバルな注意メカニズムの時間の複雑さは 2 次であり、大きな画像の場合、計算効率は非常に低くなります.
Swin Transformer の登場により、「ローカル ウィンドウ アテンション」のメカニズム、つまりスライディング ウィンドウのメカニズムが使用され、CNN のローカル情報抽出のメカニズムが依然として有効であることを示しています。 ConvNets が歴史から撤退しないこと。この論文では、著者は純粋な畳み込みニューラル ネットワーク、つまり ConvNext を設計し、その限界がどこにあるかを調べました。

2、ConvNet の最新化: ロードマップ

このパートでは、ResNet-50 から始めて、ResNet を「モダナイズ」するための一連の操作を研究し、ImageNet-1K 上の FLOPs と Acc の 2 つの指標を通じて、改善された操作が有効かどうかを検証します。下の図は、一連の操作の結果です。
ここに画像の説明を挿入

2.1 トレーニングテクニック

最終的なパフォーマンスは、ネットワーク構造の影響を受けるだけでなく、トレーニング プロセスによっても異なります。
1 つ目は、トレーニング スキルが DeiT に似たものになるように更新されたことです。作者はエポックを 90 から 300 に変更しました。オプティマイザー AdamW とデータ拡張技術 (Mixup、Cutmix、RandAugment、RandomErasing) と正則化スキーム (確率深度、ラベル スムージング) を使用して、ResNet-50 のパフォーマンスは 76.1% から 78.8% に向上しました。

2.2 マクロ設計

巨視的には、2 つの設計があります:
1.ステージの計算比率の変更.
Swin の階層設計に従って、ResNet-50 の計算速度を (3, 4, 6, 3) から (3, 3, 9, s3) に調整し、Acc From 78.8%から79.4%。
2.ステムを「Patchify」に変更
著者は ViT を模倣し、重複しない畳み込みを実行しました。4×4とストライド4のたたみ込みで動作し、Accは79.4%から79.5%に増加します。

2.3 ResNeXt-ify

ResNeXt のアイデアを使用して、FLOP と精度をトレードオフし、コアはグループ畳み込みです。著者は、深さ方向の畳み込み、つまり、畳み込みの数 = チャネルの数を使用します。ここで、ViT は深さ方向の conv とチャネル ミキシング用の 1x1 conv であり、空間次元での特徴融合も実行することも言及されています。MobileNet と Xception の両方が深さ方向を使用するため、FLOP を効果的に減らすことができます。チャネル数を 64 から Swin-T と同じ 96 に増やしたため、ネットワークのパフォーマンスは 80.5% に向上し、FLOP は 5.3G に増加しました。

2.4 逆ボトルネック

ここに画像の説明を挿入
Transformer で重要な設計は、MLP ブロックの隠れ次元が入力次元の 4 倍である反転ボトルネックを作成することです.
反転ボトルネックは MobileNetV2 で使用され、著者はそこからインスピレーションを得ました. 図に示すように、ボトルネックの構造は(b)のように変更され、パフォーマンスは80.5%から80.6%に改善されました。

2.5 大きなカーネルサイズ

Swin の最小カーネル サイズも ResNet カーネル サイズの 3 * 3 よりも大きいため、著者は大きなカーネル サイズも使用したいと考えています。
深さ方向の convlayer を上に移動.
Transformer を利用して、MSA ブロックは MLP レイヤーに事前条件を提供します. したがって、深さ方向の convlution レイヤーを上に移動した後、FLOP は 4.1G に減少し、Acc は 79.9% に低下します.
カーネル サイズを大きくする.
これらの準備を行うと、カーネル サイズを大きくする効果が大きくなります。カーネル サイズ = 3、5、7、9、11 で実験した後、カーネル サイズ = 7 を比較した後、これらの畳み込みカーネルの FLOP は基本的に同じであり、7×7 の効果が最高で、80.6% に達します。 ×3の効果はわずか79.9%。同時に、著者は強力な機能を持つ ResNet-200 などの大規模なモデルを作成しましたが、効果は大幅に向上しませんでした。最後に、著者は、これらのスキルはすべて ViT から借用されていることにも不満を漏らしました。

2.6 マイクロデザイン

マイクロ設計の変更のほとんどは、活性化関数正規化レイヤーの選択に焦点を当てて、レベルで行われます。
ここに画像の説明を挿入

ReLU を GELU に置き換える.
ReLU のパフォーマンスは非常に優れていますが、GELU は Google の BERT、OpenAI の GPT-2、および ViTs で使用されているため、著者は ReLU の代わりに GELU を使用することにし、Acc は変更されていません。

より少ない活性化関数.より少ない活性化関数
を使用して、Transformer から借りてきました図 4 に示すように、すべての GELU レイヤーが削除され、1*1 の間の 1 つだけが予約されます。

より少ない正規化レイヤー.より少ない正規化レイヤー
を使用して、引き続き Transformer から借用します

BN を LN に置き換える
BatchNorm は、ConvNets の重要なコンポーネントであり、収束を改善し、過剰適合を減らします。しかし、BN にはモデルのパフォーマンスに対する欠点もあります。それにもかかわらず、BN は依然としてさまざまなビジョン タスクで最良の選択です。Transformer で LN (Layer Normalization) を使用すると、良好なパフォーマンスが得られましたが、ConvNext ではわずかに改善されており、Acc は 81.5% です。

ダウンサンプリング レイヤーを分離する
ResNet では、3 * 3、ストライド = 2 畳み込み、および 1 * 1 変換スタード = 2 ショートカット接続を使用します。Swin では、別のダウンサンプリング レイヤーが使用され、2 つのステージごとに配置されます。したがって、著者は、2 * 2 畳み込み層とストライド = 2 の空間ダウンサンプリングを使用するように変更しました。正解率はSwin-Tの81.3%を上回る82.0%に向上。この調査では、分割ダウンサンプリング レイヤーを使用して、最終的なモデル ConvNeXt を作成します。ResNet、Swin、ConvNeXt のブロック構造比較を表 9 に示します。
ここに画像の説明を挿入

この時点で、著者の修正はすべて完了です。

3、ImageNet の経験的評価

この部分では、作成者は ConvNeXt-T/S/B/L などのさまざまな ConvNeXt バリアントを構築します。これは複雑さが Swin-T/S/B/L に似ています。より大きなモデル ConvNeXt-XL も、ConvNeXt のスケーラビリティをさらにテストするように設計されています。これらのバリアントは、各レイヤーのチャネルブロックが異なります以下に示すように:
ここに画像の説明を挿入

3.1 設定

著者は、ImageNet-1K の検証セットでトップ 1 の精度を報告しています。これは、1000 のオブジェクト クラスと 120 万のトレーニング イメージで構成されるデータセットです。21841 個のクラス (1000 個の ImageNet-1K クラスのスーパーセット) を持つより大きなデータセットである ImageNet-22K で事前トレーニング用の 14M の画像を使用して事前トレーニングし、次に ImageNet-1K で事前トレーニング済みのモデルを微調整します。評価。

3.2 結果

次の表は、ConvNeXt と Transformer バリアントである DeiT、Swin Transformer、および RegNets と EfficientNets の結果を比較しています。
ここに画像の説明を挿入
ImageNet-1K : ConvNeXt は、精度と計算のトレードオフと推論スループットの点で、ConvNet ベースライン (RegNet および EfficientNet) と競合する結果を達成します。ConvNeXt は、同様の複雑さの Swin Transformer よりも全面的に優れています。Swin Transformers を使用すると、ConvNeXts と比較して、それもシフト ウィンドウや相対位置バイアスなどの特殊なモジュールを使用しなくても、スループットが向上します。

ImageNet-22K : ImageNet-22K 事前トレーニングから微調整されたモデルの結果を下の表に示します (ヘッダーは上の表を参照)。これらの実験は重要です。なぜなら、ビジュアル Transformer は誘導バイアスが少なく、大規模な事前トレーニングを行った場合に ConvNets よりも優れたパフォーマンスを発揮できると広く信じられているからです。この調査では、適切に設計された ConvNet は、大規模なデータセットで事前トレーニングされた場合、Vision Transformer に劣らないことが示されています。ConvNeXt は、同様のサイズの Swin Transformer と同等以上のパフォーマンスを発揮し、スループットがわずかに高くなります。さらに、この研究で提案された ConvNeXt-XL モデルは 87.8% の精度を達成し、ConvNeXt-L を 384^2 で大幅に改善しており、ConvNeXt がスケーラブルなアーキテクチャであることを証明しています。

ここに画像の説明を挿入

3.2 等方性 ConvNeXt 対 ViT

アブレーション実験では、研究者は ViT-S/B/L と同じ機能サイズ (384/768/1024) を使用して等方性 ConvNeXt-S/B/L を構築しました。深さは、パラメーターと FLOP の数に一致するように 18/18/36 に設定され、ブロック構造は同じままです。224^2 解像度での ImageNet-1K の結果を表 2 に示します。結果は、ConvNeXt が ViT に匹敵する性能を発揮することを示しており、非階層モデルで使用した場合、ConvNeXt ブロック設計が依然として競争力があることを示唆しています。
ここに画像の説明を挿入

4、ダウンストリームタスクの経験的評価

COCO でのオブジェクト検出とセグメンテーション
COCO データセットのオブジェクト検出とセグメンテーションの研究では、ConvNeXt をバックボーンとして使用し、COCO データセットで Mask R-CNN と Cascade Mask R-CNN を微調整します。表 3 は、オブジェクト検出とインスタンス セグメンテーションに関する Swin Transformer、ConvNeXt、および従来の ConvNets (ResNeXt など) の結果を比較しています。結果は、ConvNeXt がさまざまなモデルの複雑さで Swin Transformer と同等以上のパフォーマンスを発揮することを示しています。
ここに画像の説明を挿入
ADE20K でのセマンティック セグメンテーション
表 4 では、この研究はマルチスケール テストによる検証 mIoU を報告しています。ConvNeXt モデルは、さまざまなモデル容量にわたって競争力のあるパフォーマンスを達成でき、ConvNeXt 設計の有効性をさらに検証できます。ここに画像の説明を挿入
モデル効率に関する注意事項:
同様の FLOP を使用すると、深い畳み込みモデルは、密な畳み込みモデルのみよりも遅くなり、より多くのメモリを消費します。ConvNeXts のトレーニングに必要なメモリは、Swin トランスフォーマーのトレーニングよりも少なくて済みます。この効率の向上は、ConvNet 誘導バイアスの結果であり、ViT の自己注意メカニズムとは直接関係がないことに注意してください。

5、関連作品

畳み込みと自己注意を組み合わせたハイブリッド モデルは、ビタミンの前後の時代に活発に研究されてきました。最近では、畳み込みネットワークに基づく研究方法が数多くありますが、この論文の主な研究目的は、最新の ResNet を深く研究し、最適なパフォーマンスを達成することです。

6、結論

著者らは、純粋な畳み込みニューラル ネットワーク モデルである ConvNeXt を提案しています。CNN のシンプルさと効率性を維持しながら、複数のコンピューター ビジョン ベンチマークで現在の最先端の ViT と競合することができます。最後に、著者は、この研究の結果が広く存在するいくつかの見解を変え、人々にコンピュータ ビジョンにおける畳み込みの重要性を再考するよう呼びかけることを望んでいます!


参考以下文章:
1.https://www.aminer.cn/research_report/628aeb017cb68b460fbf4f30
2.https://mp.weixin.qq.com/s/gWfgt-mMAjhBh3tUc3HzqA

おすすめ

転載: blog.csdn.net/weixin_44902604/article/details/129050566