[いくつかの論文を読む] RIFormer: ビジョン バックボーンを効果的に保つが、トークン ミキサーを削除すると、時間のかかるコンポーネントが削除され、トレーニング テクニックを使用してポイントが向上します

RIFormer: ビジョン バックボーンを効果的に保ちながらトークン ミキサーを削除

抽象的な

  • この記事では、基本的な構成要素からトークン ミキサーを削除しながら、ビジュアル バックボーンの有効性を維持する方法を検討します。トークンミキサーは、(vit) のセルフアテンションとして、主に異なる空間にあるトークン間の情報通信に使用されますが、計算コストと遅延が大きくなります。ただし、これらを直接削除すると、以前のモデル構造が不完全になり、精度が大幅に低下します

  • この目的を達成するために、私たちはまず、重いパラメータ化のアイデアに基づいて反復フォーマーを開発し、トークン ミキサーの自由モデル アーキテクチャを研究しました。次に、単純なトークン ミキサー フリー バックボーンの制限を打ち破るために改善された学習パラダイムを検討し、経験的な実践を 5 つのガイドラインにまとめます。提案された最適化戦略を利用することで、推論中に非常に効率的でありながら、優れたパフォーマンスを備えた非常にシンプルなビジュアル バックボーンを構築できます。多数の実験と分析により、適切な最適化戦略を通じて、ネットワーク構造の誘導バイアスを単純なネットワーク構造に組み込むことができることも示されています。この研究が、効率的な最適化主導のネットワーク設計を検討するための出発点として機能することを願っています。プロジェクトページ:https://techmonsterwang.github.io/RIFormer/

  • トークン ミキサーは、ViT バックボーンの非常に重要なコンポーネントです。さまざまな空域の位置情報を適応的に集約するために使用されます。しかし、従来のセルフ アテンションでは、多くの場合、高い計算の複雑さと長い遅延の問題が発生します。トークン ミキサーを直接削除すると、構造的な事前設定が不完全になり、深刻なパフォーマンスの低下につながります。

  • この記事では、トークン ミキサーのないアーキテクチャ システムを研究するために、重いパラメーター メカニズムに基づく RepIdentityFormer ソリューションを提案します。その直後、著者はトークンレス ミキサー アーキテクチャの制限を打ち破るために学習アーキテクチャを改善し、5 つのガイドラインをまとめました。提案された最適化戦略と組み合わせることで、この記事は優れたパフォーマンスを備えた非常にシンプルなビジュアル バックボーンを構築し、さらに推論効率が高いという利点もあります。実験結果は、適切な最適化戦略を使用すると、ネットワーク構造の誘導バイアスを単純なアーキテクチャ システムに統合できることを示しています。この記事では、その後の最適化主導型の効率的なネットワーク設計のための新しい出発点とアイデアを提供します。

導入

  • ここ数年間のコンピュータ ビジョンの目覚ましい進歩は、畳み込みニューラル ネットワーク (ConvNets) や (vit) などのビジョン バックボーンの革命によってもたらされました。これらはすべて、基本的な構成要素に、異なる空間的位置間の情報を集約するための特定のモジュールを備えており、これらのモジュールは、vit の self-attention など、トークン ミキサーと呼ばれます。トークン ミキサーの有効性は多くのビジョン タスクで実証されていますが、その計算の複雑さがネットワークの大部分を占めることがよくあります。実際には、重いトークン ミキサーは、特にエッジ デバイス上で、速度と計算コストの問題によりビジュアル バックボーンに制約を与えます。

  • 文献には、視覚的なバックボーン削減のための効率的なトークン ミキサーを研究する試みがいくつかあります。これらの作品は軽量設計によって競争力のあるパフォーマンスを実現していますが、次の図に示すように、トークン ミキサーが残されており、無視できない遅延の増加が生じます。

    • ここに画像の説明を挿入します

    • ViTBase のさまざまなコンポーネントのレイテンシー分析。 (a) トークン ミキサー (セルフ アテンション) 遅延は、バックボーンの約 46.3% を占めます。 (b) 私たちの動機は、パフォーマンスを維持しながらトークン ミキサーを削除することです。

    • 改訂された 12 層 ViT-B アーキテクチャに基づいて、著者はシステム遅延解析を実施しました (上の図を参照)。 Input Embedding のみを含むモジュールから開始して、LN、アテンション、MLP などのさまざまな操作ユニットが徐々に追加され、最終的に GAP と分類ヘッダーのない ViT-Base アーキテクチャが形成されます。図からわかるように、トークン ミキサー部分には約 1433.6 ミリ秒かかり、アーキテクチャ全体の約 46.3% を占めます。

    • トークン ミキサーはモデルの遅延に非常に大きな影響を与えるため、実際の応用は間違いなく制限されます。当然のことながら、高いパフォーマンスを維持したまま Token Mixer を削除することは可能でしょうか?という疑問が生じます。 MetaFormer はトークン ミキサーを使用しないアーキテクチャを提案しましたが、それが無視できないパフォーマンスの低下につながることが判明しました。これに基づいて、この記事は、高度な最適化戦略 (知識の蒸留、構造の再パラメータなど) を通じて、ミニマリスト ViT アーキテクチャの可能性を引き出すことを目的としています。 。)。

  • 最近の研究 [ビジョンのための Metaformer ベースライン] では、トークン ミキサーを削除することは可能ですが、パフォーマンスが低下することが判明しました。効率的なトークン ミキサーのこれらの探求は、トークン ミキサーを削除しながらビジュアル バックボーンの有効性を維持できるか? 結果として得られるトークン ミキサーのビジョンフリー バックボーンは、実際のアプリケーションで効率的かつ効果的であると考えるようになりました。

  • この作業では、まず現在のモデル アーキテクチャと学習パラダイムを確認します。これまでの研究のほとんどは、従来の教師あり学習を使用してモデルを最初から最適化しながら、構造の改善に焦点を当てていました。これとは異なり、単純化されたモデル アーキテクチャを採用し、単純なモデルの可能性を最大限に活用するための学習パラダイム設計を検討することを提案します。私たちの目標は、視覚的なバックボーンなしでトークン ミキサー (つまり、上の図 (b) に示す IdentityFormer) の効率と有効性を同時に維持することです。この目的を達成するために、次の章では、シンプルかつ効果的な学習戦略である知識蒸留 (KD) について詳しく説明します。

  • 私たちの主なアイデアは、強力な教師モデル (トークン ミキサーあり) から学生モデル (トークン ミキサーなし) に知識を抽出することです。以下の図に示すように、効率を維持しながら学生ネットワークのモデリング機能を拡張するための再パラメータ化のアイデアを具体化しました。具体的には、トレーニング用のトークン ミキサーを置き換えるために、単純なアフィン変換が学生モデルに導入されています。推論中にアフィン変換パラメータを LayerNorm に組み込むことで、最終的にはスチューデント トークン ミキサーが無料になります

    • ここに画像の説明を挿入します

    • RIFormer ブロックの構造の再パラメータ化。

    • 著者はトレーニング段階で恒等変換ではなくアフィン変換を使用しており、上の図に示すように、チャネル次元でのスケーリングとシフト操作のみを実行します。 推論段階では、アフィン変換パラメータを LN 層にマージできるため、トレーニング中の LN+アフィン変換は LN+恒等式と同等になります

  • 私たちは経験的に学習戦略を次のガイドラインにまとめます。このガイドラインが、この非常に単純なモデルの学習方法に光を当てることを願っています。特に、

    • 1) グラウンド トゥルース ラベルを使用しないソフト蒸留の方が効果的です。

    • 2) 蒸留せずにアフィン変換を使用すると、パフォーマンスの低下を調整することが困難になります。

    • 3) 提案されたブロック知識の蒸留 (モジュール模倣と呼ばれる) は、アフィン演算子のモデリング能力を活用するのに役立ちます。

    • 4) 広い受容野をもつ教師は、限られた受容野をもつ生徒の育成に役立つ。

    • 5) 教師モデルの事前トレーニングされた重み (トークン ミキサーを除く) を生徒モデルにロードして、収束とパフォーマンスを向上させます。

  • 上記のガイドラインに基づいて、最終的に、RepIdentityF フォーマー (RIF フォーマー) と呼ばれる、競争力のあるパフォーマンスと高効率を備えたトークンレス ミキサー ビジョン モデルを取得します。 RIFormer は、MetaFormer とほぼ同じマクロおよびマイクロ設計を共有していますが、すべてのトークン ミキサーを安全に削除します。定量的な結果は、当社のネットワークが ImageNet-1K での推論速度が速く、多くの主流バックボーン ネットワークよりも優れていることを示しています。特徴分布と有効受容野 (ERF) の分析では、適切な最適化戦略を使用すると、明示的トークン ミキサーによって導入された誘導バイアスを単純なネットワーク構造に暗黙的に組み込むことができることも示しています。要約すると、私たちの仕事の主な貢献は次のとおりです。

    • 私たちは、現実世界のアプリケーションのニーズを満たすシンプルなモデル アーキテクチャを備えた高レベルの学習パラダイムを開発することで、視覚的なバックボーンを探求することを提案します。

    • 私たちは再パラメータ化のアイデアを具体化し、トークン ミキサー不要のビジュアル モデル RIFormer を確立しました。これは、誘導バイアス モデリング機能を向上させるだけでなく、高い推論効率も備えています。

    • 私たちが提案した蒸留戦略の実践的なガイドは効果的であることが証明されており、視覚的なバックボーンの競争力を維持しながらトークンミキサーを排除しています。

関連作業

ビジョントランスフォーマーの加速
  • ビジョン トランスフォーマーは、推論が遅く、エネルギーを大量に消費するバックボーンであり、自己注意の二次計算コストのため、リソースに制約のあるエッジ デバイスへの展開には適しておらず、圧縮技術が必要です。視覚的トランスフォーマーをスリム化するために、奥行きと埋め込み寸法を小さくして効率的なトランスフォーマーを改良したり、重要でないマーカーを枝刈りまたはマージしたり、省エネ操作を導入したり、効率的なアテンション代替手段を設計したりするなど、さまざまな技術的ルートが設計されてきました。対照的に、私たちの研究は、満足のいくパフォーマンスを維持しながら、バックボーンから複雑なトークンミキサーを完全に削除することにより、まったく新しい角度を提案します。
構造の再パラメータ化
  • 構造の再パラメータ化は、トレーニング時間と推論時間の構造を分離するトレーニング手法です。たとえば、RepVGG は、推論中に魅力的なパフォーマンスと速度を備えたプレーンな VGG スタイルのアーキテクチャであり、トレーニング中に手動で追加された 1 × 1 ブランチと ID マッピング ブランチを備えた強力なアーキテクチャです。同様に、この手法は、非常に大規模なカーネル畳み込みニューラル ネットワーク、MLP のようなモデル、ネットワーク プルーニング、および特別なオプティマイザー設計にさらに拡張できます。この記事では、このテクノロジーを使用してパラメータを導入します。パラメータはトレーニング後に LN 層に等価的に吸収されます。追加の重みを適切に最適化すると、モデルが有用な表現を学習するのに役立ちます。

事前準備と動機

  • このセクションでは、まずトークン ミキサーの概念を簡単に説明します。次に、経験的なレイテンシ分析を通じて、推論速度に対する避けられない副作用を再検討することで、この論文の動機を紹介します。
暫定版: トークン ミキサーの概念
  • コンセプト トークン ミキサーは、特定のビジュアル バックボーン内でトークン ミキシング機能を実行する構造です。これにより、さまざまな空間的位置からの情報を集約できます。たとえば、セルフ アテンション モジュールは、入力特徴から線形投影されるクエリ、キー、値行列のコンポーネント間でアテンション関数を並行して実行することにより、ViT のトークン ミキサーとして機能します。さらに、ResMLP は、空間 MLP をトークン ミキサーとして扱うことにより、クロスパッチ線形サブレイヤーを適用します。上記のトークン ミキサーの計算コストとメモリ コストは、イメージ スケールで 2 次になります。
モチベーション
  • このセクションでは、ViT モデルの定量的遅延分析を通じて、トークン ミキサーの副作用に焦点を当てます。まず、基本的な構成要素のそれぞれに操作を含まず、入力エンベディングのみを含む、修正された 12 層 ViT-Base モデルから始めます。次に、各基本ブロックに運用コンポーネント (LN、アテンション、チャネル MLP など) を徐々に追加し、最終的に全体的な平均プーリング層と分類子ヘッドのない ViT-Base モデルを取得します。各モデルでは、 22 4 2 224^2 で A100 GPU を使用します。2242 解像度でバッチ サイズ 2048 を使用し、30 回の実行にわたる平均時間を計算してバッチを推定します。プロセス全体が 3 回繰り返され、中央の数値が統計的遅延となります。上の図に示すように、12 層のルールを積み重ねた後、トークン ミキサーにより 1433.6 ミリ秒の追加遅延が発生し、これはバックボーンの約 46.3% を占めます。

  • 上記の分析によると、トークン ミキサーはモデルの遅延に明らかな副作用をもたらし、実際の適用を制限します。この観察から当然疑問が生じます:トークン ミキサーを削除しながらバックボーンの有効性を維持できるでしょうか? 具体的には、最近の研究では、基本構成要素にトークン ミキサーを含まない MetaFormer モデルが導入されており、それが無視できないパフォーマンスの低下を引き起こすことがわかりました。これらの発見に基づいて、帰納的バイアスと高度な最適化戦略 (知識の蒸留、構造の再パラメータ化など) を組み合わせて、非常に単純なモデルの可能性を最大限に活用することを提案します。探索の詳細については、残りの作業ですべて説明します。

RIFormer の探索: ロードマップ

  • このセクションでは、RIFormer の完全に監視されたアプローチから、より高度なトレーニング パラダイムに至るまでの軌跡について説明します。このプロセスでは、推論時間モデルを変更せずに、トランスフォーマー モデルと同様のさまざまな最適化スキームを研究および開発しました。私たちが使用するベースライン RIFormer は、推論中の基本的な構成要素でトークン ミキサーを使用しないことを除いて、最近開発された MetaFormer とまったく同じマクロアーキテクチャとモデル サイズを備えています。 RIFormer-S12 モデルの計算複雑性は、約 12M のパラメータと 1.8G の MAC を備えた poolformer12 に匹敵するレベルに制御されています。このセクションのすべての RIFormer-S12 モデルは、ImageNet-1K で 120 エポックにわたってトレーニングおよび評価されました。ハイパーパラメータの詳細は、付録のセクション 1 に記載されています。私たちの探査ロードマップは次のとおりです。
トークンミキサーを使用しないビジョンバックボーン
  • 私たちの調査は、推論時間モデルのビジュアル バックボーンの各基本ブロックにあるトークン ミキサーを削除して、パフォーマンスを維持しながらより高い推論速度を実現することを目的としています。したがって、CE 損失を使用した完全教師ありトレーニング スキームを備えた RIFormerS12 モデルから始めます。パフォーマンスの参考として、PoolFormer-S12 と結果を比較します。PoolFormer-S12 はトークン ミキサーとして基本的なプーリング操作のみを使用するため、パフォーマンスのギャップは基本的なトークン ミキシング機能の欠如に起因すると考えられます。以下の表に示すとおりです。ほとんど監視を受けずにトレーニングされた RIFormer-S12 は、PoolFormer-S12 と比較して許容できないパフォーマンスの低下 (トップ 1 精度 2.7%) を引き起こす可能性があります。結果は、各ビルディング ブロックにトークン ミキサーがないと、従来の教師あり学習ではモデルが画像から有用な情報を学習するのに限界があり、より高度なトレーニング プロセスが必要 a>であることがわかりました。

    • ここに画像の説明を挿入します

    • MetaFormer 上のさまざまなトークン ミキサーのクロス エントロピー損失を使用した結果。

  • 次に、ベースラインのパフォーマンスの低下を改善するために一連のトレーニング パラダイムを研究および修正します。これは、1) 知識の蒸留、2) 教師タイプの影響、3) 構造の再パラメータ化、4) 提案されたモジュール模倣手法、5) いくつかの負荷として要約できます。先生からのパラメータ。私たちの目標は、ネットワーク アーキテクチャではなく、さまざまな高レベルのトレーニング構成の影響を調査することであるため、推論時間モデルのアーキテクチャは中間ステップでは常に一定に保たれます。次に、RIFormer のトレーニングに役立つ 5 つのガイドラインを紹介します。

蒸留パラダイム設計
  • 私たちは現在、ユニバーサル ビジュアル バックボーン教師によるトークン ミキサーを使用した RI 元学生の知識の蒸留を研究し、強力な教師ネットワークからの「ソフト」ラベルを効果的に利用する方法をまとめています。ガイドライン 1:真実ラベルを使用しないソフト蒸留は、トークン ミキサーを持たない生徒にも機能します。基本的に、既存の KD メソッドのほとんどは、トークン ミキサーを備えたモデル向けに設計されています。たとえば、生徒が教師によって予測されたグラウンド トゥルース ラベルとソフト ラベルを学習できるようにするのが一般的です。さらに、DeiT のいくつかの観察では、監視ターゲットとしてソフト ラベルの代わりにハード ラベルを使用すると、トランスが大幅に改善される可能性があることが示されています。対照的に、Token Mixer Free Backbone には、基本ブロックに明示的なパッチ集約モジュールがありません。したがって、その蒸留は伝統的なバックボーンとは異なるはずです。具体的には、RIFormer はトランスフォーマーと同じマクロ構造を共有していますが、各ビルディング ブロックから意図的にトークン ミキサーを削除しているため、スチューデント トランスフォーマーとはみなされません。。ただし、RIFormer はマクロ/マイクロ アーキテクチャ設計の点でトランスと類似点があるため、これを純粋な接続として考えることも好みません。したがって、我々は、パフォーマンスの良い RIFormer に適した KD メソッドを探索することに意欲的に取り組んでいます。

  • 通常、クロスエントロピーの目的は、学生ネットワークが非常に正確なラベルを再現できるようにすることであり、このプロセスは RIFormer には適さない可能性があると考えられます。まず、ラベル平滑化正則化を通じてグラウンド トゥルースのハード ラベルをソフト分布に変換します。真のラベルの重みは 1−ε で、各クラスは ε を共有します。学習されていない一様分布は、ネガティブ クラスではあまり有益ではなく、教師によって与えられた学習済みの軟分布を妨げる可能性があります。第二に、1×1 畳み込みは実際には RIFormer の基本構成要素を支配しており、空間情報ではなく、各位置の特徴を「混合」するだけです。この簡素化された設計では、監視ラベルにより豊富な情報が必要になる場合があります。これを証明するために、以下の表では 4 つの異なるセットアップのパフォーマンスを比較しています。デフォルトの教師は GFNet-H-B (54M パラメータ) です。真のラベルを使用した硬蒸留により、精度が 72.31% から 73.51% に向上しました。その結果、トークン ミキサーを持っている教師は、トークン ミキサーを持たない生徒にプラスの影響を与えていることがわかりました。実際、真のラベルを使用せずにソフト蒸留を使用する組み合わせが最も優れたパフォーマンスを示し、ネットワーク パフォーマンスが 74.05% 向上しました。

    • ここに画像の説明を挿入します

    • トークン ミキサーとして ID マッピングを使用したプレーン/ラベルなし RIFormer-S12 でのさまざまな教師タイプの結果。

  • 備考 1. 真のラベルを使用した教師あり学習は、トークン ミキサーを使用しないラフなモデルには最適な方法ではないようです。トークン ミキサーを使用する教師はトレーニングの指導に役立ちますが、トークン ミキサーをキャンセルした後でもパフォーマンスの差を完全に回復することはできず、他の戦略が必要です

ID マッピングの再パラメータ化
  • ガイドライン 2: カスタム蒸留を行わずにアフィン変換を使用すると、パフォーマンスの低下から回復することが困難になります。このセクションでは、構造的再パラメータ化手法のアイデアを採用します。この手法は、通常、トレーニングに強力なモデルを使用し、推論中に単純なモデルに同等に変換します。具体的には、RIFormer の推論時トークン ミキサー モジュールは、LN 層の背後にある ID マッピングとして見ることができます。したがって、トレーニング時間モジュールは少なくとも 2 つの基本要件を満たす必要があります。

    • 1) 等価な変換を可能にする位置ごとの演算子。

    • 2) パラメトリック演算子。追加の表現機能が可能になります。

    • したがって、トレーニング中にアイデンティティ マッピングをアフィン変換演算子に置き換えます。この演算子は、チャネルごとのスケーリングとシフトのみを実行します。上の図。 アフィン演算子とその前の層の LN は、重みが変更された LN に変換できるため、推論プロセス中に等価的に恒等マッピングに変換できます。入力特徴を M∈RN×C×H×W として記録すると、アフィン演算子は次のように表現できます。

    • A f in e ( M , s , t ) : , i , : , : = s i M : , i , : , : + t i − M : , i , : , : , Affine(M, s, t)_{:, i,:,:} = siM{:,i,:,:} + t_i − M_{:,i,:,:},Affine( Mst):i: : =siM:,i::+ti M:i: :

  • ここで、s∈RC と t∈RC は学習可能な重みベクトルです。残りの接続により、実装中に入力の追加による減算が行われるため、上記の方程式の最初の項と 3 番目の項はマージされません。次に、その前にある LN 層にアフィン変換を組み込む方法について説明します。これにより、ブロック内にトークン ミキサーを追加せずに、トレーニング時モデルをデプロイメント用のモデルに等価に変換できます。 μ、σ、γ、βを平均、標準偏差、および前の LN 層の学習されたスケーリング係数とバイアスとして使用します。 T(a)∈RN×C×H×W と T ' (a)∈RN×C×H×W を、それぞれ上図 (a) のアフィン残差サブブロックの入力と出力とする。トレーニング中は次のことを行います。

    • T ′ ( a ) = A f i n e ( L N ( T ( a ) , µ , σ , γ , β ) , s , t ) − T ( a ) T^{′(a)} = Affine(LN(T^{ (a)}、μ、σ、γ、b)、s、t) − T^{(a)}T'(a)=Affine( LN(T(a),μσγβ)st)T(a)

    • LN は、PyTorch の GroupNorm API によって実装される LN 関数 (グループ番号を 1 に設定) であり、[Metaformer は実際にビジョンに必要なものです]。推論中、残差サブブロック内の LN 層の後には ID マップが 1 つだけ存在します。したがって、次のようになります。

    • T ′ ( a ) = L N ( T ( a ) , μ , σ , γ ′ , β ′ ) , T^{′(a)} = LN(T^{(a)}, μ , σ , γ′ , b')、T'(a)=LN(T(a),μσγ',β'),

    • このうち、γ'とβ'は、マージされたLN層の重みとバイアスパラメータです。上の方程式の等価性に基づいて、 ∀1≤i≤C の場合、次のようになります。

    • γ ′ i = γ i ( s i − 1 ) 、 β ′ i = β i ( s i − 1 ) + ti 、 γ^{′i} = γ_i^{(si − 1)}、 β^{′i} = β_i^{(si − 1) }+ t_i,c'i=c(si1 ) b'i=b(si1 ) +ti

  • アフィン変換と再パラメータ化プロセスの証明と pytorch のようなコードは、それぞれ付録のセクション 2 とセクション 3 に示されています。 LN 層には推論時に事前に計算された平均値と標準偏差がないため、それらの特定の値は入力適応型であり、変換の等価性に影響しません。

  • 注2.上の表を比較すると、構造再パラメータ化手法を直接使用する利点はありません。この現象は、LN 層のアフィン変換が、(非線形関数が追加されない場合) 導入した追加のアフィン演算子と直接マージできる線形変換であるためであると考えられます。したがって、両方がモデルの出力によってのみ監視される場合、追加パラメーターの可能性を最大限に活用できない可能性があります。同時に、教師と生徒の同型デザインは、各レベルのモジュールの知識伝達に適した方法を探求するきっかけを与えてくれました。

モジュールの模倣
  • ガイドライン 3: 提案されているチャンク化された知識の抽出は、モジュラー模倣と呼ばれ、アフィン演算子のモデリング能力を活用するのに役立ちます。以前に試したKD手法は、教師と生徒の間のネットワークのアウトプットのみに焦点を当てていました。教師トークンミキサーの有用な情報を活用するモジュール模倣 (MI) 方法を提案します。具体的には、事前学習済みの poolformer-s12 が教師ネットワークとして使用されます。以下の図に示すように、単純なアフィン演算子 (その前の LN 層) がトレーニング中の基本的なトークン ミキサーの動作に近似すると予想されます。

    • ここに画像の説明を挿入します

    • (a) RIFormer の包括的なトレーニング プログラム。 RIFormer は、各ブロックのトークン ミキサーを削除します。 (b) モジュール模倣技術は、単純なアフィン変換を通じてトークン ミキサーの動作を模倣することを目的としています。

    • 完全に監視されたトレーニング システムから、さまざまな最適化メカニズムを調査して指定する、より高度なトレーニング システムへの探索パスを示します。 RIFormer は MetaFormer と同じマクロ モジュールとマイクロ モジュールを使用します。唯一の違いは、RIFormer がトークン ミキサーを使用しないことです。

    • 上記の分析を考慮して、著者は教師モデル TokenMixer の背後にある有用な情報を最大限に活用することをModule Imitationさらに提案しました。上の図に示すように、作成者は、アフィン操作がトレーニング プロセス中の TokenMixer の動作をほぼシミュレートできることを期待しています。この時点で、2 つの間の MSE を計算できます。

  • 设f(・), T ( a ) , m ∈ R N × C × H × W T^{(a),m}∈\R^{N×C ×高さ×幅} T(a)mRN×C×H ×W、m∈m はアフィン演算子です。ここで、m は使用する中間層セットの RIFormer の m 番目の層です。入力, g(·), T ( T ) , m ∈ R N × C × H × W T^{(T), m}∈\R^{N×C×H×W } T(T)mRN×C×H ×W、m∈m はそれぞれ教師ネットワークの入力です。簡単のため、LN(・、μ、σ、γ、β) を LN(・) と省略します。アフィン演算子 LN 層とトークン ミキサーの間の入力の平均二乗誤差 (MSE) は、次のように計算できます。

    • L i n = α 1 ∣ ∣ L N ( T ( a ) , m ) − L N ( T ( t ) , m ) ∣ ∣ F 2 L_{in}=\alpha_1||LN(T^{(a),m} )-LN(T^{(t),m})||^2_FL =ある1 ∣∣LN(T(a)m )LN(T(t)m )F2

    • 式中、α1 = 1/N CHWとなります。現在のレイヤーの入力フィーチャは、前のレイヤーの出力フィーチャであることに注意してください。したがって、実際には、このブロックの出力特徴 (つまり、次に続くブロックの入力特徴) を一致させることをお勧めします。これは、トランスフォーマーの隠れ状態蒸留と見なすことができます。

    • L i n ' = α 1 ∣ ∣ T ( a ) , m + 1 − T ( t ) , m + 1 ∣ ∣ F 2 L^`_{in}=\alpha_1||T^{(a),m+ 1}-T^{(t),m+1}||^2_FL =ある1 ∣∣T(a)m +1T(t)m +1F2

    • 次に、関係行列ベースの隠れ状態蒸留が出力特徴に適用されます。

    • L r e l = α 2 ∣ ∣ R T ( a ) , m + 1 − R T ( t ) , m + 1 ∣ ∣ F 2 L_{rel}=\alpha_2||RT^{^(a),m+1}- RT^{(t),m+1}||^2_FL=ある2 ∣∣RT(a)m +1RT(t)m +1F2

    • 式中 α 2 = 1 / N H 2 W 2 , R ( T ) = T T α_2 = 1/N H^2W^2, R(T) = ~ T ~T ある2 =1/NH2W2R(T)= TT 、~ T は最後の次元の正規化された T を表します。アフィン オペレーターとトークン ミキサーの間の出力の MSE を考慮してください。

    • L o u t = α 1 ∣ ∣ f ( L N ( T ( a ) , m ) ) − g ( L N ( T ( t ) , m ) ) ∣ ∣ F 2 L_{out}=\alpha_1||f(LN(T ^{(a),m}))-g(LN(T^{(t),m}))||^2_FLout =ある1 ∣∣f(LNT((a)m ))g(LN( (t)m ))F2

    • 上記の 3 つの方程式を組み合わせると、モーダル模倣による最終的な損失関数は次のように定義されます。

    • L = L s o f t + λ 1 L i n ' + λ 2 L o u t + λ 3 L r e l L=L_{soft}+\lambda_1L'_{in}+\lambda_2L_{out}+\lambda_3L_{rel}L=Lだからt +1 L' +2 Lout +3 L

  • このうち、Lsoft はソフトロジット蒸留のターゲットであり、λ1、λ2、および λ3 は損失関数間のバランスを求めるハイパーパラメータです。タブで。 Feat と Rel は使用回数 (L'in、Lout) を表し、Lrel、Layer は使用する中間層の数を表します。結果は、モジュールの模倣がさまざまな状況で生徒の RIFormer にプラスの影響を与えることを示しています。 4 層設定とアフィン演算子の使用により、75.13% という最良の結果が得られ、上表の PoolFormer-S12 の結果 75.01% を上回りました。今後はこの設定を使用していきます。

  • 注3。この現象の理由は、アフィン演算子が以前の LN 層を明示的に組み込む利便性を失うことなく、教師トークン ミキサーの監視から暗黙的に恩恵を受けるのにモジュールの模倣が役立つためであると考えられます。さらに、モジュールの模倣により、特徴分布が効果的に教師ネットワークに近づき、より大きな有効受容野 (ERF) が示されることがわかりました。

  • 原則 4: 高等教育を受け入れる教師は、低等教育を受け入れる学生の訓練を支援します。以下の表は、さまざまな教師構成の下での生徒の成績を比較したものです。 GFNet-H-B は、教師の間で ImageNet のトップ 1 パフォーマンスが最も高いわけではありませんが、モジュール模倣を使用するかどうかに関係なく、より良い選択肢として機能する可能性があります。

    • ここに画像の説明を挿入します

    • さまざまな教師によるモジュール模倣 (MI) なしの RIFormer-S12 の結果。 *ImageNet-22K の事前トレーニングを示します。

    • ハードラベル蒸留により、モデルのパフォーマンスが 72.31% から 73.51% に向上します。これは、TokenMixer を使用した教師モデルが、TokenMixer を使用しない学生モデルの促進に積極的な役割を果たすことができ、ソフト ラベル蒸留が最高のパフォーマンスを達成でき、学生モデルのパフォーマンスが 74.05% に向上できることを示しています。

    • 全体的に: 教師ありトレーニング パラダイムは、TokenMixer を使用しないアーキテクチャにとって最適なトレーニング方法ではないようです。TokenMixer を使用した教師モデルはトレーニングのガイドに役立ちますが、依然として TokenMixer の削除によって引き起こされるパフォーマンスの損失を補うことはできません。戦略を導入する必要があります。

  • 注4.この事実は、教師と生徒の間の受容野のギャップによるものである可能性があります。誘導バイアスは、蒸留を通じてあるモデルから別のモデルに転送される可能性があります。この研究によると、大きな受容野を備えたモデル(たとえば、周波数領域で学習可能なグローバル フィルターを備えた GFNet)は、限られた受容野を持つ学生 RIFormer をより適切に導くことができます。

  • ガイドライン 5:事前トレーニングされた教師モデルの重み (トークン ミキサーを除く) を生徒モデルにロードして、収束とパフォーマンスを向上させます。。私たちのアプローチは、基本ブロック内のトークン ミキサーを排除して高速化を達成することを目的としたモデル圧縮技術として分類できます。知識の蒸留、量子化、モデルの高速化などの手法にヒントを得て、事前トレーニングされた重いネットワークの対応する重みを使用 (または部分的に使用) して軽量ネットワークの重みを初期化する、適切な初期化方法を探索します。私たちの目標はトークン ミキサーのみを削除することであるため、残りの重みは残り、前回の作業では十分な注意が払われませんでした。対応する教師ネットワーク (アフィン演算子を除く) を使用して RIFormer の重みを初期化すると、パフォーマンスが 75.13% から 75.36% にさらに向上することがわかります。これで、RIFormer をトレーニングする最後の例になります。

  • これまでのところ、私たちは探索を完了し、RIFormer のトレーニングに適したパラダイムを見つけました。 MetaFormer とほぼ同じマクロ設計ですが、トークン ミキサーは必要ありません。提案された最適化手法を利用することで、RIFormer は ImageNet-1K 分類においてトークン ミキサーを使用した複雑なモデルよりも優れたパフォーマンスを発揮できます。これらの心強い発見は、次のセクションで次の質問に答える動機になります。 1) この非常にシンプルなアーキテクチャとトレーニング パラダイムのスケーリング動作。 2) さまざまな教師に対するパラダイムの普遍性。

実験

画像分類

  • 設定。 1.2M のトレーニング画像と 50,000 枚の検証画像を含む ImageNet-1K の場合、通常、セクション 4 のガイドラインに従いながら、[メタフォーマー] でトレーニング スキームを適用します。データ拡張には、MixUp、CutMix、CutOut、RandAugment が含まれます。トークン ミキサーを削除するモデル圧縮ジョブとして、強力なベースラインを作成することよりも、トークン ミキサーの削除によって生じるパフォーマンスのギャップを解消することが間違いなく優先事項です。そこで、研修期間を600回に延長しました。また、事前トレーニングされたモデルを 30 エポックに微調整し、入力解像度は 38 4 2 384^2 でした。3842。詳細については、付録を参照してください。

  • 主な結果。以下の表は、ImageNet 上の RIFormer 分類の結果を示しています。私たちが主に考慮しているのは、エッジ デバイスの遅延要件を満たすことであるため、スループット メトリクスに主に焦点を当てています。予想通り、RIFormer には他のタイプのバックボーンと比較してその構成要素にトークン ミキサーが含まれていないため、速度上の利点が得られます。

    • ここに画像の説明を挿入します

    • ImageNet-1K 上のさまざまなタイプのトークン ミキサーを使用して結果をモデル化します。最大600回のトレーニングを表します。 ‡ImageNet の事前トレーニング済みモデルが 30 エポックにわたって微調整されていることを示します。

  • 驚くべきことに、このような高速推論により、RIFormers はパフォーマンスに影響を与えることなく、トレーニング方法を使用してすべてのトークン ミキサーを正常に削除しました。たとえば、RIFormer-M36 は 22 4 2 224^2/秒で実行できます 2242 解像度では、最大 82.6% の精度で 1,185 枚以上の画像を処理します。比較すると、プールされたトークン ミキサーを備えた最近のベースライン PoolFormer-M36 は、同じサイズの 1009 枚の画像を処理できますが、精度は 82.1% と低くなります。また、効率的なバックボーンである GFNet とも​​比較します。 FFT、要素ごとのスマート乗算、IFFT で構成されるグローバル フィルターを通じてトークンの混合を実行し、合計の計算量は O(N log N) になります。 GFNet-H-B はスループット 939 で 82.9% の精度を達成しますが、RIFormer-M48 は同等のスループット 897 で依然として 82.8% の精度を達成できます。同時に、推論時間 RIFormer の本体は 1 × 1 LN 変換のみに基づいており、複雑な 2D FFT や注意を必要とせず、ハードウェアの特殊化が容易になります。

  • RIFormer は、トークン ミキサーなしでは、そのビルディング ブロックで基本的なトークン ミキシング操作さえ実行できないことに注意してください。ただし、ImageNet の実験では、提案されたトレーニング パラダイムを使用しても RIFormer が依然として有望な結果を示していることが示されています。この背後にある理由は、 最適化戦略が重要な役割を果たしているためであるとしか考えられません。 RIFormer は、高度なトレーニング スキームを通じて保証されたパフォーマンスを備えた、最適化によって推進される効率的なネットワーク設計を探索するための開始レシピとして簡単に使用できます。

  • PoolFormer-S12 を出発点として、TokenMixer に使用される Pooling オペレーションを Identity に置き換え、トレーニングに従来の監視を使用すると、次のことがわかります。RIFormer-S12 は次のような結果をもたらします。許容できないパフォーマンスの低下 (約 2.7% の低下)。言い換えれば、TokenMixer 操作がない場合、従来の教師ありトレーニングでは、モデルによる有用な情報の学習を支援するのに一定の制限があり、より高度なトレーニング メカニズムが必要になります

アブレーション研究

  • モジュール模倣の有効性。蒸留ベースのモジュラー模倣は、追加のアフィン演算子の適切な重みを学習するための重要な方法です。そこで、隠れ状態特徴抽出法(関係あり)と比較しました。 CE を失わずに軟蒸留を使用すると、以下の表に示す結果が得られます。詳細については、付録のセクション 4 を参照してください。特徴抽出の精度はモジュール シミュレーションの精度より 0.46% 低く、モジュール シミュレーションが追加の重みの最適化にプラスの効果があることを示しています。

    • ここに画像の説明を挿入します

    • モジュール模倣の有効性に関するアブレーション研究。

  • さまざまなアクセラレーション戦略の比較。次に、トークンを削除することが他のスパース化戦略よりも優れているかどうかについて説明します。 PoolFormer ベースラインに基づいて、まず深さを 9 に減らし、その幅 (つまり、埋め込み次元) 5 6 \frac 56 を維持します。65 合理化された PoolFormer-s9 および PoolFormer-xs12 を構築して、RIFormerS12 と同等の推論速度を実現します。また、セクション 4.2 の軟蒸留パラダイムに従います。以下の表に結果を示します。遅延を消費するトークン ミキサーがなければ、深さまたは幅を直接プルーニングしても、私たちのものよりも優れたパフォーマンスは得られません。

    • ここに画像の説明を挿入します

    • 奥行きや幅のスリム化との比較結果。

  • さまざまな先生に紹介されました。提案されたトレーニング パラダイムが一般的な圧縮手法であることを検証するために、学生用のメタフォーマーのアーキテクチャ変更を採用し、教師を他の 4 つの MetaFormer ベースラインに変更します。教師トークン ミキサーは、ランド マトリックス、プーリング、分離可能な深さの畳み込みとして使用されます。そして注意。以下の表からわかるように、私たちのアプローチは、さまざまな深度設定や教師の状況において良い結果をもたらしています。

    • ここに画像の説明を挿入します

    • 他の教師への一般化の結果。

モジュール模倣の分析。
  • Module Imitation (MI) は、RIFormer モデルの特徴分布を教師に近づけます。モジュール模倣の効果を次の図に示します。 poolformer-s12 と RIFormer-S12 では、ステージ 1 とステージ 4 の特徴分布に明らかな違いがあることがわかります。この記事で提案したモジュール模倣を適用した後、RIFormer-S12 の配布は基本的に poolformer-s12 の配布に移行し、生徒が教師から有用な知識を学ぶのに有効であることがわかります。

    • ここに画像の説明を挿入します

    • PoolFormer-S12 および RIFormer-S12 の最初と最後のステージにおける特徴分布の視覚化。

  • モジュールの模倣は、より大きな有効受容野 (ERF) を明らかにするのに役立ちます。 ERF は、トレーニングされたモデルが応答できる画像領域のサイズまたはキャプチャされたオブジェクトのサイズ情報を反映します。出力特徴の中心点に対する入力の各ピクセルの累積寄与を測定することにより、ERF を視覚化します。 RIFormer はすべてのトークン ミキサーを削除するため、以下の図に示すように、表示される ERF は PoolFormer のものよりもはるかに小さいことが予想されます。全体の領域で 1 つの正方形ピクセルのみが赤く表示されますが、これは PoolFormer よりもはるかに小さいです。しかし、驚くべきことに、モジュール模倣トレーニング後、赤がさまざまな場所に広く分布していることが観察できます。明らかな構造的な変化はありませんが、モジュールの模倣は依然として学習重みの変更に寄与しており、より大きな ERF を示しているようです。

    • ここに画像の説明を挿入します

    • モジュール模倣あり/なしの PoolFormer-S12 および RIFormer-S12 の有効受容野 (ERF)。

制限と結論

  • このペーパーでは、ビジュアル バックボーンの基本的な構成要素であるトークン ミキサーにはかなりの待ち時間コストがかかるため、それらを削除する方法を検討します。残りの構造を引き続き有効に保つために、トレーニング パラダイムを完全に再検討しました。適切な最適化戦略は、トークンフリーのハイブリッド モデルが別のモデルから有用な知識を学習し、パフォーマンスを向上させ、不完全な構造によって生じるギャップを埋めるのに効果的に役立つことがわかりました。検出、ブレ除去などのその他の視覚タスクについては制限については議論されていませんが、これについては今後の作業で対処します。

A. セクション 4 の詳細なハイパーパラメータ

  • この記事では主に、セクション 4 の探査ロードマップの実験設定をいくつか説明します。通常、このセクションでは RIFormer-S12 モデルを使用します。これは、ImageNet-1K で 120 エポックにわたってトレーニングおよび評価されます。すべての場合において、バッチ サイズ 512 の AdamW オプティマイザーを採用します。 4.2 項と 4.3 項の蒸留実験では、GFNet-H-B が教師となってロジット蒸留が行われます。

B. 式 4 の証明

  • T(a)∈RN×C×H×W と T ' (a)∈RN×C×H×W を、それぞれメインの図 2-(a) のアフィン残差サブブロックの入力と出力とする。紙。トレーニング中は次のことを行います。

    • T ' ( a ) = A f i n e ( L N ( T ( a ) , µ , σ , γ , β ) , s , t ) − T ( a ) , ( 10 ) T'(a) = Affine(LN(T( a)、μ、σ、c、b)、s、t) − T(a)、(10)T'(a)=Affine( LN(T( a)μσγβ)st)T(a),(10

    • 式中、LN は LN 層、μ、σ、γ、β は LN 層の平均、標準偏差、学習可能なスケールファクターとバイアス、Affine はアフィン変換、s∈RC、t∈RC は学習可能なパラメータをスケールおよびシフトします。推論中に次のことが起こります。

    • T ' ( a ) = L N ( T ( a ) , μ , σ , γ ' , β ' ) , ( 11 ) T'(a) = LN(T(a), μ, σ, γ ', β ') 、(11)T'(a)=LN(T( a)μσγ',β'),(11

    • トレーニング (式 10) および推論 (式 11) 中のアフィン残差サブブロックの構造的再パラメータ化の等価性によると、 ∀1≤n≤n、∀1≤i≤C、∀1≤h≤h の場合、 ∀1≤w≤w の場合、次のようになります。

    • ここに画像の説明を挿入します

    • 式 12 可画像表文 γ ' i = γ i ( s i − 1 ) 、β ' i = β i ( s i − 1 ) + t i 、γ ' i = γi(si − 1)、β′i = βi(si − 1) + ti、γ'i=γi(si1)β'i=βi(si1)+ti,即等式4得证

PyTorch でのコード

アフィン演算子の PyTorch 風のコード
  • Alg. 1 では pytorch のようなアフィン変換コードを提供しており、これは RIFormer ブロックのトレーニング時間モデルに付加されています。アフィン変換は、カーネル サイズを 1 に、グループ番号を入力チャネルとして指定することにより、深さ方向の畳み込みとして実装できます。実装中に、残りの接続により入力が減算されます。

    • ここに画像の説明を挿入します
RIFormer ブロックの PyTorch 風のコード
  • pytorch のような RIFormer ブロック コードを提供し、アルゴリズム 2 で構造の再パラメータ化を実行します。

    • ここに画像の説明を挿入します

学習した係数の可視化

  • 提案されたモジュール模倣アルゴリズムの有効性をさらに評価するために、モジュール模倣手法を使用した場合 (黒い点線の上) または使用しない場合 (黒い点線の下)、アフィン演算子の重み (s で示される) の学習係数を視覚化します。 。具体的には、浅いブロック (ステージ 1、ブロック 1)、中間のブロック (ステージ 3、ブロック 6)、および深いブロック (ステージ 4、ブロック 1) に対して学習されたアフィン重みを提供します。以下の図に示すように、モジュール模倣を使用してトレーニングされたアフィン ウェイトと、この手法を使用せずにトレーニングされたアフィン ウェイトの間には違いがあります。次の図©は一例です。モジュラスを使用しないシミュレーションからのアフィン ウェイトは比較的一貫性があり、より正の値を示します。対照的に、モジュールの模倣は、アフィン オペレーターがより多くの負の重みを学習するのに役立ち、これが RIFormer の表現力に貢献する可能性があります。同様に、以下の図 (b) では、モジュールを使用してシミュレートされたアフィン重みは、この方法を使用せずにシミュレートされたアフィン重みと比較して、より穏やかな振幅を持っています。

    • ここに画像の説明を挿入します

    • (a) ステージ 1、ブロック 1、(b) ステージ 3、ブロック 6、© ステージ 4、ブロック 1 アフィン変換の学習係数ヒート マップ。学習係数の値は、正の数と負の数で異なる色で表されます。

活性化部分の可視化

  • [Metaformer は実際に視覚に必要なものです] に続いて、4 つの異なる事前トレーニング済みバックボーン、つまり RSB-ResNet50、DeiTS、PoolFormer-S24、および RIFormer-S24 で GradCAM によって得られた定性的な結果を提供します。 [Metaformer は実はビジョンに必要なもの] からもわかるように、transformer モデルのマップではアクティベーション部分が分散しているのに対し、convnet のマップではアクティベーション部分が集まっています。興味深いことに、さらに 2 つの観察が可能です。まず、提案されたモジュール模倣アルゴリズムで訓練された RIFormer は、convnet とTransformer の特性を組み合わせているように見えます。その理由は、RIFormer がTransformer と同じ一般的なアーキテクチャを持っているものの、何の注意も払われていない (つまり、トークン ミキサー) ため、本質的に convnet であるためであると考えられます。第 2 に、RIFormer マップの活性化部分は PoolFormer と同様の特性を示します。これは、知識蒸留プロセスを通じて教師モデルから暗黙的に導入された誘導バイアスによるものと考えられます。

    • ここに画像の説明を挿入します

    • ImageNet-1K 上の 4 つの異なる事前トレーニング済みバックボーンの Grad-CAM アクティベーション マップ。視覚化のために検証セットから 4 つの画像を抽出します。

おすすめ

転載: blog.csdn.net/weixin_43424450/article/details/134474122