[いくつかの論文を読む] RIFormer: ビジョンバックボーンを効果的に保つが、トークンミキサーを削除すると、時間のかかるコンポーネントが削除され、トレーニングテクニックを使用してポイントが向上します

RIFormer: ビジョンバックボーンを効果的に保ちながらトークンミキサーを削除

抽象的な

この記事では、基本的な構成要素からトークンミキサーを削除しながら、ビジュアルバックボーンの有効性を維持する方法を検討します。トークンミキサーは、(vit) のセルフアテンションとして、主に異なる空間にあるトークン間の情報通信に使用されますが、計算コストと遅延が大きくなります。ただし、これらを直接削除すると、以前のモデル構造が不完全になり、精度が大幅に低下します。
この目的を達成するために、私たちはまず、重いパラメータ化のアイデアに基づいて反復フォーマーを開発し、トークンミキサーの自由モデルアーキテクチャを研究しました。次に、単純なトークンミキサーフリーバックボーンの制限を打ち破るために改善された学習パラダイムを検討し、経験的な実践を 5 つのガイドラインにまとめます。提案された最適化戦略を利用することで、推論中に非常に効率的でありながら、優れたパフォーマンスを備えた非常にシンプルなビジュアルバックボーンを構築できます。多数の実験と分析により、適切な最適化戦略を通じて、ネットワーク構造の誘導バイアスを単純なネットワーク構造に組み込むことができることも示されています。この研究が、効率的な最適化主導のネットワーク設計を検討するための出発点として機能することを願っています。プロジェクトページ：https://techmonsterwang.github.io/RIFormer/
トークンミキサーは、ViT バックボーンの非常に重要なコンポーネントです。さまざまな空域の位置情報を適応的に集約するために使用されます。しかし、従来のセルフアテンションでは、多くの場合、高い計算の複雑さと長い遅延の問題が発生します。トークンミキサーを直接削除すると、構造的な事前設定が不完全になり、深刻なパフォーマンスの低下につながります。
この記事では、トークンミキサーのないアーキテクチャシステムを研究するために、重いパラメーターメカニズムに基づく RepIdentityFormer ソリューションを提案します。その直後、著者はトークンレスミキサーアーキテクチャの制限を打ち破るために学習アーキテクチャを改善し、5 つのガイドラインをまとめました。提案された最適化戦略と組み合わせることで、この記事は優れたパフォーマンスを備えた非常にシンプルなビジュアルバックボーンを構築し、さらに推論効率が高いという利点もあります。実験結果は、適切な最適化戦略を使用すると、ネットワーク構造の誘導バイアスを単純なアーキテクチャシステムに統合できることを示しています。この記事では、その後の最適化主導型の効率的なネットワーク設計のための新しい出発点とアイデアを提供します。

導入

ここ数年間のコンピュータビジョンの目覚ましい進歩は、畳み込みニューラルネットワーク (ConvNets) や (vit) などのビジョンバックボーンの革命によってもたらされました。これらはすべて、基本的な構成要素に、異なる空間的位置間の情報を集約するための特定のモジュールを備えており、これらのモジュールは、vit の self-attention など、トークンミキサーと呼ばれます。トークンミキサーの有効性は多くのビジョンタスクで実証されていますが、その計算の複雑さがネットワークの大部分を占めることがよくあります。実際には、重いトークンミキサーは、特にエッジデバイス上で、速度と計算コストの問題によりビジュアルバックボーンに制約を与えます。
文献には、視覚的なバックボーン削減のための効率的なトークンミキサーを研究する試みがいくつかあります。これらの作品は軽量設計によって競争力のあるパフォーマンスを実現していますが、次の図に示すように、トークンミキサーが残されており、無視できない遅延の増加が生じます。
- ViTBase のさまざまなコンポーネントのレイテンシー分析。 (a) トークンミキサー (セルフアテンション) 遅延は、バックボーンの約 46.3% を占めます。 (b) 私たちの動機は、パフォーマンスを維持しながらトークンミキサーを削除することです。
- 改訂された 12 層 ViT-B アーキテクチャに基づいて、著者はシステム遅延解析を実施しました (上の図を参照)。 Input Embedding のみを含むモジュールから開始して、LN、アテンション、MLP などのさまざまな操作ユニットが徐々に追加され、最終的に GAP と分類ヘッダーのない ViT-Base アーキテクチャが形成されます。図からわかるように、トークンミキサー部分には約 1433.6 ミリ秒かかり、アーキテクチャ全体の約 46.3% を占めます。
- トークンミキサーはモデルの遅延に非常に大きな影響を与えるため、実際の応用は間違いなく制限されます。当然のことながら、高いパフォーマンスを維持したまま Token Mixer を削除することは可能でしょうか?という疑問が生じます。 MetaFormer はトークンミキサーを使用しないアーキテクチャを提案しましたが、それが無視できないパフォーマンスの低下につながることが判明しました。これに基づいて、この記事は、高度な最適化戦略 (知識の蒸留、構造の再パラメータなど) を通じて、ミニマリスト ViT アーキテクチャの可能性を引き出すことを目的としています。。）。
最近の研究 [ビジョンのための Metaformer ベースライン] では、トークンミキサーを削除することは可能ですが、パフォーマンスが低下することが判明しました。効率的なトークンミキサーのこれらの探求は、トークンミキサーを削除しながらビジュアルバックボーンの有効性を維持できるか? 結果として得られるトークンミキサーのビジョンフリーバックボーンは、実際のアプリケーションで効率的かつ効果的であると考えるようになりました。
この作業では、まず現在のモデルアーキテクチャと学習パラダイムを確認します。これまでの研究のほとんどは、従来の教師あり学習を使用してモデルを最初から最適化しながら、構造の改善に焦点を当てていました。これとは異なり、単純化されたモデルアーキテクチャを採用し、単純なモデルの可能性を最大限に活用するための学習パラダイム設計を検討することを提案します。私たちの目標は、視覚的なバックボーンなしでトークンミキサー (つまり、上の図 (b) に示す IdentityFormer) の効率と有効性を同時に維持することです。この目的を達成するために、次の章では、シンプルかつ効果的な学習戦略である知識蒸留 (KD) について詳しく説明します。
私たちの主なアイデアは、強力な教師モデル (トークンミキサーあり) から学生モデル (トークンミキサーなし) に知識を抽出することです。以下の図に示すように、効率を維持しながら学生ネットワークのモデリング機能を拡張するための再パラメータ化のアイデアを具体化しました。具体的には、トレーニング用のトークンミキサーを置き換えるために、単純なアフィン変換が学生モデルに導入されています。推論中にアフィン変換パラメータを LayerNorm に組み込むことで、最終的にはスチューデントトークンミキサーが無料になります。
- RIFormer ブロックの構造の再パラメータ化。
- 著者はトレーニング段階で恒等変換ではなくアフィン変換を使用しており、上の図に示すように、チャネル次元でのスケーリングとシフト操作のみを実行します。 推論段階では、アフィン変換パラメータを LN 層にマージできるため、トレーニング中の LN+アフィン変換は LN+恒等式と同等になります 。
私たちは経験的に学習戦略を次のガイドラインにまとめます。このガイドラインが、この非常に単純なモデルの学習方法に光を当てることを願っています。特に、
- 1) グラウンドトゥルースラベルを使用しないソフト蒸留の方が効果的です。
- 2) 蒸留せずにアフィン変換を使用すると、パフォーマンスの低下を調整することが困難になります。
- 3) 提案されたブロック知識の蒸留 (モジュール模倣と呼ばれる) は、アフィン演算子のモデリング能力を活用するのに役立ちます。
- 4) 広い受容野をもつ教師は、限られた受容野をもつ生徒の育成に役立つ。
- 5) 教師モデルの事前トレーニングされた重み (トークンミキサーを除く) を生徒モデルにロードして、収束とパフォーマンスを向上させます。
上記のガイドラインに基づいて、最終的に、RepIdentityF フォーマー (RIF フォーマー) と呼ばれる、競争力のあるパフォーマンスと高効率を備えたトークンレスミキサービジョンモデルを取得します。 RIFormer は、MetaFormer とほぼ同じマクロおよびマイクロ設計を共有していますが、すべてのトークンミキサーを安全に削除します。定量的な結果は、当社のネットワークが ImageNet-1K での推論速度が速く、多くの主流バックボーンネットワークよりも優れていることを示しています。特徴分布と有効受容野 (ERF) の分析では、適切な最適化戦略を使用すると、明示的トークンミキサーによって導入された誘導バイアスを単純なネットワーク構造に暗黙的に組み込むことができることも示しています。要約すると、私たちの仕事の主な貢献は次のとおりです。
- 私たちは、現実世界のアプリケーションのニーズを満たすシンプルなモデルアーキテクチャを備えた高レベルの学習パラダイムを開発することで、視覚的なバックボーンを探求することを提案します。
- 私たちは再パラメータ化のアイデアを具体化し、トークンミキサー不要のビジュアルモデル RIFormer を確立しました。これは、誘導バイアスモデリング機能を向上させるだけでなく、高い推論効率も備えています。
- 私たちが提案した蒸留戦略の実践的なガイドは効果的であることが証明されており、視覚的なバックボーンの競争力を維持しながらトークンミキサーを排除しています。

事前準備と動機

このセクションでは、まずトークンミキサーの概念を簡単に説明します。次に、経験的なレイテンシ分析を通じて、推論速度に対する避けられない副作用を再検討することで、この論文の動機を紹介します。

暫定版: トークンミキサーの概念

コンセプトトークンミキサーは、特定のビジュアルバックボーン内でトークンミキシング機能を実行する構造です。これにより、さまざまな空間的位置からの情報を集約できます。たとえば、セルフアテンションモジュールは、入力特徴から線形投影されるクエリ、キー、値行列のコンポーネント間でアテンション関数を並行して実行することにより、ViT のトークンミキサーとして機能します。さらに、ResMLP は、空間 MLP をトークンミキサーとして扱うことにより、クロスパッチ線形サブレイヤーを適用します。上記のトークンミキサーの計算コストとメモリコストは、イメージスケールで 2 次になります。

モチベーション

このセクションでは、ViT モデルの定量的遅延分析を通じて、トークンミキサーの副作用に焦点を当てます。まず、基本的な構成要素のそれぞれに操作を含まず、入力エンベディングのみを含む、修正された 12 層 ViT-Base モデルから始めます。次に、各基本ブロックに運用コンポーネント (LN、アテンション、チャネル MLP など) を徐々に追加し、最終的に全体的な平均プーリング層と分類子ヘッドのない ViT-Base モデルを取得します。各モデルでは、 $224^2 で A100 GPU を使用します。$ 解像度でバッチサイズ 2048 を使用し、30 回の実行にわたる平均時間を計算してバッチを推定します。プロセス全体が 3 回繰り返され、中央の数値が統計的遅延となります。上の図に示すように、12 層のルールを積み重ねた後、トークンミキサーにより 1433.6 ミリ秒の追加遅延が発生し、これはバックボーンの約 46.3% を占めます。
上記の分析によると、トークンミキサーはモデルの遅延に明らかな副作用をもたらし、実際の適用を制限します。この観察から当然疑問が生じます:トークンミキサーを削除しながらバックボーンの有効性を維持できるでしょうか? 具体的には、最近の研究では、基本構成要素にトークンミキサーを含まない MetaFormer モデルが導入されており、それが無視できないパフォーマンスの低下を引き起こすことがわかりました。これらの発見に基づいて、帰納的バイアスと高度な最適化戦略 (知識の蒸留、構造の再パラメータ化など) を組み合わせて、非常に単純なモデルの可能性を最大限に活用することを提案します。探索の詳細については、残りの作業ですべて説明します。

RIFormer の探索: ロードマップ

このセクションでは、RIFormer の完全に監視されたアプローチから、より高度なトレーニングパラダイムに至るまでの軌跡について説明します。このプロセスでは、推論時間モデルを変更せずに、トランスフォーマーモデルと同様のさまざまな最適化スキームを研究および開発しました。私たちが使用するベースライン RIFormer は、推論中の基本的な構成要素でトークンミキサーを使用しないことを除いて、最近開発された MetaFormer とまったく同じマクロアーキテクチャとモデルサイズを備えています。 RIFormer-S12 モデルの計算複雑性は、約 12M のパラメータと 1.8G の MAC を備えた poolformer12 に匹敵するレベルに制御されています。このセクションのすべての RIFormer-S12 モデルは、ImageNet-1K で 120 エポックにわたってトレーニングおよび評価されました。ハイパーパラメータの詳細は、付録のセクション 1 に記載されています。私たちの探査ロードマップは次のとおりです。

トークンミキサーを使用しないビジョンバックボーン

私たちの調査は、推論時間モデルのビジュアルバックボーンの各基本ブロックにあるトークンミキサーを削除して、パフォーマンスを維持しながらより高い推論速度を実現することを目的としています。したがって、CE 損失を使用した完全教師ありトレーニングスキームを備えた RIFormerS12 モデルから始めます。パフォーマンスの参考として、PoolFormer-S12 と結果を比較します。PoolFormer-S12 はトークンミキサーとして基本的なプーリング操作のみを使用するため、パフォーマンスのギャップは基本的なトークンミキシング機能の欠如に起因すると考えられます。以下の表に示すとおりです。ほとんど監視を受けずにトレーニングされた RIFormer-S12 は、PoolFormer-S12 と比較して許容できないパフォーマンスの低下 (トップ 1 精度 2.7%) を引き起こす可能性があります。結果は、各ビルディングブロックにトークンミキサーがないと、従来の教師あり学習ではモデルが画像から有用な情報を学習するのに限界があり、より高度なトレーニングプロセスが必要 a>であることがわかりました。
- MetaFormer 上のさまざまなトークンミキサーのクロスエントロピー損失を使用した結果。
次に、ベースラインのパフォーマンスの低下を改善するために一連のトレーニングパラダイムを研究および修正します。これは、1) 知識の蒸留、2) 教師タイプの影響、3) 構造の再パラメータ化、4) 提案されたモジュール模倣手法、5) いくつかの負荷として要約できます。先生からのパラメータ。私たちの目標は、ネットワークアーキテクチャではなく、さまざまな高レベルのトレーニング構成の影響を調査することであるため、推論時間モデルのアーキテクチャは中間ステップでは常に一定に保たれます。次に、RIFormer のトレーニングに役立つ 5 つのガイドラインを紹介します。

蒸留パラダイム設計

私たちは現在、ユニバーサルビジュアルバックボーン教師によるトークンミキサーを使用した RI 元学生の知識の蒸留を研究し、強力な教師ネットワークからの「ソフト」ラベルを効果的に利用する方法をまとめています。ガイドライン 1:真実ラベルを使用しないソフト蒸留は、トークンミキサーを持たない生徒にも機能します。基本的に、既存の KD メソッドのほとんどは、トークンミキサーを備えたモデル向けに設計されています。たとえば、生徒が教師によって予測されたグラウンドトゥルースラベルとソフトラベルを学習できるようにするのが一般的です。さらに、DeiT のいくつかの観察では、監視ターゲットとしてソフトラベルの代わりにハードラベルを使用すると、トランスが大幅に改善される可能性があることが示されています。対照的に、Token Mixer Free Backbone には、基本ブロックに明示的なパッチ集約モジュールがありません。したがって、その蒸留は伝統的なバックボーンとは異なるはずです。具体的には、RIFormer はトランスフォーマーと同じマクロ構造を共有していますが、各ビルディングブロックから意図的にトークンミキサーを削除しているため、スチューデントトランスフォーマーとはみなされません。。ただし、RIFormer はマクロ/マイクロアーキテクチャ設計の点でトランスと類似点があるため、これを純粋な接続として考えることも好みません。したがって、我々は、パフォーマンスの良い RIFormer に適した KD メソッドを探索することに意欲的に取り組んでいます。
通常、クロスエントロピーの目的は、学生ネットワークが非常に正確なラベルを再現できるようにすることであり、このプロセスは RIFormer には適さない可能性があると考えられます。まず、ラベル平滑化正則化を通じてグラウンドトゥルースのハードラベルをソフト分布に変換します。真のラベルの重みは 1−ε で、各クラスは ε を共有します。学習されていない一様分布は、ネガティブクラスではあまり有益ではなく、教師によって与えられた学習済みの軟分布を妨げる可能性があります。第二に、1×1 畳み込みは実際には RIFormer の基本構成要素を支配しており、空間情報ではなく、各位置の特徴を「混合」するだけです。この簡素化された設計では、監視ラベルにより豊富な情報が必要になる場合があります。これを証明するために、以下の表では 4 つの異なるセットアップのパフォーマンスを比較しています。デフォルトの教師は GFNet-H-B (54M パラメータ) です。真のラベルを使用した硬蒸留により、精度が 72.31% から 73.51% に向上しました。その結果、トークンミキサーを持っている教師は、トークンミキサーを持たない生徒にプラスの影響を与えていることがわかりました。実際、真のラベルを使用せずにソフト蒸留を使用する組み合わせが最も優れたパフォーマンスを示し、ネットワークパフォーマンスが 74.05% 向上しました。
- トークンミキサーとして ID マッピングを使用したプレーン/ラベルなし RIFormer-S12 でのさまざまな教師タイプの結果。
備考 1. 真のラベルを使用した教師あり学習は、トークンミキサーを使用しないラフなモデルには最適な方法ではないようです。トークンミキサーを使用する教師はトレーニングの指導に役立ちますが、トークンミキサーをキャンセルした後でもパフォーマンスの差を完全に回復することはできず、他の戦略が必要です。

ID マッピングの再パラメータ化

ガイドライン 2: カスタム蒸留を行わずにアフィン変換を使用すると、パフォーマンスの低下から回復することが困難になります。このセクションでは、構造的再パラメータ化手法のアイデアを採用します。この手法は、通常、トレーニングに強力なモデルを使用し、推論中に単純なモデルに同等に変換します。具体的には、RIFormer の推論時トークンミキサーモジュールは、LN 層の背後にある ID マッピングとして見ることができます。したがって、トレーニング時間モジュールは少なくとも 2 つの基本要件を満たす必要があります。
- 1) 等価な変換を可能にする位置ごとの演算子。
- 2) パラメトリック演算子。追加の表現機能が可能になります。
- したがって、トレーニング中にアイデンティティマッピングをアフィン変換演算子に置き換えます。この演算子は、チャネルごとのスケーリングとシフトのみを実行します。上の図。 アフィン演算子とその前の層の LN は、重みが変更された LN に変換できるため、推論プロセス中に等価的に恒等マッピングに変換できます。入力特徴を M∈RN×C×H×W として記録すると、アフィン演算子は次のように表現できます。
- $t)_{:, i,:,:} = siM{:,i,:,:} + t_i − M_{:,i,:,:},$
ここで、s∈RC と t∈RC は学習可能な重みベクトルです。残りの接続により、実装中に入力の追加による減算が行われるため、上記の方程式の最初の項と 3 番目の項はマージされません。次に、その前にある LN 層にアフィン変換を組み込む方法について説明します。これにより、ブロック内にトークンミキサーを追加せずに、トレーニング時モデルをデプロイメント用のモデルに等価に変換できます。 μ、σ、γ、βを平均、標準偏差、および前の LN 層の学習されたスケーリング係数とバイアスとして使用します。 T(a)∈RN×C×H×W と T ' (a)∈RN×C×H×W を、それぞれ上図 (a) のアフィン残差サブブロックの入力と出力とする。トレーニング中は次のことを行います。
- $T^{′(a)} = Affine(LN(T^{ (a)}、μ、σ、γ、b)、s、t) − T^{(a)}$
- LN は、PyTorch の GroupNorm API によって実装される LN 関数 (グループ番号を 1 に設定) であり、[Metaformer は実際にビジョンに必要なものです]。推論中、残差サブブロック内の LN 層の後には ID マップが 1 つだけ存在します。したがって、次のようになります。
- $T^{′(a)} = LN(T^{(a)}, μ , σ , γ′ , b')、$
- このうち、γ'とβ'は、マージされたLN層の重みとバイアスパラメータです。上の方程式の等価性に基づいて、 ∀1≤i≤C の場合、次のようになります。
- $γ^{′i} = γ_i^{(si − 1)}、 β^{′i} = β_i^{(si − 1) }+ t_i,$
アフィン変換と再パラメータ化プロセスの証明と pytorch のようなコードは、それぞれ付録のセクション 2 とセクション 3 に示されています。 LN 層には推論時に事前に計算された平均値と標準偏差がないため、それらの特定の値は入力適応型であり、変換の等価性に影響しません。
注2.上の表を比較すると、構造再パラメータ化手法を直接使用する利点はありません。この現象は、LN 層のアフィン変換が、(非線形関数が追加されない場合) 導入した追加のアフィン演算子と直接マージできる線形変換であるためであると考えられます。したがって、両方がモデルの出力によってのみ監視される場合、追加パラメーターの可能性を最大限に活用できない可能性があります。同時に、教師と生徒の同型デザインは、各レベルのモジュールの知識伝達に適した方法を探求するきっかけを与えてくれました。

モジュールの模倣

ガイドライン 3: 提案されているチャンク化された知識の抽出は、モジュラー模倣と呼ばれ、アフィン演算子のモデリング能力を活用するのに役立ちます。以前に試したKD手法は、教師と生徒の間のネットワークのアウトプットのみに焦点を当てていました。教師トークンミキサーの有用な情報を活用するモジュール模倣 (MI) 方法を提案します。具体的には、事前学習済みの poolformer-s12 が教師ネットワークとして使用されます。以下の図に示すように、単純なアフィン演算子 (その前の LN 層) がトレーニング中の基本的なトークンミキサーの動作に近似すると予想されます。
- (a) RIFormer の包括的なトレーニングプログラム。 RIFormer は、各ブロックのトークンミキサーを削除します。 (b) モジュール模倣技術は、単純なアフィン変換を通じてトークンミキサーの動作を模倣することを目的としています。
- 完全に監視されたトレーニングシステムから、さまざまな最適化メカニズムを調査して指定する、より高度なトレーニングシステムへの探索パスを示します。 RIFormer は MetaFormer と同じマクロモジュールとマイクロモジュールを使用します。唯一の違いは、RIFormer がトークンミキサーを使用しないことです。
- 上記の分析を考慮して、著者は教師モデル TokenMixer の背後にある有用な情報を最大限に活用することをModule Imitationさらに提案しました。上の図に示すように、作成者は、アフィン操作がトレーニングプロセス中の TokenMixer の動作をほぼシミュレートできることを期待しています。この時点で、2 つの間の MSE を計算できます。
设f(・)， $T^{(a)，m}∈\R^{N×C ×高さ×幅}$ 、m∈m はアフィン演算子です。ここで、m は使用する中間層セットの RIFormer の m 番目の層です。入力, g(·), $T^{(T), m}∈\R^{N×C×H×W }$ 、m∈m はそれぞれ教師ネットワークの入力です。簡単のため、LN(・、μ、σ、γ、β) を LN(・) と省略します。アフィン演算子 LN 層とトークンミキサーの間の入力の平均二乗誤差 (MSE) は、次のように計算できます。
- $L_{in}=\alpha_1||LN(T^{(a),m} )-LN(T^{(t),m})||^2_F$
- 式中、α1 = 1/N CHWとなります。現在のレイヤーの入力フィーチャは、前のレイヤーの出力フィーチャであることに注意してください。したがって、実際には、このブロックの出力特徴 (つまり、次に続くブロックの入力特徴) を一致させることをお勧めします。これは、トランスフォーマーの隠れ状態蒸留と見なすことができます。
- $L^`_{in}=\alpha_1||T^{(a),m+ 1}-T^{(t),m+1}||^2_F$
- 次に、関係行列ベースの隠れ状態蒸留が出力特徴に適用されます。
- $L_{rel}=\alpha_2||RT^{^(a),m+1}- RT^{(t),m+1}||^2_F$
- 式中 $α_2 = 1/N H^2W^2, R(T) = ~ T ~T$ 、~ T は最後の次元の正規化された T を表します。アフィンオペレーターとトークンミキサーの間の出力の MSE を考慮してください。
- $L_{out}=\alpha_1||f(LN(T ^{(a),m}))-g(LN(T^{(t),m}))||^2_F$
- 上記の 3 つの方程式を組み合わせると、モーダル模倣による最終的な損失関数は次のように定義されます。
- $L=L_{soft}+\lambda_1L'_{in}+\lambda_2L_{out}+\lambda_3L_{rel}$
このうち、Lsoft はソフトロジット蒸留のターゲットであり、λ1、λ2、および λ3 は損失関数間のバランスを求めるハイパーパラメータです。タブで。 Feat と Rel は使用回数 (L'in、Lout) を表し、Lrel、Layer は使用する中間層の数を表します。結果は、モジュールの模倣がさまざまな状況で生徒の RIFormer にプラスの影響を与えることを示しています。 4 層設定とアフィン演算子の使用により、75.13% という最良の結果が得られ、上表の PoolFormer-S12 の結果 75.01% を上回りました。今後はこの設定を使用していきます。
注3。この現象の理由は、アフィン演算子が以前の LN 層を明示的に組み込む利便性を失うことなく、教師トークンミキサーの監視から暗黙的に恩恵を受けるのにモジュールの模倣が役立つためであると考えられます。さらに、モジュールの模倣により、特徴分布が効果的に教師ネットワークに近づき、より大きな有効受容野 (ERF) が示されることがわかりました。
原則 4: 高等教育を受け入れる教師は、低等教育を受け入れる学生の訓練を支援します。以下の表は、さまざまな教師構成の下での生徒の成績を比較したものです。 GFNet-H-B は、教師の間で ImageNet のトップ 1 パフォーマンスが最も高いわけではありませんが、モジュール模倣を使用するかどうかに関係なく、より良い選択肢として機能する可能性があります。
- さまざまな教師によるモジュール模倣 (MI) なしの RIFormer-S12 の結果。 *ImageNet-22K の事前トレーニングを示します。
- ハードラベル蒸留により、モデルのパフォーマンスが 72.31% から 73.51% に向上します。これは、TokenMixer を使用した教師モデルが、TokenMixer を使用しない学生モデルの促進に積極的な役割を果たすことができ、ソフトラベル蒸留が最高のパフォーマンスを達成でき、学生モデルのパフォーマンスが 74.05% に向上できることを示しています。
- 全体的に: 教師ありトレーニングパラダイムは、TokenMixer を使用しないアーキテクチャにとって最適なトレーニング方法ではないようです。TokenMixer を使用した教師モデルはトレーニングのガイドに役立ちますが、依然として TokenMixer の削除によって引き起こされるパフォーマンスの損失を補うことはできません。戦略を導入する必要があります。
注4.この事実は、教師と生徒の間の受容野のギャップによるものである可能性があります。誘導バイアスは、蒸留を通じてあるモデルから別のモデルに転送される可能性があります。この研究によると、大きな受容野を備えたモデル（たとえば、周波数領域で学習可能なグローバルフィルターを備えた GFNet）は、限られた受容野を持つ学生 RIFormer をより適切に導くことができます。
ガイドライン 5:事前トレーニングされた教師モデルの重み (トークンミキサーを除く) を生徒モデルにロードして、収束とパフォーマンスを向上させます。。私たちのアプローチは、基本ブロック内のトークンミキサーを排除して高速化を達成することを目的としたモデル圧縮技術として分類できます。知識の蒸留、量子化、モデルの高速化などの手法にヒントを得て、事前トレーニングされた重いネットワークの対応する重みを使用 (または部分的に使用) して軽量ネットワークの重みを初期化する、適切な初期化方法を探索します。私たちの目標はトークンミキサーのみを削除することであるため、残りの重みは残り、前回の作業では十分な注意が払われませんでした。対応する教師ネットワーク (アフィン演算子を除く) を使用して RIFormer の重みを初期化すると、パフォーマンスが 75.13% から 75.36% にさらに向上することがわかります。これで、RIFormer をトレーニングする最後の例になります。
これまでのところ、私たちは探索を完了し、RIFormer のトレーニングに適したパラダイムを見つけました。 MetaFormer とほぼ同じマクロ設計ですが、トークンミキサーは必要ありません。提案された最適化手法を利用することで、RIFormer は ImageNet-1K 分類においてトークンミキサーを使用した複雑なモデルよりも優れたパフォーマンスを発揮できます。これらの心強い発見は、次のセクションで次の質問に答える動機になります。 1) この非常にシンプルなアーキテクチャとトレーニングパラダイムのスケーリング動作。 2) さまざまな教師に対するパラダイムの普遍性。

実験

画像分類

設定。 1.2M のトレーニング画像と 50,000 枚の検証画像を含む ImageNet-1K の場合、通常、セクション 4 のガイドラインに従いながら、[メタフォーマー] でトレーニングスキームを適用します。データ拡張には、MixUp、CutMix、CutOut、RandAugment が含まれます。トークンミキサーを削除するモデル圧縮ジョブとして、強力なベースラインを作成することよりも、トークンミキサーの削除によって生じるパフォーマンスのギャップを解消することが間違いなく優先事項です。そこで、研修期間を600回に延長しました。また、事前トレーニングされたモデルを 30 エポックに微調整し、入力解像度は $384^2 でした。$ 。詳細については、付録を参照してください。
主な結果。以下の表は、ImageNet 上の RIFormer 分類の結果を示しています。私たちが主に考慮しているのは、エッジデバイスの遅延要件を満たすことであるため、スループットメトリクスに主に焦点を当てています。予想通り、RIFormer には他のタイプのバックボーンと比較してその構成要素にトークンミキサーが含まれていないため、速度上の利点が得られます。
- ImageNet-1K 上のさまざまなタイプのトークンミキサーを使用して結果をモデル化します。最大600回のトレーニングを表します。 ‡ImageNet の事前トレーニング済みモデルが 30 エポックにわたって微調整されていることを示します。
驚くべきことに、このような高速推論により、RIFormers はパフォーマンスに影響を与えることなく、トレーニング方法を使用してすべてのトークンミキサーを正常に削除しました。たとえば、RIFormer-M36 は 22 4 2 224^2/秒で実行できます $22 4^{2}$ 解像度では、最大 82.6% の精度で 1,185 枚以上の画像を処理します。比較すると、プールされたトークンミキサーを備えた最近のベースライン PoolFormer-M36 は、同じサイズの 1009 枚の画像を処理できますが、精度は 82.1% と低くなります。また、効率的なバックボーンである GFNet とも比較します。 FFT、要素ごとのスマート乗算、IFFT で構成されるグローバルフィルターを通じてトークンの混合を実行し、合計の計算量は O(N log N) になります。 GFNet-H-B はスループット 939 で 82.9% の精度を達成しますが、RIFormer-M48 は同等のスループット 897 で依然として 82.8% の精度を達成できます。同時に、推論時間 RIFormer の本体は 1 × 1 LN 変換のみに基づいており、複雑な 2D FFT や注意を必要とせず、ハードウェアの特殊化が容易になります。
RIFormer は、トークンミキサーなしでは、そのビルディングブロックで基本的なトークンミキシング操作さえ実行できないことに注意してください。ただし、ImageNet の実験では、提案されたトレーニングパラダイムを使用しても RIFormer が依然として有望な結果を示していることが示されています。この背後にある理由は、最適化戦略が重要な役割を果たしているためであるとしか考えられません。 RIFormer は、高度なトレーニングスキームを通じて保証されたパフォーマンスを備えた、最適化によって推進される効率的なネットワーク設計を探索するための開始レシピとして簡単に使用できます。
PoolFormer-S12 を出発点として、TokenMixer に使用される Pooling オペレーションを Identity に置き換え、トレーニングに従来の監視を使用すると、次のことがわかります。RIFormer-S12 は次のような結果をもたらします。許容できないパフォーマンスの低下 (約 2.7% の低下)。言い換えれば、TokenMixer 操作がない場合、従来の教師ありトレーニングでは、モデルによる有用な情報の学習を支援するのに一定の制限があり、より高度なトレーニングメカニズムが必要になります。

アブレーション研究

モジュール模倣の有効性。蒸留ベースのモジュラー模倣は、追加のアフィン演算子の適切な重みを学習するための重要な方法です。そこで、隠れ状態特徴抽出法（関係あり）と比較しました。 CE を失わずに軟蒸留を使用すると、以下の表に示す結果が得られます。詳細については、付録のセクション 4 を参照してください。特徴抽出の精度はモジュールシミュレーションの精度より 0.46% 低く、モジュールシミュレーションが追加の重みの最適化にプラスの効果があることを示しています。
- モジュール模倣の有効性に関するアブレーション研究。
さまざまなアクセラレーション戦略の比較。次に、トークンを削除することが他のスパース化戦略よりも優れているかどうかについて説明します。 PoolFormer ベースラインに基づいて、まず深さを 9 に減らし、その幅 (つまり、埋め込み次元) $\frac 56 を維持します。$ 合理化された PoolFormer-s9 および PoolFormer-xs12 を構築して、RIFormerS12 と同等の推論速度を実現します。また、セクション 4.2 の軟蒸留パラダイムに従います。以下の表に結果を示します。遅延を消費するトークンミキサーがなければ、深さまたは幅を直接プルーニングしても、私たちのものよりも優れたパフォーマンスは得られません。
- 奥行きや幅のスリム化との比較結果。
さまざまな先生に紹介されました。提案されたトレーニングパラダイムが一般的な圧縮手法であることを検証するために、学生用のメタフォーマーのアーキテクチャ変更を採用し、教師を他の 4 つの MetaFormer ベースラインに変更します。教師トークンミキサーは、ランドマトリックス、プーリング、分離可能な深さの畳み込みとして使用されます。そして注意。以下の表からわかるように、私たちのアプローチは、さまざまな深度設定や教師の状況において良い結果をもたらしています。
- 他の教師への一般化の結果。

モジュール模倣の分析。

Module Imitation (MI) は、RIFormer モデルの特徴分布を教師に近づけます。モジュール模倣の効果を次の図に示します。 poolformer-s12 と RIFormer-S12 では、ステージ 1 とステージ 4 の特徴分布に明らかな違いがあることがわかります。この記事で提案したモジュール模倣を適用した後、RIFormer-S12 の配布は基本的に poolformer-s12 の配布に移行し、生徒が教師から有用な知識を学ぶのに有効であることがわかります。
- PoolFormer-S12 および RIFormer-S12 の最初と最後のステージにおける特徴分布の視覚化。
モジュールの模倣は、より大きな有効受容野 (ERF) を明らかにするのに役立ちます。 ERF は、トレーニングされたモデルが応答できる画像領域のサイズまたはキャプチャされたオブジェクトのサイズ情報を反映します。出力特徴の中心点に対する入力の各ピクセルの累積寄与を測定することにより、ERF を視覚化します。 RIFormer はすべてのトークンミキサーを削除するため、以下の図に示すように、表示される ERF は PoolFormer のものよりもはるかに小さいことが予想されます。全体の領域で 1 つの正方形ピクセルのみが赤く表示されますが、これは PoolFormer よりもはるかに小さいです。しかし、驚くべきことに、モジュール模倣トレーニング後、赤がさまざまな場所に広く分布していることが観察できます。明らかな構造的な変化はありませんが、モジュールの模倣は依然として学習重みの変更に寄与しており、より大きな ERF を示しているようです。
- モジュール模倣あり/なしの PoolFormer-S12 および RIFormer-S12 の有効受容野 (ERF)。

制限と結論

このペーパーでは、ビジュアルバックボーンの基本的な構成要素であるトークンミキサーにはかなりの待ち時間コストがかかるため、それらを削除する方法を検討します。残りの構造を引き続き有効に保つために、トレーニングパラダイムを完全に再検討しました。適切な最適化戦略は、トークンフリーのハイブリッドモデルが別のモデルから有用な知識を学習し、パフォーマンスを向上させ、不完全な構造によって生じるギャップを埋めるのに効果的に役立つことがわかりました。検出、ブレ除去などのその他の視覚タスクについては制限については議論されていませんが、これについては今後の作業で対処します。

A. セクション 4 の詳細なハイパーパラメータ

この記事では主に、セクション 4 の探査ロードマップの実験設定をいくつか説明します。通常、このセクションでは RIFormer-S12 モデルを使用します。これは、ImageNet-1K で 120 エポックにわたってトレーニングおよび評価されます。すべての場合において、バッチサイズ 512 の AdamW オプティマイザーを採用します。 4.2 項と 4.3 項の蒸留実験では、GFNet-H-B が教師となってロジット蒸留が行われます。

B. 式 4 の証明

T(a)∈RN×C×H×W と T ' (a)∈RN×C×H×W を、それぞれメインの図 2-(a) のアフィン残差サブブロックの入力と出力とする。紙。トレーニング中は次のことを行います。
- $T' (a) = A ff in e (L N (T (a) 、 μ 、 σ 、 γ 、 β) 、 s 、 t) - T (a) ，（） 10$
- 式中、LN は LN 層、μ、σ、γ、β は LN 層の平均、標準偏差、学習可能なスケールファクターとバイアス、Affine はアフィン変換、s∈RC、t∈RC は学習可能なパラメータをスケールおよびシフトします。推論中に次のことが起こります。
- $T' (a) = L N (T (a) 、 μ 、 σ 、 γ', β') ，（ 11 ）$
- トレーニング (式 10) および推論 (式 11) 中のアフィン残差サブブロックの構造的再パラメータ化の等価性によると、 ∀1≤n≤n、∀1≤i≤C、∀1≤h≤h の場合、 ∀1≤w≤w の場合、次のようになります。
- 式 12 可画像表文 $γ' i = γi (s i - 1) 、 β' i = β i (s i - 1) + t i,$ 即等式4得证

PyTorch でのコード

アフィン演算子の PyTorch 風のコード

Alg. 1 では pytorch のようなアフィン変換コードを提供しており、これは RIFormer ブロックのトレーニング時間モデルに付加されています。アフィン変換は、カーネルサイズを 1 に、グループ番号を入力チャネルとして指定することにより、深さ方向の畳み込みとして実装できます。実装中に、残りの接続により入力が減算されます。

RIFormer ブロックの PyTorch 風のコード

pytorch のような RIFormer ブロックコードを提供し、アルゴリズム 2 で構造の再パラメータ化を実行します。

学習した係数の可視化

提案されたモジュール模倣アルゴリズムの有効性をさらに評価するために、モジュール模倣手法を使用した場合 (黒い点線の上) または使用しない場合 (黒い点線の下)、アフィン演算子の重み (s で示される) の学習係数を視覚化します。。具体的には、浅いブロック (ステージ 1、ブロック 1)、中間のブロック (ステージ 3、ブロック 6)、および深いブロック (ステージ 4、ブロック 1) に対して学習されたアフィン重みを提供します。以下の図に示すように、モジュール模倣を使用してトレーニングされたアフィンウェイトと、この手法を使用せずにトレーニングされたアフィンウェイトの間には違いがあります。次の図©は一例です。モジュラスを使用しないシミュレーションからのアフィンウェイトは比較的一貫性があり、より正の値を示します。対照的に、モジュールの模倣は、アフィンオペレーターがより多くの負の重みを学習するのに役立ち、これが RIFormer の表現力に貢献する可能性があります。同様に、以下の図 (b) では、モジュールを使用してシミュレートされたアフィン重みは、この方法を使用せずにシミュレートされたアフィン重みと比較して、より穏やかな振幅を持っています。
- (a) ステージ 1、ブロック 1、(b) ステージ 3、ブロック 6、© ステージ 4、ブロック 1 アフィン変換の学習係数ヒートマップ。学習係数の値は、正の数と負の数で異なる色で表されます。

活性化部分の可視化

[Metaformer は実際に視覚に必要なものです] に続いて、4 つの異なる事前トレーニング済みバックボーン、つまり RSB-ResNet50、DeiTS、PoolFormer-S24、および RIFormer-S24 で GradCAM によって得られた定性的な結果を提供します。 [Metaformer は実はビジョンに必要なもの] からもわかるように、transformer モデルのマップではアクティベーション部分が分散しているのに対し、convnet のマップではアクティベーション部分が集まっています。興味深いことに、さらに 2 つの観察が可能です。まず、提案されたモジュール模倣アルゴリズムで訓練された RIFormer は、convnet とTransformer の特性を組み合わせているように見えます。その理由は、RIFormer がTransformer と同じ一般的なアーキテクチャを持っているものの、何の注意も払われていない (つまり、トークンミキサー) ため、本質的に convnet であるためであると考えられます。第 2 に、RIFormer マップの活性化部分は PoolFormer と同様の特性を示します。これは、知識蒸留プロセスを通じて教師モデルから暗黙的に導入された誘導バイアスによるものと考えられます。
- ImageNet-1K 上の 4 つの異なる事前トレーニング済みバックボーンの Grad-CAM アクティベーションマップ。視覚化のために検証セットから 4 つの画像を抽出します。

[いくつかの論文を読む] RIFormer: ビジョンバックボーンを効果的に保つが、トークンミキサーを削除すると、時間のかかるコンポーネントが削除され、トレーニングテクニックを使用してポイントが向上します

RIFormer: ビジョンバックボーンを効果的に保ちながらトークンミキサーを削除

抽象的な

導入

関連作業

ビジョントランスフォーマーの加速

構造の再パラメータ化

事前準備と動機

暫定版: トークンミキサーの概念

モチベーション

RIFormer の探索: ロードマップ

トークンミキサーを使用しないビジョンバックボーン

蒸留パラダイム設計

ID マッピングの再パラメータ化

モジュールの模倣

実験

画像分類

アブレーション研究

モジュール模倣の分析。

制限と結論

A. セクション 4 の詳細なハイパーパラメータ

B. 式 4 の証明

PyTorch でのコード

アフィン演算子の PyTorch 風のコード

RIFormer ブロックの PyTorch 風のコード

学習した係数の可視化

活性化部分の可視化

おすすめ

[いくつかの論文を読む] RIFormer: ビジョン バックボーンを効果的に保つが、トークン ミキサーを削除すると、時間のかかるコンポーネントが削除され、トレーニング テクニックを使用してポイントが向上します

RIFormer: ビジョン バックボーンを効果的に保ちながらトークン ミキサーを削除

抽象的な

導入

関連作業

ビジョントランスフォーマーの加速

構造の再パラメータ化

事前準備と動機

暫定版: トークン ミキサーの概念

モチベーション

RIFormer の探索: ロードマップ

トークンミキサーを使用しないビジョンバックボーン

蒸留パラダイム設計

ID マッピングの再パラメータ化

モジュールの模倣

実験

画像分類

アブレーション研究

モジュール模倣の分析。

制限と結論

A. セクション 4 の詳細なハイパーパラメータ

B. 式 4 の証明

PyTorch でのコード

アフィン演算子の PyTorch 風のコード

RIFormer ブロックの PyTorch 風のコード

学習した係数の可視化

活性化部分の可視化

おすすめ

[いくつかの論文を読む] RIFormer: ビジョンバックボーンを効果的に保つが、トークンミキサーを削除すると、時間のかかるコンポーネントが削除され、トレーニングテクニックを使用してポイントが向上します

RIFormer: ビジョンバックボーンを効果的に保ちながらトークンミキサーを削除

暫定版: トークンミキサーの概念