【ICCV2023】スケールを意識した変調とトランス

スケールを意識した変調とトランス、ICCV2023

論文: https://arxiv.org/abs/2307.08579

コード: https://github.com/AFeng-x/SMT

解説:ICCV2023 | スケールを意識したモジュレーションとトランスフォーマーが出会うとき、どんな火花が衝突するのか?- 志胡 (zhihu.com)

まとめ

本稿では、CNN と ViT を組み合わせることにより、さまざまな下流タスクを効率的に処理できる新しいビジュアル トランスフォーマーである Scale-Aware Modulation Transformer (SMT) を提案します。SMT で提案されているスケールアウェア変調 (SAM) は、2 つの主要な新しい設計で構成されています。

  • マルチヘッド ハイブリッド コンボリューション (MHMC) モジュール。マルチスケールの特徴を捕捉し、受容野を拡張できます。
  • 軽量でありながら効果的な Scale-Aware Aggregation (SAA) モジュールにより、さまざまなヘッドからの情報の融合が可能になります。これら 2 つのモジュールを利用することで、畳み込み変調がさらに強化されます。

さらに、この論文では、ネットワークが深くなるにつれてローカルな依存関係のキャプチャからグローバルな依存関係への移行を効果的にシミュレートできる進化的ハイブリッド ネットワーク (EHN) を提案し、パフォーマンスの向上につながります。モデルの有効性は、ImagNet、COCO、ADE20k などのタスクで検証されています。ImageNet-22k で事前トレーニングした後、SMT は、わずか 8,050 万のパラメーターを使用して ImageNet-1k で 88.1% の精度を達成しました。

序章

マルチレベル ネットワーク アーキテクチャの場合、ViT のセルフ アテンションを使用する際の 2 次の複雑さは、浅い特徴マップの解像度が高いため、深刻な計算負荷をもたらします。したがって、浅いステージに対して効率的なアテンション計算メカニズムをどのように設計するかが非常に重要です。

  • Swin や CvT、PvT、Shuted Transformer などに代表される以前の階層 (マルチスケール) モデルのほとんどは、より効率的なアテンション計算ユニットの設計に貢献しました。
  • 他の方法は注意力を直接向上させるものではありませんが、CNN と Transformer の構造を混合して計算コストを削減し、2 つの構造の利点を統合します。

ViT 論文では、Transformer モデルの注意捕捉依存関係は、浅層がローカル情報を捕捉し、深層がグローバル情報を捕捉することであると提案されており、この特徴はマルチレベル ネットワーク アーキテクチャでも現れるでしょう。浅い層で Transformer の代わりに CNN を使用すると、注意の計算コストを効果的に削減し、ローカル情報をより適切にモデル化できます。

ただし、畳み込みを特徴マップに直接適用するだけでは、必要な情報を効果的に取得できません。畳み込み変調ネットワークは、畳み込み変調を使用して周囲のコンテキストを集約し、適応的に変調することができるため、モデリング能力が強化されます。

したがって、この論文では、新しい畳み込み変調であるスケールアウェア変調 (SAM) を提案します。これには、マルチヘッド混合畳み込み (MHMC) とスケールアウェア アグリゲーション (スケールアウェア アグリゲーション、SAA) の 2 つのモジュールが含まれます

  • MHMC モジュールは、受容野を強化し、同時にマルチスケールの特徴を捕捉することを目的としています。
  • SAA モジュールは、軽量アーキテクチャを維持しながら、さまざまなヘッドの機能を効率的に集約することを目的としています。

これらの改善にもかかわらず、SAM は長期的な依存関係を捕捉する際の自己注意メカニズムが不十分です。この目的を達成するために、進化型ハイブリッド ネットワーク (EHN) と呼ばれる新しいハイブリッド変調変圧器アーキテクチャが提案されています。

  • 具体的には、SAM ブロックが最初の 2 つのステージに導入され、Transformer ブロックが後の 2 つのステージに含まれ、新しいスタッキング戦略が最後から 2 番目のステージに導入されます。このアーキテクチャは、浅い層から深い層までの長距離依存関係の変化をシミュレートするだけでなく、各ステージの各ブロックがその計算特性と一致することを可能にし、その結果、さまざまな下流タスクのパフォーマンスが向上します。

全体として、提案されたアーキテクチャはスケールアウェア変調トランス (SMT) と呼ばれます。

SMT方式

SMT ネットワークは 4 つのステージで構成され、各ステージのダウンサンプリング レートは {4、8、16、32} です。

  • まず最初の 2 つのステージでスケールアウェア変調 (SAM) を採用し、
  • 次に、SAM ブロックとマルチヘッド セルフ アテンション (MSA) ブロックが最後から 2 番目のステージで順次スタックされ、ローカルな依存関係のキャプチャからグローバルな依存関係への移行をモデル化します。
  • 最後の段階では、長距離の依存関係を効率的に取得するために MSA ブロックのみが使用されます。

スケールを意識した変調

SAM モジュールには、MHMC と SAA という 2 つの主要な部分が含まれています。 

 マルチヘッド混合コンボリューション(MHMC)

カーネル サイズが異なる複数の畳み込み層が導入され、複数のスケールで空間特徴をキャプチャできるようになります。N ヘッドを大きく設定すると、大規模なコンボリューション カーネルを導入して受容野を拡張し、長距離依存関係をモデル化する能力を強化できます。図 2(b) に示すように、MHMC は入力チャネルを N 個のヘッドに分割し、独立した深さ方向に分離可能な畳み込みを各ヘッドに適用します。コンボリューション カーネル サイズを 3x3 に初期化し、ヘッドごとに増加します。ヘッドの数を調整することで、受容野の範囲や多粒子情報を調整します。

​​​​

図 4(a) に示すように、それぞれの個別の畳み込み特徴マップは、予想どおり、適応的な方法で異なる粒度の特徴に焦点を当てることを学習します。図の変調マップを視覚化して、単一ヘッドと複数ヘッドを比較する際に注目してください。図 4(b) に示すように、マルチヘッドでの視覚化では、背景情報を効果的にフィルタリングしながら、第 1 段階で前景オブジェクトとターゲット オブジェクトの輪郭を正確に描写することがわかります。さらに、ネットワークが深くなるにつれて、ターゲット オブジェクトの全体的な形状を表示できますが、詳細に関連する情報はシングルヘッド コンボリューションでは失われます。これは、MHMC が浅い段階では単一のヘッドよりも局所的な詳細をより適切にキャプチャしながら、ネットワークが深くなるにつれてターゲット オブジェクトの詳細なセマンティック情報を維持することを示しています。

スケールを意識した集約

MHMC の複数のヘッド間の情報交換を強化するために、図 2(c) に示すように、Multi-Scale Aware Aggregation (SAA) と呼ばれる新しい軽量の集約モジュールが導入されています。SAA はまず、MHMC によって生成されたさまざまな粒度の機能を再編成してグループ化します。具体的には、各ヘッドからチャネルを選択してグループを構成し、各グループ内でアップダウン特徴融合を実行してマルチスケール特徴の多様性を高めます。Num_group = C / N_head、C は入力チャネルの数です。これは、グループの数が MHMC のヘッドの数に反比例し、各グループには N 個の機能チャネルのみが含まれることを意味します。続いて、1x1 畳み込みを使用してグループ内パターンのグループ間情報融合を行い、軽量で効率的な集約効果を実現します。

図 5 は、SAA モジュールが意味的に関連する低周波信号を明示的に強化し、ターゲット オブジェクトの最も重要な部分に正確に焦点を当てていることを示しています。たとえば、ステージ 2 では、対象物の基本的な特徴として目、頭、胴体が明確に強調表示され、分類性能が大幅に向上します。畳み込みマップの事前集約と比較して、SAA モジュールは、視覚認識タスクの重要な特徴を捕捉して表現する優れた能力を示します。

スケールを意識した変調トランス

MHMC を使用してマルチスケールの空間特徴をキャプチャし、SAA を通じて集約した後、モジュレーターと呼ばれる出力特徴マップが取得されます。次に、V はこの変調器でスカラー積を使用して変調されます。

 

進化するハイブリッドネットワーク 

より良いコンピューティングパフォーマンスを達成するために、ネットワークのキャプチャ範囲依存性の変化パターンに従って適切なコンピューティングモジュールを再割り当てすることが提案されています。最後から 2 番目のステージでは 2 つのハイブリッド スタッキング戦略が提案されています。(i) SAM ブロックと MSA ブロックを順次スタッキングします。(ii) ステージの前半には SAM ブロックを使用し、後半には MSA ブロックを使用します。(i) ハイブリッドスタッキング戦略はより効果的です。

最後から2番目の段階におけるMSAブロックの相対的な受容野を計算した。浅層の相対受容野は最初は若干下降傾向にあります。この低下は、初期の MSA ブロックに対する SAM の影響に起因すると考えられ、この現象はコンピューティング ユニットの適応期間と呼ばれます。ネットワークが深くなるにつれて、受容野は着実な上昇傾向を示していることがわかります。これは、提案された進化的混合ネットワークが、ローカルな依存関係の捕捉からグローバルな依存関係の捕捉への移行を効果的にシミュレートしていることを示しています。

実験

比較実験

分類タスク: 

 

物体検出タスク: 

 

タスクを分割する: 

 

 アブレーション実験

 

 

 

 

おすすめ

転載: blog.csdn.net/m0_61899108/article/details/131904425