【ICCV2023】効率的なグローバルトークンミキサーとしての適応周波数フィルター

効率的なグローバルトークンミキサーとしての適応周波数フィルター

論文: https://arxiv.org/abs/2307.14008

コード: まだオープンソースではありません

解釈:ICCV23|軽量ビジュアルバックボーンネットワークAFFNet:周波数領域適応帯域フィルタリング=空間領域グローバルダイナミックラージコンボリューションカーネル - Zhihu (zhihu.com)

まとめ

最近のビジョン トランスフォーマー、ラージ コア CNN、および MLP は、地球規模での効果的な情報融合により、ビジョン タスクにおいて目覚ましい成功を収めています。ただし、セルフアテンション メカニズム、大規模なカーネル、または完全に接続されたレイヤーの計算コストが高いため、特にモバイル デバイス上での効率的な展開は依然として注目すべき課題に直面しています。この研究では、従来の畳み込み定理を深層学習に適用してこの問題を解決し、適応周波数フィルターが効率的なグローバル トークン ミキサーとして機能できることを明らかにしました。

これに基づいて、この論文では適応周波数フィルタリング (AFF) トークン ミキサー、つまり適応周波数フィルタリング トークン ミキサーを提案します。フーリエ変換を通じて特徴を周波数領域に変換し、次の関係の数学的等価性を使用します。

  • 周波数領域では、「位置ごとの乗算演算を通じてさまざまな周波数帯域の特徴をフィルタリング」します。
  • 空間ドメインでは、「サイズが特徴のサイズである動的畳み込みカーネルを使用して特徴ブレンディング操作を実行する」。

AFF トークン ミキサーは、AFFNet と呼ばれる軽量ニューラル ネットワークを構築するためのメイン ニューラル オペレーターとして機能します。

実験結果によると、他の軽量ネットワーク設計と比較して、AFFNet は視覚認識タスクや高密度予測タスクなど、ほとんどの視覚タスクでより優れた精度と効率のトレードオフを実現しています。

モチベーション

AFFNet は、適応周波数帯域フィルタリング オペレーターである適応周波数フィルタリング トークン ミキサーを設計しました。

畳み込み定理を使用すると、ドメイン内の畳み込みは、対応するフーリエ ドメイン内のアダマール積 (Elementwise 積とも呼ばれる) に数学的に等しくなります。その機能は、次のようなセルフ アテンションと一致するように努めています。

  • グローバル情報モデリング (大規模なスコープ): 周波数領域でアダマール積演算を実行することは、空間領域で大規模なコンボリューション カーネル演算を実行することと同等です。
  • 入力適応型 (インスタンス適応型): セルフ アテンションのもう 1 つのプロパティは入力適応です。つまり、計算されたアテンションの重みは入力画像のコンテンツに関連付けられます。動的畳み込みはこの特性を満たしますが、特に大規模なカーネル畳み込みの場合、計算コストが高くなるという問題もあります。コンボリューション カーネルを直接増やしてこの要求に直接応えることは困難です。

方法

トークンミキシングプロセスの表現

特性 について x^q、トークン混合後に得られるプロセスはN(x^q) 次の式で統一的に記述できます。

CNN モデルの場合、大規模なコンボリューション カーネルが使用される場合、コンボリューションの計算量はトークンの総数と関係があり、O(N^2)Transformer モデルの場合、セルフ アテンションの計算量も総トークン数と関係があります。トークンのO(N^2)MLP-Mixer モデルでは、グローバルな受容野を実現するために多数の重みパラメーターが必要です。したがって、適応型周波数帯域フィルタリング オペレーターは、周波数領域を使用して、効率的でグローバルな入力適応型オペレーターを設計したいと考えています。

適応型周波数帯域フィルタリング演算子の原理

畳み込みプロセスは次のように表現できます。 

AFFNet ネットワークおよび適応型周波数帯域フィルター オペレーター 

図 2: 適応周波数帯域フィルタリング演算子、左: 空間領域の特徴を周波数領域に変換して演算する、右: 空間領域で直接動的畳み込みを行う演算は互いに同等

AFFNet ネットワーク アーキテクチャ:各層には、MBConv モジュールと適応周波数帯域フィルター オペレーターが含まれています。レイヤー正規化は、Transformer アーキテクチャの一般的なパラダイムに従って使用されます。全体的なアーキテクチャは次のように記述できます。

複数の AFF ブロックをスタックして、軽量のバックボーン ネットワーク、つまり AFFNet を構築します。AFFNet は、従来の Convolution Stem を使用して入力画像を処理し、各ステージ間で Fusion モジュールを使用して機能を融合します。

適応型周波数帯域フィルタリング オペレータ プロセス:

  1.まず、入力特徴に対して高速フーリエ変換(FFT) を実行して、入力特徴を周波数領域に変換しますX_F=\数学{F}(X)\数学{F}(X)

 高速フーリエ変換の計算量は ですO(NlogN)

  2.学習可能な周波数領域フィルターを通じて \mathcal{M}(\mathcal{F}(X))入力周波数領域特徴をドット乗算します。

その中には、\mathcal{M}(\mathcal{F}(X)) 周波数領域の特徴と同じ形状を持つ学習可能な周波数領域フィルターがあります。ネットワークを可能な限り軽量にするために、\mathcal{M}(\cdot)1×1畳み込み層、つまり線形層、ReLU活性化関数、線形層で実装されています。

 3.逆高速フーリエ変換 (IFFT) を通じて空間ドメインに変換し直します。

この時点で、\hat{X}これはトークン ミキサーの重みとしてラージコアの動的畳み込みを使用して得られる出力結果と数学的に等価です。​​​​

等価関係は次のとおりです

 その中に、 \mathcal{F}^{-1}[\mathcal{M}(\mathcal{F}(X))]と同じ形状のテンソルがあります。したがって、これは \hat{X} 数学的には、トークン ミキサーの重みとしてラージコアのダイナミック コンボリューションを使用することによって得られる出力結果と等価です。フーリエ変換の特性に従って、X には円形パディングが使用されます。

適応周波数帯域フィルタリング オペレーターは、非常に軽量なネットワークを使用して学習可能な周波数領域フィルタを構築し \mathcal{M}(\cdot)、 \mathcal{M}(\cdot)適応周波数フィルタリングの周波数領域特徴とのアダマール積を計算します。最後に、フィーチャは逆フーリエ変換を通じて空間ドメインに変換されます。この時点で、周波数領域の適応型周波数帯域フィルタリングは、空間領域におけるグローバルな動的大規模コンボリューション カーネルと同等になります。

異なる周波数演算を使用する演算子の比較: 

実験

ImageNet-1K 画像認識 

 

COCO オブジェクト検出と ADE20k セマンティック セグメンテーション

アブレーション実験

周波数領域における混合情報の有効性を検証するために、著者らは、元の領域と周波数領域で同じ適応フィルタリング操作を適用することを比較しました。つまり、すべてのフーリエ変換と逆フーリエ変換を破棄し、その他は AFFNet と同じで、「Base.+AFF w/o FFT」という名前です。同じモデルの複雑さの下では、AFFNet のトップ 1 精度は 1.4% と大幅に高くなります。元のドメインに適応フィルタリングを適用することは、単に Conv をトークン ミキサーとして使用するよりもさらに弱くなります (「Base.+Conv-mixer (3×3)」という名前で 78.6% のトップ 1 精度を達成)。これは、適応周波数フィルターのみが適用されることを示しています。効果的なグローバルトークンミキサーとして機能できます。 

異なる周波数演算を使用して比較する 

 

おすすめ

転載: blog.csdn.net/m0_61899108/article/details/132384275