ICCV 2023 | 軽量ビジュアル ネットワークの新しいバックボーン: フーリエ演算子の効率的なトークン ミキサー

ハート・オブ・ザ・マシーン編集部

Microsoft Research Asia の研究者らは、トークンに対してフーリエ変換を実行することは、超大規模な適応コンボリューション カーネルを使用してトークン融合を実行することと数学的に同等であり、前者の計算コストは​​後者の計算コストよりもはるかに低いことを発見しました。この核となる発見に基づいて、研究者らは適応フーリエ フィルター (AFF) と呼ばれる軽量で効率的なトークン ミキサーを設計しました。これにより、トークン融合の計算量が O (N^2) から O (N log N) に軽減され、次のようになります。軽量ビジュアル ニューラル ネットワーク バックボーン AFFNet を構築するための基本的なオペレーター。バックボーン ネットワークは、550 万のモデル パラメーターを備えた ImageNet-1K で 79.8% の精度を達成できます。

1. 背景

近年、Transformer、ラージカーネル CNN、MLP に基づく 3 つのビジュアル バックボーン ネットワークは、世界規模での効率的な情報融合機能のおかげで、幅広い CV タスクで目覚ましい成功を収めています。

既存の主流である Transformer、CNN、MLP の 3 つのニューラル ネットワークは、それぞれ独自の手法でグローバル トークンの融合を実現しています。このうち、Transformer ネットワークのセルフ アテンション メカニズムは、Query-Key ペアの相関関係を Token fusion の重みとして使用します。CNN は、カーネル サイズを拡張することで、Transformer と同様のパフォーマンスを実現します。MLP は、すべてのトークン間の完全な接続を通じて、別の強力なパラダイムを実装します。これらの方法はすべて効果的ですが、計算の複雑さ (O(N^2)) が高いため、ストレージと計算能力が限られているデバイスに導入することが難しく、多くのモデルの適用範囲が制限されます。

2. AFF トークン ミキサー: 軽量、グローバル、適応型

この計算コストのかかる問題を解決するために、研究者らは適応フーリエ フィルター (AFF) と呼ばれる効率的なグローバル トークン融合演算子を構築しました。フーリエ変換を通じてトークン セットを周波数領域に変換し、同時に周波数領域でコンテンツ適応フィルタリング マスクを学習し、周波数領域空間に変換されたトークン セットに対して適応フィルタリング操作を実行します。

论文《効率的なグローバルトークンミキサーとしての適応周波数フィルター》:

995fb23bbd8aa17f21fcd8726a619b30.jpeg

リンク: https://arxiv.org/abs/2307.14008

周波数領域の畳み込み定理によれば、元の領域での畳み込み演算は、フーリエ領域での対応するアダマール積演算と数学的に等価です。これにより、この研究で提案された AFF トークン ミキサーは、元のドメインでトークン融合を実行するためにトークン セットと同じ空間解像度を持つ動的コンボリューション カーネルを使用することと数学的に同等になります (下の右のサブ図に示すように)。グローバル スコープでのコンテンツ適応型トークンの融合。

周知のとおり、動的畳み込みの計算オーバーヘッドは高く、高い空間解像度を持つ動的畳み込みカーネルのオーバーヘッドは、効率的で軽量なネットワーク設計にはさらに許容できないようです。しかし、この論文で提案する AFF トークン ミキサーは、上記の利点を同時に満たす低電力同等の実装として使用でき、複雑さを O (N^2) から O (N log N) に削減し、大幅に削減します。計算効率の向上。

9545e053667595cdf6fd69a60084c0fe.jpeg

図 1: AFF モジュールと AFFNet ネットワークの概略図。

3. AFFNet: 軽量ビジュアル ネットワークの新しいバックボーン

研究者らは、AFFNet と呼ばれる軽量ニューラル ネットワークを構築するためのメイン ニューラル ネットワーク オペレーターとして AFF Token Mixer を使用しました。広範な実験により、AFF トークン ミキサーは、視覚的意味認識や高密度予測タスクを含む、幅広い視覚タスクにおいて優れた精度と効率のトレードオフを達成していることが示されています。

4. 実験結果

研究者らは、視覚的な意味認識、セグメンテーション、検出などの複数の視覚タスクに関して提案された AFF トークン ミキサーと AFFNet を評価し、現在の研究分野で最も先進的な軽量ビジュアル バックボーン ネットワークと比較しました。実験結果は、この作業で提案されたモデル設計が広範囲の視覚タスクで良好に機能することを示し、提案された AFF トークン ミキサーが新世代の軽量で効率的なトークン融合オペレーターとしての可能性を検証しました。

ae64de24852031a48089360889ba87ce.jpeg

図 2: SOTA と比較した ImageNet-1K データセットの Acc-Param、Acc-FLOPs 曲線。

45dc20764011eda73ce434dcc53499c3.jpeg

表 1: ImageNet-1K データセット上の SOTA との比較

3b5a98468f2b4c32c5dbb7674722d8d9.jpeg

表 2: 下流タスク (視覚的検出とセグメンテーション) と SOTA の比較。

5。結論

この研究結果は、潜在空間における周波数領域変換がグローバル適応トークン融合の役割を果たすことができることを数学的に証明しており、高性能かつ低消費電力のニューラルネットワークにおけるグローバル適応トークン融合と同等の実現である。これにより、ニューラル ネットワークにおけるトークン融合演算子の設計に関する新しい研究アイデアが開かれ、ストレージとコンピューティング機能が限られたエッジ デバイス上でニューラル ネットワーク モデルを展開するための新しい開発スペースも提供されます。

公式アカウント「機械学習とAI生成の創造」に注目してください。もっと面白いことがあなたを待っています

寝転がって6万語!30方向130記事!CVPR 2023 の最も完全な AIGC 論文! 一気に読んで

安定拡散の簡単解説:AI塗装技術の潜在的な拡散モデルの解釈

制御可能なAIGC絵画生成アルゴリズムControlNetを徹底解説! 

クラシック GAN は次のように読む必要があります: StyleGAN

f17730887e1352a54c20b602e0287fd4.png GANのシリーズアルバムを見るには私をクリックしてください~!

一杯のミルクティーでAIGC+CVビジョンのフロンティアになろう!

最新かつ充実の100まとめ!拡散モデルの生成 拡散モデル

ECCV2022 | 対立ネットワーク GAN 生成に関する論文まとめ

CVPR 2022 | 25 以上の方向性、最新の 50 の GAN 論文

 ICCV 2021 | 35 のトピックに関する GAN 論文の概要

記事数は110以上!CVPR 2021 で最も完全な GAN ペーパーコーミング

記事数は100以上!CVPR 2020 で最も完全な GAN ペーパーコーミング

新しい GAN の解体: デカップリング表現 MixNMatch

StarGAN バージョン 2: マルチドメイン ダイバーシティ イメージの生成

添付のダウンロード | 「Explainable Machine Learning」の中国語版

添付のダウンロード | 「TensorFlow 2.0 ディープ ラーニング アルゴリズムの実践」

添付のダウンロード | 「コンピューター ビジョンにおける数学的手法」シェア

「深層学習に基づく表面欠陥検出手法の検討」

ゼロショット画像分類の調査: 10 年間の進歩

「ディープニューラルネットワークに基づく少数ショット学習の調査」

『礼書・薛記』には、「友なしで一人で学ぶのは孤独で無知だ」という言葉がある。

ミルク ティー カップをクリックして、AIGC+CV ビジョンのフロンティア ウェイバーになりましょう! 、  AI によって生成された創造物とコンピューター ビジョンの 知識の惑星に参加してください。

おすすめ

転載: blog.csdn.net/lgzlgz3102/article/details/132309989