ICCV 2023 | USTC と MSRA が共同で軽量ニューラル ネットワーク アーキテクチャ AFFNet: 適応周波数フィルターを提案

ガイド

论文:《効率的なグローバルトークンミキサーとしての適応周波数フィルター》

TL;DRtoken : この論文では、主に畳み込み定理を使用して、適応周波数フィルターが効率的なグローバル ミキサーとして機能できることを明らかにしています。これにより、グローバルtoken混合を潜在空間内のラージカーネル畳み込みとして実装でき、Hadamard周波数領域での積演算によって効率的に実装できます。

問題定義

現在、CNN、Transformer、MLP という 3 つの主流のビジュアル インフラストラクチャはすべて、主に地球規模での効果的な情報融合により、主要なビジュアル タスクで良好なパフォーマンスを発揮します。ただし、セルフアテンション メカニズム、大規模な畳み込みカーネル、完全接続層の計算コストが高いため、特にモバイル デバイスでの効率的な導入は依然として課題となっています。

解決

この目的を達成するために、新しい適応周波数フィルターが本日導入されました。この方法は、潜在表現を周波数領域に転送し、要素ごとの乗算を介して意味的に適応的な周波数フィルタリングを実行します。tokenこの操作は、元の潜在空間で動的畳み込みカーネルを使用するハイブリッド操作と数学的に同等です。さらに、著者は、AFF token mixerメインのニューラル オペレーターとして、 と呼ばれる軽量ニューラル ネットワークを構築しAFFNet、実験を通じてその有効性と効率性を実証しました。

最終的に、グローバル ミキシングは、周波数領域に転送してそこで演算を実行することによってtoken効果的に実行できます。一方、高速フーリエ変換 (FFT) を採用することで、トークン混合の複雑さを効果的に軽減できます。 ( N 2 O(N^{2}) に縮小 ( N ああ g N O(N logN)

方法

多くの主流のニューラル ネットワークでは、token非ローカル表現の学習が視覚的な理解の鍵となるため、混合が非常に重要です。まず、コンテキスト領域でトークンを混合することによってトークンを更新する、統一されたトークン混合方法について説明します。著者らは、CNN、Transformer、MLP のさまざまなタイプのネットワーク アーキテクチャに対する既存のトークン混合手法をレビューし、その効率と有効性に関する問題を指摘しています。興味のある学生は原文を参照してください。ここでは詳しく説明しません。

では、トークンミキシングとは何でしょうか?

画像を処理するニューラル ネットワークでは、入力は多くの場合、小さな正方形、つまり「トークン」に分割されます。これらのトークンは、ネットワークの層を通じて処理されます。トークンの混合とは、これらの小さな四角形が相互に作用し、情報を組み合わせる方法を指します。これは、画像のさまざまな部分間の対話として考えられ、画像全体をより深く理解するために情報を共有します。

次に、「適応周波数フィルタリング」をどのように理解すればよいでしょうか?

  • アダプティブ: これは、システムが処理中のデータに基づいて変更および調整できることを意味します。これは画一的な方法ではなく、画像の特定の内容に応じて動的に調整され、通常は既存の情報に基づいて「重み」のようなものが計算され、関心領域に適用されます。

  • 周波数フィルタリング: 画像と信号の文脈では、「周波数」は画像を構成するさまざまなパターンまたは波形を指します。フィルタリングとは、特定の周波数またはパターンに選択的に焦点を当て、その他を無視することを意味します。わからなかった?それは、子供が他のすべてのノイズを除去して特定の放送局をはっきりと聞こえるようにラジオを調整するようなものだと想像できます。

录音机转啊转,从此,命运的齿轮开始转动……

那么,AFF 是如何工作的?

转换图像

AFF 令牌混合器使用叫做傅里叶变换的武器,将图像从空间描述转变为频率描述。就像用描述图像中的模式和波形的不同语言来翻译图像。

过滤频率

一旦进入这种频率“语言”,AFF 系统应用一个已学习的滤波器,集中注意图像的重要部分并忽略不重要的部分。这个滤波器是自适应的,这意味着它会根据正在查看的特定图像内容进行更改。

重建图像

最后,系统将过滤后的频率重新翻译为常规的基于像素的描述,但此刻不“需要”的部分会被过滤掉,重要部分则会得到强调。

整个过程以计算效率的方式完成,意味着它可以快速完成,而不需要大量的计算能力。简单来说,AFF 令牌混合器为神经网络提供了更有效和有效地理解和处理图像的方法。通过关注重要的模式并忽略噪声,它使网络能够更清晰地看到“全局”,并进行更准确的预测或分析。

我们可以尝试从另一个角度去理解它。自适应频率滤波令牌混合器就像神经网络中的智能翻译和编辑器。通过将深度学习与频率域分析结合,这项工作成功地设计了一种全新的token混合方法。它通过FFT和逆FFT,将图像翻译成频率语言,适应并关注关键部分,去除噪音,然后再翻译回来。如此一来便能够将全局 token 混合操作简化为频率域中的元素乘法,从而实现了更高的效率和灵活性。这为深度学习领域提供了一种新的视角和可能的优化方向。你学废了没?

以下是整体框架图:

可以看出,AFFNet 是基于多个 AFF Blocks构建的轻量级主干网络。以下是它的主要特点:

  • AFFNet通过堆叠多个AFF Blocks构建。
  • 卷积茎(Convolution Stem):用于令牌化。
  • 原始融合(Plain Fusion):用于在每个阶段组合局部和全局特征。

此外,AFFNet 针对不同应用场景提供三个版本,它们的通道数量不同,从而产生不同的参数规模。

  • AFFNet: 5.5M
  • AFFNet-T(Tiny):2.6M
  • AFFNet-ET(Extremely Tiny):1.4M

AFF 模块特色

实验

定量分析

定性分析

对小目标的检测效果好像还不错。

总结

通过引入自适应频率滤波(AFF)token混合器,本文提出了一种新颖的全局token混合方法,并构建了一种轻量级视觉网络架构AFFNet。该方法有效地克服了传统深度学习模型在移动和边缘设备上的计算挑战,并展示了在广泛视觉任务上的卓越性能。

写在最后

如果有对神经网络架构相关研究感兴趣的童鞋,非常欢迎扫描屏幕下方二维码或者直接搜索微信号 cv_huber 添加小编好友,备注:学校/公司-研究方向-昵称,与更多小伙伴一起交流学习!

おすすめ

転載: juejin.im/post/7266299564344999955