Yolov5 軽量: CVPR2023|RIFormer: TokenMixer なしで SOTA パフォーマンスを実現できるミニマリスト ViT アーキテクチャ

 1. RIFormerの紹介

 論文: https://arxiv.org/pdf/2304.05659.pdf

        この論文は、Token Mixer を使用しないアーキテクチャ システムを研究するために、重いパラメータ メカニズムに基づいた RepIdentityFormer スキームを提案します次に、著者はトークン ミキサーのないアーキテクチャの制限を打ち破るために学習アーキテクチャを改善し、最適化戦略をまとめました。前述の最適化戦略と組み合わせることで、この論文は非常にシンプルで優れたパフォーマンスのビジュアル バックボーンを構築し、推論効率が高いという利点もあります。 

 あなたはなぜこれをやっているのですか?

        トークン ミキサーは、ViT バックボーンの非常に重要なコンポーネントです。さまざまな空域の位置情報を適応的に集約するために使用されます。しかし、従来のセルフ アテンションでは、多くの場合、高い計算の複雑さと長い遅延が発生します。Token Mixer を直接削除すると、構造的な事前設定が不完全になり、深刻なパフォーマンスの低下につながります。

        Token MixerはViTアーキテクチャにおける空間情報集約の鍵となるモジュールですが、セルフアテンション機構を利用しているため、その計算量、メモリ消費量、画像サイズは大きく関係しています。

         ヘビーパラメータ手法はさまざまな分野で広く使用されています。RIFormer 推論の TokenMixer モジュールは、LN+Identity の組み合わせとみなすことができます。

おすすめ

転載: blog.csdn.net/m0_63774211/article/details/131105525