[Computer Vision] CVPR 23 | Visual Transformer 新しい学習パラダイム! ロングテールデータによる ViT パフォーマンスの向上

1. はじめに

用紙のアドレス:

https://arxiv.org/abs/2212.02015

ここに画像の説明を挿入
ここに画像の説明を挿入
コードリンク:

https://github.com/XuZhengzhuo/LiVT

2. はじめに

不均衡なラベル付きデータから学習することは、機械学習の分野では一般的ではありますが、困難な作業でした。近年、Vision Transformer は強力なモデルとして、複数の視覚タスクで満足のいく結果を示しています。ただし、ロングテール分布データを処理するビジュアル Transformer の機能と特性については、さらに調査する必要があります。

現在、ロングテール データを直接使用して Visual Transformer (ViT) をトレーニングする既存のロングテール認識モデルはほとんどありません。既製の事前学習済み重みに基づいた研究は不公平な比較結果につながる可能性があるため、ロングテール データの下でビジュアル トランスフォーマーのパフォーマンスを系統的に分析して要約する必要があります。

この論文は、ロングテール データを扱う際のビジュアル トランスフォーマーの長所と短所について詳細に説明し、この研究のギャップを埋めることを目的としています。このペーパーでは、ロングテール データを効果的に利用してビジュアル トランスフォーマーのパフォーマンスを向上させる方法に焦点を当て、データの不均衡の問題を解決する新しい方法を検討します。この論文の調査と要約を通じて、研究チームは、ロングテール データ タスクにおけるビジュアル Transformer モデルのパフォーマンスをさらに向上させるための有用なガイダンスとインスピレーションを提供することが期待されています。これにより、現実世界に存在するデータの不均衡問題を解決するための新しいアイデアとソリューションが提供されます。

この記事では、一連の実験を通じて、教師ありパラダイムの下では、不均衡なデータを処理するときにビジュアル Transformer のパフォーマンスが大幅に低下する一方、ラベル付きデータのバランスのとれた分散でトレーニングされたビジュアル Transformer は明らかなパフォーマンス上の利点を示すことがわかりました。畳み込みネットワークと比較して、この機能はビジュアル Transformer でより明白です。一方、教師なし事前トレーニング方法ではラベルの配布が必要ないため、同じ量のトレーニング データの下で、Visual Transformer は同様の特徴抽出および再構成機能を発揮できます。

上記の観察と発見に基づいて、この研究では、視覚的な Transformer モデルをロングテール データによりよく適応させることを目的として、不均衡なデータを学習するための新しいパラダイムを提案します。研究チームは、このパラダイムの導入により、ロングテールデータの情報を最大限に活用し、不均衡なラベル付きデータを扱う際のビジュアルTransformerモデルのパフォーマンスと汎化能力を向上させたいと考えています。

3. 方法

この論文は、ロングテール データを使用したビジュアル Transformer のトレーニングに関する最初の体系的な研究であり、その過程で次のような主要な貢献が行われました。

まず、この論文は、不均衡データを学習するためのビジュアル Transformer の従来の教師ありトレーニング方法の制限要因を深く分析し、これに基づいて、ビジュアル Transformer の固有の誘導バイアスを分割する 2 段階のトレーニング プロセスを提案します。モデルとラベル分布の統計的偏りを段階に分けて学習し、ロングテール データの学習の難しさを軽減します。最初のステージでは一般的なマスク再構成の事前トレーニングを使用し、第 2 ステージでは平衡損失を使用して監視を微調整します。

ここに画像の説明を挿入

第二に、この論文はバランスの取れたバイナリクロスエントロピー損失関数を提案し、厳密な理論的導出を示します。平衡バイナリのクロスエントロピー損失は次の形式になります。

ここに画像の説明を挿入
以前のバランスの取れたクロスエントロピー損失と比較して、この損失関数はビジュアル Transformer モデルで優れたパフォーマンスを示し、収束速度が速くなります。研究での理論的導出により、損失関数の合理性が厳密に説明され、私たちの方法の信頼性と有効性がさらに強化されました。

ここに画像の説明を挿入
さまざまな損失関数の収束速度の比較。

上記の貢献に基づいて、この論文では、ロングテール データに対するビジュアル Transformer モデルの学習能力を最大限に活用し、複数のデータセットに対するモデルのパフォーマンスを大幅に向上させる、新しい学習パラダイムである LiVT を提案します。このスキームは、複数のデータセットに対するビジュアル Transformer ベースラインよりもはるかに優れたパフォーマンスを実現します。

ここに画像の説明を挿入
さまざまなパラメータの下での ImageNet-LT の精度:

ここに画像の説明を挿入
ImagNet-LT (左) および iNaturalist18 (右) データセットでのパフォーマンス:

同時に、この論文では、同じトレーニング データ サイズの下で、ImageNet のロングテール分布サブセット (LT) と平衡分布サブセット (BAL) を使用してトレーニングされた ViT-B モデルが同様の再構成機能を示すことも検証します。LT-Large-1600 列に示されているように、ImageNet-LT データセットでは、より大きなモデルと MGP エポックを使用すると、より良い再構成結果が得られます。

ここに画像の説明を挿入

4. まとめ

この論文では、不均衡なデータを処理するためのビジュアル Transformer に基づく新しいメソッド LiVT を提供します。LiVT は、マスク モデリングとバランスの取れた微調整の 2 段階のトレーニング戦略を利用し、ビジュアル Transformer がロングテール データ分布に適応し、より一般的な特徴表現を学習できるようにします。この方法は、実験で大幅なパフォーマンスの向上を達成するだけでなく、追加のデータを必要とせず、実際のアプリケーションにも実行可能です。

おすすめ

転載: blog.csdn.net/wzk4869/article/details/131335081