自己教師ありの事前トレーニングには大規模なデータセットが必要ですか? これは 2021 年に公開された論文で、自己教師ありの事前トレーニング シナリオで小規模なデータセット (Stanford Cars、Sketch、COCO など) を使用しています。イメージネット。そして、事前トレーニング データの種類とサイズに対してより堅牢な BEiT のノイズ除去オートエンコーダーのバリアントである SplitMask を提案します。
分割マスク
SplitMask は、 split、inpaint、matchの 3 つのステップに基づいています。
分割: 標準 ViT と同様に、画像は最初に 16×16 ピクセルのブロックに分割されます。次に、画像は 2 つの互いに素なサブセット A と B に分割され、共有深度 ViT エンコーダーによって独立して処理されます。
Inpaint: 次に、サブセット A のパッチ表現と浅いデコーダー (例: 2 レイヤー) を使用してマスク イメージ モデリング (MIM) タスク (BEiT) を解くことによって、サブセット B のパッチが「埋められ」ます。
最後に、各ブランチに対応するデコーダ出力のパッチ表現に対して平均プーリングが実行され、グローバル画像記述子が取得されます。
一致: 観測パッチのサブセット A および B に対応する 2 つの表現 xa および xb を使用して、InfoNCE 損失を推定します (CPCv1)。
この対照的な損失を追加する動機は、手作業で設計された変換に依存することなく、選択された観測値の異なるサブセット間で一貫したグローバルに一貫した特徴を生成するようにモデルを奨励することです。
結果
1. アブレーション研究
ピーク パフォーマンスは ImageNet サンプルの 5% のみを使用して達成されます。サンプルを追加してもそれ以上の改善は得られません。10% の ImageNet サブセットを使用します。約 3,000 エポックという長いトレーニング時間は、完全な ImageNet の合計更新数 300 エポックに一致します。
autoencoder****loss、BEiT、SplitMask (MIM など)を使用した事前トレーニングは、データセット サイズの削減に対して堅牢です。DINO は教師あり事前トレーニングと同じですが、小さいデータセットでトレーニングするとモデルのパフォーマンスが低下します。
DALL-E マーカーをより単純な代替物に置き換えても、精度が大幅に低下することはありません。
2、ココ
COCO イメージを使用した DINO の同様の事前トレーニングでは、パフォーマンスが比較的低く、ランダムな初期化よりも優れているだけでした。BEiT ベースラインと比較して、SplitMask は、viti-small を使用した場合 +0.6 ボックス AP、viti-base を使用した +0.3 マスク AP など、一貫した改善をもたらしました。
3、ADE20K
比較的小さい 20,000 画像サンプルで事前トレーニングされた場合でも、ノイズ除去オートエンコーダーは、この困難なタスクで非常に競争力のあるパフォーマンスを提供できます。
4. 小さなデータセット
SplitMask は、複数のデータセットのパフォーマンスをさらに向上させることができます。たとえば、iNaturalist 2018 データセットでは、vit ベースのモデルの精度が 3.0 向上しました。
5.イメージネット
SplitMask は、すべてのバックボーン ネットワーク上で BEiT および MoCo v3 を上回る強力なパフォーマンスを提供します。
論文アドレス: 自己教師あり事前トレーニングには大規模なデータセットが必要ですか?
https://avoid.overfit.cn/post/21d79b50015d406694bcf063b12c02e3
著者: ツァン・シクホー