SplitMask: 自己教師ありの事前トレーニングには大規模なデータセットが必要ですか?

自己教師ありの事前トレーニングには大規模なデータセットが必要ですか? これは 2021 年に公開された論文で、自己教師ありの事前トレーニング シナリオで小規模なデータセット (Stanford Cars、Sketch、COCO など) を使用しています。イメージネット。そして、事前トレーニング データの種類とサイズに対してより堅牢な BEiT のノイズ除去オートエンコーダーのバリアントである SplitMask を提案します。

分割マスク

SplitMask は、 splitinpaintmatchの 3 つのステップに基づいています

分割: 標準 ViT と同様に、画像は最初に 16×16 ピクセルのブロックに分割されます。次に、画像は 2 つの互いに素なサブセット A と B に分割され、共有深度 ViT エンコーダーによって独立して処理されます。

Inpaint: 次に、サブセット A のパッチ表現と浅いデコーダー (例: 2 レイヤー) を使用してマスク イメージ モデリング (MIM) タスク (BEiT) を解くことによって、サブセット B のパッチが「埋められ」ます。

最後に、各ブランチに対応するデコーダ出力のパッチ表現に対して平均プーリングが実行され、グローバル画像記述子が取得されます。

一致: 観測パッチのサブセット A および B に対応する 2 つの表現 xa および xb を使用して、InfoNCE 損失を推定します (CPCv1)。

この対照的な損失を追加する動機は、手作業で設計された変換に依存することなく、選択された観測値の異なるサブセット間で一貫したグローバルに一貫した特徴を生成するようにモデルを奨励することです。

結果

1. アブレーション研究

ピーク パフォーマンスは ImageNet サンプルの 5% のみを使用して達成されます。サンプルを追加してもそれ以上の改善は得られません。10% の ImageNet サブセットを使用します。約 3,000 エポックという長いトレーニング時間は、完全な ImageNet の合計更新数 300 エポックに一致します。

autoencoder****lossBEiTSplitMask (MIM など)を使用した事前トレーニングは、データセット サイズの削減に対して堅牢です。DINO は教師あり事前トレーニングと同じですが、小さいデータセットでトレーニングするとモデルのパフォーマンスが低下します。

DALL-E マーカーをより単純な代替物に置き換えても、精度が大幅に低下することはありません。

2、ココ

COCO イメージを使用した DINO の同様の事前トレーニングでは、パフォーマンスが比較的低く、ランダムな初期化よりも優れているだけでした。BEiT ベースラインと比較して、SplitMask は、viti-small を使用した場合 +0.6 ボックス AP、viti-base を使用した +0.3 マスク AP など、一貫した改善をもたらしました。

3、ADE20K

比較的小さい 20,000 画像サンプルで事前トレーニングされた場合でも、ノイズ除去オートエンコーダーは、この困難なタスクで非常に競争力のあるパフォーマンスを提供できます。

4. 小さなデータセット

SplitMask は、複数のデータセットのパフォーマンスをさらに向上させることができます。たとえば、iNaturalist 2018 データセットでは、vit ベースのモデルの精度が 3.0 向上しました。

5.イメージネット

SplitMask は、すべてのバックボーン ネットワーク上で BEiT および MoCo v3 を上回る強力なパフォーマンスを提供します。

論文アドレス: 自己教師あり事前トレーニングには大規模なデータセットが必要ですか?

https://avoid.overfit.cn/post/21d79b50015d406694bcf063b12c02e3

著者: ツァン・シクホー

Supongo que te gusta

Origin blog.csdn.net/m0_46510245/article/details/132775470
Recomendado
Clasificación