運動量対照学習によるベースラインの改善
1.要約
SimCLRの2つの効果的な改善点は、MLPのプロジェクションヘッドとさまざまなデータ拡張メソッドが、エンコーダーのエンコード機能の計算損失の前に追加されることです。これら2つの改善をMocoフレームワークに適用すると、SimCLR自体に大きなバッチサイズが必要になり、ハードウェアメモリへの依存度が高くなるという問題を解決できます。
2.メソッド紹介
- 対照的な学習で
は、ポジティブとネガティブのペアの区別のプロキシタスクが引き続き使用されます。クエリとキーが同じ画像から取得されるさまざまなデータ拡張手法は、ポジティブな例ですが、それ以外の場合はネガティブな例です。
元のSimCLRはエンドツーエンド方式を採用しています。負のキーはすべて同じバッチからのものであり、パラメーターは逆伝播によって更新されます。バッチにN個のサンプルがあると仮定すると、アフィニティの計算の複雑さはN * Nで、計算量は大きく、大きなバッチサイズに依存し
ます。MoCoフレームワークを導入することで、クエリをエンコーダーに送信するだけで済みます。大きなバッチは必要ありません。その中で、Momentumエンコーダーは正と負のエンコードの計算に使用されますが、このエンコーダーは逆勾配で更新されませんが、左側のエンコーダーを直接使用して移動平均を作成します。
実験結果
MLP、データ強化、
COS 学習率、およびトレーニングエポックのアブレーション実験:(1)MLPはImageNetタスクを60.6%-> 66.2%と大幅に改善し、VOCオブジェクト検出の改善は制限されています。
(2)データ拡張方法のみを使用すると(新しいブラー拡張を導入)、線形分類の精度向上はMLPよりも低くなりますが、VOC検出のパフォーマンスは向上し、2つのタスク間の改善が単調で一貫していないことを示しています。
(3)新しい学習率法を使用すると、ImageNetがわずかに増加し、検出タスクがわずかに減少します。
(4)トレーニングエポックを増やすと、2つのタスクの結果を改善できます。
同じエポックとバッチサイズでSimCLRよりもパフォーマンスが高く、ハードウェア要件が軽減され、トレーニング時間が短縮されます。