1. 問題の背景
正しいキュー (認識精度が最も高いキュー) を認識するには、通常、単語を思い出すのに多くの時間がかかります。
全体として、単語のわずかな変更がパフォーマンスに大きな違いをもたらす可能性があります。ただし、多くの調整を行っても、最終的な精度が最適化されない可能性があることがわかります。
この論文は、NLP 分野における即時学習研究に触発されて、コンテキスト最適化 (CoOp) を提案します。
具体的には、事前トレーニングされたモデル全体のパラメーターが固定され、テキスト エンコーダー内のプロンプト ワードが学習されてプロンプト プロジェクトが自動化されます。
新しいカテゴリ分類タスクの場合、タスクに関連するカテゴリを説明する文がテキスト エンコーダに合成されます。
分類重みは、画像エンコーダによって生成された画像特徴と比較されます。
2. 解決策
CoOp モデルが提案されており、そのモデルは次の図に示されています。
その主なアイデアは、分類損失を最小限に抑えることができる学習可能なベクトルのセットを使用してキューのコンテキストをモデル化することです。
最適化が失われています (画像特徴とテキスト特徴の間の類似性スコアを最大化する代わりに、分類損失を最小限に抑えるにはどうすればよいかを尋ねます。目標は、プロンプト ベクトルを学習することです。各画像特徴に対応するテキスト特徴がわかったので、プロンプト ベクトルは最適化および学習されるため、モデルによって予測されたカテゴリと実際のカテゴリの間のクロス エントロピーが、最適化のための分類損失を最小限に抑えるために使用されます。2 つの設計が提案されています。1 つはすべてのクラスで同じコンテキスト ベクトルを共有する統一コンテキストで、もう 1 つはクラスごとに特定のコンテキスト ベクトルのセットを学習するクラス固有のコンテキストです。
3. スキーム実装の詳細
モデル:CLIP(画像エンコーダー:ResNet-50/ViT、テキストエンコーダー:Transformer)
トレーニングの目的: 画像とテキストの 2 つの埋め込みスペースを位置合わせするように CLIP をトレーニングします。具体的には、学習目標はコントラストの低下です。
失う。画像とテキストのペアのバッチを指定すると、CLIP は一致するペアのコサイン類似度を最大化し、その他すべての不一致ペアのコサイン類似度を最小化します。下流のタスクにより適したさまざまな視覚的概念を学習するために、CLIP のチームは 4 億の画像とテキストのペアからなる大規模なトレーニング データセットを収集しました。
古典的な CLIP モデルの確率出力は次のようになります。
この記事の方法: ①統一コンテキスト: すべてのカテゴリが同じコンテキスト ワードを共有します (古典的な CLIP と同様)
違いは、この方法のプロンプトは連続空間内で検索することであり、説明が強力ではないことです); ②各カテゴリーには独自の学習可能なコンテキストがあります。
方法①の形式(Mはハイパーパラメータ):
g はテキスト エンコーダで、ti のクラス トークンが i 番目のクラス名に関連する単語埋め込みベクトルで置き換えられるように指示します。クラストークンを真ん中に置くこともできます
後者の形式は学習の柔軟性を高め、プロンプトは後続のセルに補足的な説明を入力できます (プロンプト「[CLASS]、花の種類の写真」など)、終了信号 (たとえば、プロンプト) を使用することもできます。句点として) 文章を早めに切り取ります (例: [CLASS] の花の写真)。
方法②クラス固有コンテキスト:クラス固有コンテキスト(クラス固有コンテキスト、CSC)を設計し、
コンテキスト ベクトルはクラスごとに異なります。CSC は、統一されたコンテキストの代替として、詳細な分類タスクに特に有用であることがわかりました。
トレーニング: このアルゴリズムは、クロスエントロピーに基づいて標準的な分類損失を最小限に抑え、勾配はテキスト エンコーダー g( ) を通じて逆伝播できます。
コンテキストは、パラメーターにエンコードされた豊富な知識によって最適化されます。連続表現の設計により、単語埋め込み空間での十分な探索も可能になり、タスク関連のコンテキストの学習が容易になります。
提案された方法は、CLIP など、最近提案された大規模な視覚言語モデルの適応問題に対処します。しかし、この方法は
NLP で開発されたキュー開発手法とは異なります。まず第一に、モデルのバックボーン構造が異なります。第二に、事前トレーニングの目標が異なります。1 つは比較学習で、もう 1 つは自己回帰学習です。
4. 実験部分
11 個の画像分類データセットが選択されました。このデータセットは、さまざまな視覚タスクをカバーする包括的なベンチマークを構成します。
これらには、一般的なオブジェクト、シーン、アクション、および詳細なカテゴリの分類だけでなく、テクスチャや衛星画像の認識などの特殊なタスクも含まれます。データセットの統計は次のとおりです。
1、2、4、8、16 ショットを使用してトレーニングし、完全なテスト セットにモデルをデプロイし、最後に 3 回の実行の平均を表示します。
価値。
実験には 4 つのバージョンの CoOp があり、クラス マーカーを最後または中央に配置します (統一テキストと CSC)。実験で使用される
画像エンコーダとして ResNet-50 を使用しており、実験結果は以下の通りです。
CoOp のコンテキスト ベクトルは、平均 0、標準偏差 0.02 のガウス分布からランダムに初期化されます (別の初期化戦略を使用)。
2 つのベースライン方法: ゼロショット CLIP とリニア プローブ。
(1) と手動プロンプトの比較結果を以下に示します。
平均性能グラフから、①クラストークンは、性能が高いため、中盤や終盤でも同様の性能を持っています。
曲線は高度に重なり合っています; ② CLIP+CoOp は強力な小規模サンプル学習器であり、ゼロショットよりも大きな利点を得るには平均して 2 ショットだけが必要であることがわかります。( CSCのパフォーマンスがデフォルト モデルより低い理由は、デフォルト モデルがユニファイド コンテキストを使用するためです。そのため、2-shotを使用する場合、クラスがn個あると仮定すると、トレーニング データの数は2*nになります。CSCの各クラスには、 2文脈単語の表現を学習する例; 2 つに比べて、後者は学習データが少なく、より多くの文脈知識を学習できません。 ); ③
16 ショットを使用した図 4 から、この論文の方法はほとんどのきめの細かいデータセット (Fflowers102、StanfordCars を含む) で見ることができます。
FGVCAircraft) とシーンおよびアクション認識データセット (SUN397 および UCF101) を使用すると、パフォーマンスも大幅に向上します (10% 以上)。Food101 データセットはマイナス成長を記録しました。その理由は、CoOp とリニア プローブは学習ベースの手法であり、トレーニング データに含まれるノイズによってパフォーマンスが低下するためです。Food101 データセットには、強い色のノイズが多く、場合によっては間違ったラベルが含まれるデータもあります。
(2) リニアプローブCLIPとの比較
後者はゼロショットと同じパフォーマンスを発揮するには平均して 4 ショット以上必要ですが、4 ショットでの CoOp の平均パフォーマンスはすでに
ゼロショットを超えて約17点。
データ量が非常に少ない場合、2 つのモデル間のパフォーマンスの差は大きく、最初から学習した線形モデルよりも CoOp の方が優れていることがわかります。
プローブの方が効果的です。
DTD、EuroSAT、および 2 つのきめ細かいデータセット (Fflowers102 および FGVCAircraft) では、線形プローブ モデルのパフォーマンスは CLIP+CoOP のパフォーマンスに匹敵します。これは、事前トレーニングされた CLIP の特徴空間が強力であることが証明されているためです。理由は、線形検出モデルが強力な競争相手になることです。それにもかかわらず、CoOp の CSC バージョンは、上記のデータ セットでリニア プローブ CLIP を上回ることができます (一部の画像の特徴は学習しやすく、サンプルが少ない場合でも適切な文脈上の単語表現を学習できる可能性があります。現時点では) , ユニファイド コンテキストと比較すると、CSC の方が優れているため、CSC のパフォーマンスはユニファイド コンテキストと同等かそれを上回り、線形プローブを超えることになります。CSC とデフォルト モデルの傾向をすべてのグラフで見ると、次のことがわかります。十分なデータがある場合、CSC は特定の時点でデフォルト モデルを超えるでしょう)。
(3)統一コンテキスト VS クラス固有コンテキスト
平均して、統一されたコンテキストを使用するとパフォーマンスが向上し、この文書では CSC をいつ適用するかについて推奨事項を示しています。共通オブジェクト (ImageNet および Caltech101)、シーン (SUN397)、およびアクション (UCF101) については、明らかに統一コンテキストを使用する方が優れています。ユニファイド コンテキストは、一部のきめ細かいデータセット (OxfordPets や Food101 など) ではより適切に機能しますが、他のデータセット (StanfordCars、Fflowers102、FGVCAircrafter など) では CSC バージョンが推奨されます。CSC は、DTD と EuroSAT という 2 つの特別なタスクでも、特に 16 ショットで優れたパフォーマンスを発揮します。データセットが低い場合、CSC のパフォーマンスはユニファイド コンテキストほど良くありません。これは、CSC の方が後者よりもパラメータが多いためです。
(4)ドメインの汎化
CoOp は特定のデータについて学習され、データ固有の情報を学習する可能性がありますが、これは目に見えない分布についての一般化には役立ちません。しかし、CLIP にはそのような問題はなく、特定のデータ配布とは何の関係もなく、その強力な移行能力も実証されています。
ソース データセット ImageNet、ターゲット データセット ImageNetV2、ImageNet-Sketch、ImageNet-A、ImageNet-R。ターゲット データセットはソース データセットのクラス名と互換性があるため、学習したヒントを直接使用できます。
ImageNetV2 は、ImageNet データ収集プロセスに従い、さまざまなデータ ソースを使用して生成されたテスト セットです。 |
ImageNet Sketch には、同じ 1000 の ImageNet クラスに属するスケッチ イメージが含まれています。 |
ImageNet-A と -R の両方には、ImageNet の 1000 クラスからの 200 のサブセット クラスが含まれています。前者は現実世界から逆フィルタリングされた画像で構成されているため、現在の ImageNet 分類器では低い結果が得られますが、後者は絵画、漫画、彫刻などのさまざまな画像スタイルで ImageNet クラスを表示します。 |
実験結果は次のとおりです。
CLIP+CoOp はゼロショットよりも堅牢であることが観察され、学習したヒントがよく一般化されていることを示しています。ただし、Linear Probe CLIP のディストリビューション移行パフォーマンスは比較的悪いです。
(5) ハイパーパラメータの選択
①Context長が長いほどパフォーマンスは向上しますが、Context長が短いほど分散シフトに適しています。したがって、パフォーマンスとディストリビューションの変更に対する堅牢性のバランスをとる必要があるため、完璧なコンテキスト長を選択するための黄金律はありません。
②ビジョンバックボーンの選択、アーキテクチャが高度であればあるほど、パフォーマンスが向上します
③迅速なアンサンブル、今後の課題はアンサンブルの観点からCoOpを改善する方法を研究することができます。
④ 解釈可能性
その中のいくつかの単語は、Food101 では楽しむ、OxfordPets では肉球とふわふわ、DTD では pretty など、タスクに関連しています。ただし、最も近い単語がすべて連結されている場合、ヒントはあまり意味を持ちません。
また、手動初期化 (「a の写真」など) を使用する場合、収束ベクトルに最も近い単語のほとんどが初期化に使用される単語であることも観察されます。著者らは、学習されたベクトルが既存の語彙の外の意味をエンコードしているのではないかと推測しています(語彙にない単語の写真を指します)。
最後に、著者は、学習されたヒントベクトルを説明するために最も近い単語を使用するのは不正確であるため、観測結果に基づいて正確な結論を導くことはできないと述べました。ベクトルの意味論は、必ずしも最も近い単語に関連しているわけではありません。
5. まとめ
この研究では、CLIP モデルがヒントを使用してデータ効率の高い学習器に変換する方法を学習する方法 (数ショットの例ではリニア プローブ CLIP やゼロショット CLIP を上回るパフォーマンス) を明らかにし、CoOp が手動で設計された Cue のパフォーマンスよりもドメインの一般化に優れていることもわかります。より良い。
この論文が、大規模な視覚モデルに適応するためのヒント学習を包括的に研究し、モデルを下流のタスクにより適切に適用できるようにした最初の論文であることは注目に値します。NLP の他の継続的高速学習方法と同様に、その優れたパフォーマンスにもかかわらず、CoOp の結果を解釈するのは比較的困難です。実験では、CoOp が Food101 でのパフォーマンスが低いことを考えると、ノイズの多いラベルに敏感であることも示されています。