CLIP3

CLIP は OpenAI が提案するマルチモーダル ニューラル ネットワークで、自然言語の監督下で視覚的な概念を効果的に学習できます一般的なビジョン データセットは、作成に労力と費用がかかります。それらを使用してトレーニングされた標準的なビジョン モデルは、1 つのタスクにしか対応できないため、新しいタスクへの適応が困難になります。一方、CLIP は、インターネットからの大量の自然言語の監視に依存しながら、多種多様な画像をトレーニングします。CLIP は自然言語命令を使用して、多数の分類ベンチマークを実行できます。認識されるビジュアル カテゴリの名前を指定するだけでよく、ターゲット ベンチマークに関する特別なトレーニングは必要ありません。ショット」機能。たとえば、ImageNet-1K での CLIP のパフォーマンスは、専用の教師付きトレーニングを使用した ResNet-50 のパフォーマンスに匹敵しますが、1.28M の ImageNet-1K トレーニング データ セットを使用していません。実際、CLIP は「ゼロショット」でもあり、ほとんどのタスクに効率的に移行でき、完全に監視されたベースラインで競争力のあるパフォーマンスを実現します。

CLIP: 大規模な言語イメージ比較事前トレーニングにより、印象的なゼロショット パフォーマンスを実現

論文のタイトル: Learning Transferable Visual Models From Natural Language Supervision (ICML 2021)

用紙アドレス:

https://arxiv.org/pdf/2103.00020.pdf

公式ブログ:

https://openai.com/research/clip

CLIP 論文は長い物語を語っています。

【NLP分野における「ゼロショット」能力の誕生】 ここ数年(2018年~2020年、GPT~GPT-3に代表される)で、原文から直接事前学習する自己管理型の手法が完全にNLP. フィールドを変更しました。NLP 分野での自己教師あり事前トレーニングの方法は、一般に自己回帰 (自己回帰) またはマスクされたテキスト モデリング (マスク言語モデリング) を採用します。能力は着実に向上し、モデルはゼロショット学習の能力としても知られる「ゼロショット」能力を持ち始めていることがわかりました。対応する能力。GPT-3 などの主力製品は、適切に設計された大規模モデルを通じて、ほとんどのダウンストリーム タスク (アクション認識、OCR、ImageNet-1K 画像分類、きめの細かい画像分類タスクなど) で非常に競争力のあるパフォーマンスを達成しています。ブログ リンクは次のとおりです。以下のとおりです。

https://zhuanlan.zhihu.com/p/622067372

[当時、CV フィールドにはこの機能がありませんでした] これらの結果は、非常に大規模なテキスト コレクションを使用してトレーニングされた NLP モデルのパフォーマンスが、高品質で高密度にラベル付けされたデータセットの結果を上回るのに十分であることを示しています。しかし、CV フィールドを振り返ってみると、誰もが高品質で高密度にラベル付けされたデータセット (ImageNet-1K など) を事前トレーニングに使用していました。

[CV におけるテキスト教師ありアプローチのパフォーマンスの低下] 私たちは疑問に思います: 同様のアプローチを使用して、大規模なテキストから学習し、コンピューター ビジョンで同様のブレークスルーを達成できるでしょうか? 先人たちは多くの調査を行ってきたので、ここでは繰り返しません。これらの調査は、概念が実現可能であることを示していますが、自然言語教師による画像表現学習に関する研究はまだほとんどありません。これは、このホワイト ペーパーの監視方法のパフォーマンスが低いためである可能性があります. 当時、ImageNet-1K の "ゼロショット" パフォーマンス [1] はわずか 11.5% であり、当時の SOTA の 88.5% よりもはるかに低かったその時。

[テキストを使用する教師あり方法は、教師ありと教師なしの中間に位置する] テキストを使用する教師あり方法は、「限られたラベル付きデータを使用する教師ありトレーニング」と「ほぼ無制限の量の生テキストを使用する教師なしトレーニング」 II の中間に分類されます。同じことは、両方のメソッドが静的 Softmax 分類器を使用して予測を実行し、動的出力のメカニズムがないことです。これにより、柔軟性と「ゼロショット」機能が大幅に制限されます。

[CLIP 法とその結果] この論文では、大規模な自然言語教師による画像分類器のトレーニングについて研究しています。ラベルのないテキスト データセットがインターネット上に多数公開されています.著者は 4 億組の (画像, テキスト) を含む新しいデータセットを作成し, 言語と画像の事前トレーニングを比較することで CLIP モデルをトレーニングしました.自然言語スーパービジョンにおけるビジョンモデルの学習。著者らは、GPT ファミリーに似た CLIP が、アクション認識、OCR、地理位置情報、ImageNet-1K 画像分類、きめの細かい画像分類タスクなどを含む、事前トレーニング中にさまざまなタスクを実行することを学習することを発見しました。著者らは、30 以上の既存のデータセットで CLIP の「ゼロショット」転移学習パフォーマンスをテストし、CLIP が教師ありトレーニング モデルのパフォーマンスに匹敵することを発見しました。たとえば、ImageNet-1K での CLIP のパフォーマンスは、専用の教師付きトレーニングを使用した ResNet-50 のパフォーマンスに匹敵しますが、1.28M の ImageNet-1K トレーニング データ セットを使用していません。

自然言語の監督

私たちのアプローチの中心にあるのは、自然言語の監督から知覚を得る能力です。あなたのメソッドがこの機能を備えている限り、それは「自然言語の監視下」と呼ぶことができます。この方法の利点は何ですか?1つはスケーラビリティです。従来の機械学習手法では、大量のラベル付きデータを必要としないためです。

CLIPのデータセット

この論文の重要な特徴は、インターネット上で公開されている大量のデータを活用したいという願望です。既存のデータセット (MS-COCO は約 100,000、YFCC100M 高品質は約 15M のみ、サイズは ImageNet-1K と同様) が十分に大きくないため、この研究領域の可能性は過小評価される可能性があります。

この問題に対処するために、著者は、インターネット上で公開されているさまざまなソースからの 4 億の (画像、テキスト) ペアを含む新しいデータセットを構築しました。そして、このデータは非常によく整理されており、品質が非常に高いことが、CLIP が非常に強力である主な理由の 1 つかもしれません。得られたデータセットの総単語数は、GPT-2 のトレーニングに使用された WebText データセットと同様であるため、作成者はこのデータセットを WebImageText (WIT) と呼んでいます。

CLIPのプレトレーニング方法

この論文では、対照学習に基づく効率的な事前トレーニング方法を採用しています。著者の考えは次のとおりです。最初の方法は、画像を処理する CNN とテキストを処理する Transformer モデルを共同でトレーニングして、画像のキャプションを予測することです。この実験の結果は、下の図 1 の青い曲線で示されていますが、スケーラビリティが非常に低いことがわかります。オレンジレッドの曲線は予測されたテキストの単語バッグであり、その効率は青い曲線の 3 倍です。両方のアプローチは、各画像のテキストの正確な単語が何であるかを予測しようとする点で、重要な類似点を共有しています。しかし、同じ画像に対応するさまざまな説明、注釈、および関連テキストがあるため、これは簡単な作業ではないことがわかっています。

1: ゼロショット ImageNet-1K さまざまな方法の精度

画像対比表現学習に関する最近の研究に基づいて, テキストの正確な単語ではなく、どの画像がテキスト全体とペアになっているかを予測することしかできません. 実験結果は下の図1の緑色の曲線に示されています.効率はオレンジ色の曲線の 4 倍です。具体的な方法は次のとおりです。

図 2: CLIP の対照学習フェーズ

擬似コードを下の図 3 に示します。

図 3: CLIP 対比学習擬似コード

ですから、質問せずにはいられません:他のタスクでこのようなプロンプトを使用できますか? または、どのようなプロンプトが Zero-Shot パフォーマンスの向上をもたらすことができますか?  著者は実験を行い、次のことを発見しました。

  • Oxford-IIIT Pets データセットなどのきめの細かい画像分類タスクの場合、プロンプトを「{label} の写真、ペットの種類」に設定できます。たとえば、Food101 データセットでは、プロンプトを「{label} の写真、食品の種類」に設定できます。たとえば、FGVC Aircraft データセットの場合、プロンプトを「{label} の写真、航空機のタイプ」に設定できます。

  • OCR タスクの場合、テキストまたは数字の引用符を追加すると、パフォーマンスが向上する可能性があります。

  • 衛星画像分類データセットの場合、プロンプトを「{label} の衛星写真」に設定できます。

 

図 4: CLIP のゼロショット転送

著者はまた、複数のコンテキスト プロンプトを使用して、複数のゼロ ショット分類子をアンサンブルしようとしました。たとえば、1 つのプロンプトは「大きな {label} の写真」であり、もう 1 つのプロンプトは「小さな {label} の写真」です。著者は、これにより確実にパフォーマンスが向上することを確認しています。ImageNet では、作成者は 80 の異なるコンテキスト ヒントを統合しました。これにより、上記の単一のデフォルト ヒントよりも 3.5% パフォーマンスが向上しました。一緒に考えると、以下の図 5 に示すように、Prompt プロジェクトと Ensemble 戦略が一連の CLIP モデルのパフォーマンスをどのように変更するかを示しています. Prompt プロジェクトと Ensemble 戦略が ImageNet の精度をほぼ 5% 改善したことがわかります。ここで、青い線は直接埋め込みを表します. クラス名の結果.

図 5: プロンプト エンジニアリングと Ensemble が Zero-Shot パフォーマンスに与える影響

CLIPの機種選択

Image Encoder は ResNet-50 と ViT の改良版を、Text Encoder は Transformer の改良版を、12 層 512 幅の Transformer モデルを使用し、8 つのアテンション ヘッドと 63M パラメータを使用しました。入力は、サイズ 49152 の語彙の BPE [2] 小文字表現です。計算効率のために、最大シーケンス長は 76 です。テキスト シーケンスは [SOS] および [EOS] トークンで囲まれ、[EOS] の最後の Transformer レイヤーの出力がテキストの特徴と見なされ、LN とそれに続く Linear レイヤーによってマルチモーダル空間に投影されます。

モデルのスケーリングの問題に関しては、著者は、画像エンコーダー ResNet の場合、深さ、幅、および入力解像度を同時にスケーリングする効果が最適であることを発見しました。テキスト エンコーダー Transformer の場合、作成者はモデルの幅を ResNet 幅の計算増分に比例するようにスケーリングするだけで、深さはスケーリングしません。これは、作成者が CLIP のパフォーマンスがテキストの容量にあまり影響されないことを発見したためです。エンコーダー。

ゼロショット転送の実験結果

このセクションのゼロショットは、目に見えないデータセットの一般化パフォーマンスの研究を指します。つまり、モデルトレーニング数の後、見たことのない新しいデータセットでどのように機能するかを示します。

CLIP とビジュアル N グラム

著者は、下の図 6 に示すように、別の方法である Visual N-Grams を比較します。最適な CLIP モデルは、ImageNet の精度を 11.5% から 76.2% に改善し、元の ResNet-50 のパフォーマンスに匹敵します。ResNet-50 は、すべての ImageNet トレーニング セットを使用する完全に監視されたトレーニングですが、CLIP は ImageNet トレーニング セットを使用しないことに注意してください。2 つの結果は基本的に同じです。CLIP は、報告された他の 2 つのデータセットでも Visual N-Grams よりも優れています。Yahoo では、CLIP によってエラー数が 95% 減少し、SUN では、CLIP によって Visual N-Grams の精度が 2 倍以上になりました。

図 6: CLIP とビジュアル N グラムの比較

Zero-Shot CLIP は、完全に監視されたベースラインで競争力があります

さらに、著者は、CLIP の Zero-Shot パフォーマンスをさらに調査します。この点を説明するために、著者は CLIP のパフォーマンスを、ResNet-50 に基づく完全に監視された正規化されたロジスティック回帰分類器と比較します。実験結果を図 7 に示します.比較した合計 27 のデータ セットで、Zero-Shot CLIP は 16 のデータ セットで完全に監視された ResNet-50 モデルを打ち負かしました.

きめの細かい分類タスクでは、パフォーマンスに大きな違いが見られます。2 つのデータセット (Stanford Cars と Food101) では、Zero-Shot CLIP は ResNet-50 機能のロジスティック回帰よりも 20% 以上優れたパフォーマンスを示しましたが、他の 2 つのデータセット (Flowers102 と FGVCAircraft) では、Zero-Shot CLIP がロジスティック回帰よりも優れたパフォーマンスを発揮しました。 ResNet-50 機能でショット CLIP は、ロジスティック回帰よりも 10% 以上パフォーマンスが低下しました。OxfordPets と Birdsnap では、パフォーマンスははるかに近くなっています。

ImageNet、CIFAR10/100、STL10、PascalVOC2007 などの「より広い」分類データセットでは、この 2 つは比較的同様に機能し、Zero-Shot CLIP はすべてのケースでわずかに有利です。STL10 では、CLIP はトレーニング サンプルを使用せずに 99.3% の精度を達成します。Kinetics70 では、CLIP は ResNet-50 よりも 14.5% 優れており、UCF101 では、Zero-Shot CLIP は ResNet-50 よりも 7.7% 優れています。著者は、この推定は、ImageNet の名詞中心のオブジェクト監視と比較して、自然言語が動詞を含む視覚的概念のより広範な監視を提供するという事実によるものであると推測しています。

また、Zero-Shot CLIP は、衛星画像の分類 (EuroSAT および RESISC45)、リンパ節腫瘍の検出 (PatchCamelyon)、合成シーンでのオブジェクトのカウント (CLEVRCounts)、ドイツの交通標識認識 (GTSRB)、最寄りの車までの距離 (KITTI 距離) の認識など、自動運転に関連するタスク。これらの結果は、より複雑なタスクに対する Zero-Shot CLIP の能力の低さを浮き彫りにしています。

 

図 7: Zero-Shot CLIP は、完全に監視されたベースラインと競合します

CLIPゼロサンプル移行のデータ効率

さらに、著者は、CLIP のゼロ ショット転送のパフォーマンスと他のモデルの少数ショット学習パフォーマンスを調査する興味深い実験も行いました。ここにある他のモデルについては、著者は ImageNet-21K データセットで事前トレーニングされた BiT-M ResNet-152x2 を使用しています。以下の図 8 に示す結果は、ゼロ ショット転送のデータ効率です。つまり、サンプル サイズが大きい場合、Few-Shot Learning のパフォーマンスは、CLIP ゼロ ショット転送のパフォーマンスに追いつくことができます。各データセットの効率は、一部のデータセットでは 1 つ未満のマーカーから、一部のデータセットでは 184 個のマーカーまで、大きく異なることがわかります。たとえば、Flowers102 データセットは 1 ショットの場合は CLIP ゼロ ショット転送のパフォーマンスに追いつくことができますが、FER2013 データセットは 184 ショットの場合にしか実行できません。平均推定データ効率は、クラスあたり 20.8 サンプルです。ImageNet データセットの場合、CLIP ゼロ ショット転送の結果は、同じ特徴空間でトレーニングされた 16 ショット線形分類器の結果に匹敵します。

図 8: CLIP Zero-Shot Transfer のデータ効率

表現学習の実験結果

CLIP モデルの有効性をより完全に評価するために、著者はその表現学習能力をさらに評価します。表現学習の評価方法に関しては、特定の表現の品質と、「理想的な」表現が持つべき特性を評価する多くの方法があります。より一般的な方法は、モデルのバックボーンを凍結し、最終的な分類器のみをトレーニングし、抽出された特徴の品質を特定のデータ セットの精度で測定することです。

以下の図 9 に示すように、本論文における表現学習の研究結果です。著者は最初に [3] 論文の 12 のデータセットを調査しました。ResNet-50 や ResNet-101 などの小さな CLIP モデルは、ImageNet-1K でトレーニングされた他の ResNet よりもパフォーマンスが優れていましたが、ImageNet-21K でトレーニングされた他の ResNet よりも優れていました ( ResNet トレーニング済み)。 BiT-M では) パフォーマンスが低下します。これらの小さな CLIP モデルは、同様の計算要件を持つ EfficientNet ファミリーのモデルよりも劣っています。著者はさらに 27 個のデータセットについて関連調査を続けており、このより広範な評価スイートでは、CLIP の利点がより明白になっています。すべての CLIP モデルは、規模に関係なく、計算効率の点で他のモデルよりも優れています。最良のモデルの平均スコア改善は 2.6% から 5% に増加します。

 

図 9: CLIP モデルと最先端のコンピューター ビジョン モデル Linear Probe のパフォーマンスの比較

また、著者は、CLIP の機能が、さまざまなデータセットで最適な ImageNet モデルの機能とどのように比較されるかについても研究しています。最良の ImageNet モデルの特徴は、Noisy Student EfficientNet-L2 の最良のモデルの特徴です。27 個のデータセットで、CLIP が 21 個のデータセットで優位に立つことがわかりました。CLIP は、OCR (SST2、HatefulMemes)、地理位置情報、およびシーン認識 (Country211、SUN397) を必要とするタスクで最も改善されます。さらに、CLIP は、きめ細かい車と交通標識の認識 (Stanford Cars と GTSRB) で優れています。whaosoft  aiot  http://143ai.com

図 10: CLIP の機能は、さまざまなデータセットで最適な ImageNet モデルの機能よりも優れています 

おすすめ

転載: blog.csdn.net/qq_29788741/article/details/130463279