CLIPの説明:テキストと画像を接続する

最近、OpenAI が DALL・E と CLIP をリリースしましたが、前者はまだオープンソース化されていませんが、後者はオープンソース化されていますので、まず CLIP について見てみましょう。
この記事はOpenAIの公式ブログの内容を整理して記録したものであり、詳細については原文をお読みください。大御所さんのCLIP紹介記事をたくさん参考にさせていただきました、ありがとうございます。


CLIP を一言で要約すると、ゼロショットはうまく機能し、タスクをカスタマイズでき、効率が非常に高いです。

関連リンク:
OpenAI CLIP ブログ
CLIP github
ゼロショット学習(Zero-Shot Learning)入門
CLIP colab CLIP
論文
OpenAI DALL・E ブログ
(論文や colab github にもリンクあり)


現在の履歴書に関する問題:

  1. データセットの制作コストが高い
  2. モデルには 1 種類のタスクしかなく、コストが高く、他のタスクではうまく機能しません。ベンチマーク タスクでは良好なパフォーマンスを示しますが、ストレス テストではパフォーマンスが低下します (データ セットを変更すると、パフォーマンスが低下します)
    。良い)

そこで、次の 3 つの問題を軽減できる CLIP モデルが提案されています。

  1. コストのかかるデータセット: 以前のモデルで使用されていたデータセットのほとんどは人間によってラベル付けされていますが、CLIP のトレーニング データはすべてインターネットから検索され、プレーン テキストをラベルとして使用しているため、人件費が削減されます。
  2. Narrow: ラベル付きデータ セットでトレーニングされた場合、出力は制限されます。たとえば、データ セットはモデルに猫と犬を予測することのみを教えるため、モデルにアヒルを予測させることは不可能であり、CLIP は一般的な画像に制限されません。
  3. 現実世界のパフォーマンスが低い: ベンチマークと実際の状況の間にギャップがある ベンチマークのパフォーマンスが良好であっても、実際の状況が良好であることを意味するわけではありません。ただし、CLIP は特定のデータ セットから学習されないため、この問題は軽減されます。また、ImageNet から学習すると評価効果は向上するものの、他の 7 つのデータセットはあまり良くないことを実験で確認しました。
    ここに画像の説明を挿入

CLIP の利点と機能:

  1. 概要: Zero-shot は良い仕事をしています。4 億の未クリーニングのデータ セットでトレーニングした後は、さまざまなデータ セットでも良好なパフォーマンスを発揮できます。タスクをカスタマイズして効率を高めることができます。
  2. OpenAI は、インターネットから 4 億件の未処理の画像とテキストのペア データを収集し、比較学習目標に基づいてトレーニングしました。つまり、画像とテキストを別々にエンコードし、ペアのコサイン類似度を計算して、各画像の行またはテキストの列を分類しました。 、一致する肯定的な例を見つけます。
  3. 非常に効率的: GPT3 もゼロショットには適していますが、CLIP はリソース消費が少なく、必要な計算も少なく、トレーニング効率が高くなります。CLIP の最良のバージョンは、256 GPU で 2 週間しかトレーニングできません。これは、現在の画像分野の他の大規模モデルと同様です。
    効率を向上させる 2 つの方法:
    対比学習 目的: 記事冒頭の図に示すように、テキストの記述を 1 つずつ予測する言語モデルと比較して、対比学習は効率を 4 ~ 10 倍向上させることができます。画像をパッチに分割して
    から Transformer を使用すると、ResNet エンコードと比較して 3 倍効率的になります (必要なのは真の注意だけです)
  4. 柔軟性と汎用性: CLIP は自然言語から直接広範囲の視覚概念を学習するため、既存の ImageNet モデルよりも大幅に柔軟性と汎用性が高くなります。彼らはさまざまなタスクを簡単に実行できることがわかりました。これをテストするために、きめ細かいオブジェクト分類、地理位置情報、ビデオ アクション認識、OCR などのタスクを含む 30 を超える異なるデータセットで CLIP のゼロショット パフォーマンスを測定しました。

クリップの欠点:

  1. CLIP は一般に、一般的なオブジェクトの認識には優れていますが、より抽象的または体系的なタスクではそれほど優れたパフォーマンスを発揮しません。画像内のオブジェクトの数を数えるなどのことや、写真内で最も近い車がどれだけ近づいているかを予測するなどのより複雑なタスクも可能です。どちらのデータセットでも、ゼロショット クリッピングはランダムな推測よりわずかに優れています。タスク固有のモデルと比較すると、Zero-shot CLIP は、自動車のモデル、航空機のバリエーション、花の種類の区別など、非常に細かい分類にも苦労します。
  2. CLIP は、事前トレーニング データセットに含まれていない画像に対しても一般化が不十分です。たとえば、CLIP が効果的な OCR システムを学習したにもかかわらず、MNIST データセットから手書きの数字を評価する場合、ゼロショット CLIP は 88% の精度しか達成できず、データセットに対して人間が達成した 99.75% の精度をはるかに下回りました。(実際のところ、特に MNIST 上で実行されているわけではないので、大丈夫です)

上記の欠点は、より多くの対応するデータを供給することで解決できます。ただし、トレーニング時間は長くなります。

モデル図:
ここに挿入
ゼロショットは高効率、高精度です。
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/Only_Wolfy/article/details/112675777