[OPENAI2021力作][CLIP: Connecting Text and Images]

この記事は OpenAI 公式ブログを翻訳し[1]、2021 年 1 月 5 日に公開されました。

0. 序文

このブログは、openAI の偉人たちによるまったく新しい作品です。CLIP自然言語監視信号から視覚情報を効果的に抽出するために使用できるニューラル ネットワークを提案しています。CLIPあらゆる視覚分類ベンチマークに使用できます (対応するビジュアルを提供するだけです)。カテゴリで十分です)、GPT-2/3 と同様、強力な「ゼロショット」機能を備えています。

私の意見では、これら 2 つの論文、CLIP と DALLE の核心は、ユニバーサル事前トレーニング モデルをマルチモーダル分野 (視覚と自然言語)に拡張することです。これは本当にとても強力です...

1. はじめに

ディープラーニングはコンピュータービジョンに革命をもたらしましたが、現在の方法では解決する必要のある大きな問題がまだいくつかあります。

  • 典型的なビジョン データセットの構築には、通常、大量の手動アノテーション (労働集約) が必要であり、費用がかかります。
  • ほとんどの典型的なビジョン モデルは、単一のタスクでのみ機能し、他のタスクに移行する能力が非常に弱いです。
  • Benckmark で非常に優れたパフォーマンスを発揮するビジョン モデルは、通常、ストレス テスト (実際の運用シナリオのデータなど) ではパフォーマンスが低下します[2,3,4,5]これは、深層学習に基づくコンピューター ビジョンに疑問を投げかけます。

OpenAI の偉人たち ( Alec RadfordIlya SutskeverJong Wook KimGretchen KruegerSandhini Agarwal)はCLIP、これらの問題を解決しようと提案しました。データに関して: 著者の元の言葉は次のとおりです。「インターネット上で豊富に入手可能なさまざまな自然言語監視を使用して、さまざまな画像でトレーニングされています。 」これは、OpenAI が大量のインターネット データを収集したことを意味します。CLIPこのマルチモデル モデルをトレーニングします。[6]設計により、ネットワークは自然言語ガイダンスを使用して、 GPT-2および GPT-3[7]の「ゼロショット」機能と同様に、ベンチマークのパフォーマンスを直接最適化することなく、さまざまなベンチマーク データに対して分類タスクを実行できます。

ここには重要な変更があります。ネットワーク自体はベンチマーク データ セットを直接最適化しない (つまり、ベンチマーク データ セットを微調整しない) ため、以下の図に示す結果は、モデルが IMageNet よりも堅牢であることを示していますCLIP。トレーニングされた Resnet50 は、最大で 75% 近く高くなります 75\%7 5 %

ああああ

ImageNet テスト セットでの精度は両方とも同じですが、CLIPそのパフォーマンスは、別の非 ImageNet データ セット (野生データ) でのパフォーマンスをよりよく表しています。たとえば、ObjectNet は、さまざまなポーズやホーム コンテキストでオブジェクトを認識するモデルの能力を検査しImageNet RenditionImageNet Sketchは、より抽象的なオブジェクトの説明を認識するモデルの能力を検査しますResnetCLIP

2. 背景と関連業務

CLIP正式名称はContrastive Language - Image Pre -training で、そのアーキテクチャはゼロショット転送自然言語監視、およびマルチモデル学習に関する大量の作業に基づいて構築されています

ゼロデータ学習の概念は 10 年前の研究にまで遡ることができます[8]。かなり前のことですが、実際、ゼロデータ学習は現在 (2021 年) コンピュータ ビジョンの分野で最も懸念されている研究方向でもあります。 ). 目標は、目に見えないデータを処理する場合でもモデルが良好なパフォーマンスを維持できるようにすることです[9,10]

重要な洞察は、一般化と転送を実現するための柔軟な予測空間として自然言語を使用することです2013 年、スタンフォード大学の Richer Socher とその共同研究者は、単語ベクトル埋め込み空間で予測を行うために CIFAR-10 でモデルをトレーニングすることによる概念実証を発見[11]および開発し、そのモデルが 2 つの目に見えないクラスを予測できることを示しました同年、DeVISE はこの手法の適用を拡大し、このアイデアをImageNet ネットワーク モデルの微調整に使用できることを証明しました。これにより、モデルは元のデータ セットによって提供される 1000 のカテゴリに加えて、他のカテゴリも正確に予測できるようになります。[12]

CLIPその誕生に貢献した最も重要な論文は間違いなく、Ang Li と彼の共同研究者によって FAIR で発表された論文Learning Visual N-grams from web data」 (ICCV2017) です。この論文では、自然言語監視信号を使用して、いくつかのデータの分類を促進しています。既存の CV データ。このセット (ImageNet データ セットを含む) はゼロショット転送を実装します。

ImageNet でトレーニングされた CNN モデルを微調整することで、3,000 万枚の Flickr 写真のタイトル、説明、タグのテキストからより広範な視覚概念 (視覚 N グラム) を予測し、ImageNet のゼロショット精度 11.5% の結果を達成しまし

最後に、CLIPこれは自然言語の監視信号から視覚表現を学習する論文のカテゴリーに分類されます。CLIPより高度なアーキテクチャが使用されています: Transformer[14] 、自己回帰言語モデリングを研究するVirTex[15]ICMLM[16] : マスクされた言語モデルを研究する、ConVIRT[17] :CLIP同じ目標を研究しますが、医療画像の分野で使用されます。

3. 方法

CLIP著者らは、単純な事前トレーニング タスクをスケーリングするだけで、多数の画像分類データ セットに対して良好なゼロショット パフォーマンスを達成できることを発見しました。CLIPこの方法では、非常に豊富な監視信号が使用されます。

  • テキストとそれに対応する画像のペア (インターネット上にあります)

このデータは、CLIP次のエージェント トレーニング タスクを作成するために使用されます。画像が与えられ、データセット内のランダムにサンプリングされた 32,768 個のテキスト セグメントの中からどのテキスト セグメントがその画像に一致するかを予測します

この課題を解決するために、CLIP作者の直観的なアイデアは、CLIP画像内の多数の視覚概念を認識し、それらを対応するテキスト名に関連付けることをモデルに学習させることです。

その結果、CLIP モデルは、ほぼすべての視覚的分類タスクで使用できます。CLIPたとえば、データセットに猫と犬を分類するタスクがある場合、各画像を調べて、モデルが予測したテキスト説明「犬の写真」と「猫の写真」のどちらが一致する可能性が高いかを確認します。この画像はペアになっています

ここに画像の説明を挿入します

CLIP画像エンコーダーとテキスト エンコーダーを事前トレーニングします。トレーニングの目標は、画像とテキストによってエンコードされた潜在的なコードを照合することです。このアイデアを使用して、CLIPゼロショット分類器に変換します。データセットのすべてのカテゴリを「犬の写真」などのタイトルに変換し、CLIPその写真に最適なペアのテキストを予測します。

この設計の重要性CLIPは、深層学習におけるいくつかの主要な問題を軽減/緩和することです。

  • 高価なデータセット
    ディープ ラーニングには大量のデータが必要であり、一般的に、ビジュアル モデルは手動でラベル付けされた大量のデータセットを使用してトレーニングされます。これは、そのようなデータセットの構築には費用がかかり、作業が制限されることを意味します (利用できる視覚的な概念が限られているため)。CLIPインターネット上で多数のテキストと画像のペアを学習することで、データに手動でラベルを付ける複雑さとコストが効果的に軽減されます。高価で大規模なラベル付きデータセットの必要性を減らすことは、これまでの研究、特に自己教師あり学習、対比法、[18,19,20]自己[21,22,23,24,25]訓練法[26,27]、生成モデルなどで広く研究されてきました[28,29]

  • 狭い

すべてのデータ セットには制限があり、すべてのカテゴリのデータを含めることができるデータ セットはありません。ImageNet でトレーニングされたモデルを他の分類タスクに使用したい場合、目標のパフォーマンスを達成するには、新しいデータ セットを構築し、この新しいデータ セットに基づいてモデルを最適化する必要があることを意味します。

CLIPすぐに利用できる大量のインターネット データを使用するため、追加のトレーニング サンプルを必要とせずに、非常に広範囲の視覚的分類タスクに使用できます。使用方法CLIPも非常に簡単です。つまり、CLIPタスクの視覚的概念の名前をテキスト エンコーダーに伝えると、CLIP の視覚的表現の線形分類子が出力されます。この分類器の精度は、多くの場合、完全教師ありモデルの精度と同様です。

CLIP以下は、ランダムに選択されたいくつかのゼロショット分類器がさまざまなデータに及ぼす影響です。

ここに画像の説明を挿入します
ここに画像の説明を挿入します
ここに画像の説明を挿入します
ここに画像の説明を挿入します

  • 現実世界のパフォーマンスの低い
    深層学習システムは、一部の視覚ベンチマークでは人間のレベルに達するか、人間のレベルを超えると宣伝されることがよくあります。ただし、実際のデータの場合、これらの深層学習ベースのビジョン モデルのパフォーマンスは大幅に低下し、予想をはるかに下回ります。言い換えれば、ベンチマークデータと現実世界のデータの間には大きなギャップがあります。

このギャップは、過去の試験の問題だけを勉強して試験に合格した学生と同様に、これらのモデルがベンチマーク データセットでのパフォーマンスのみを最適化することで「不正」を行ったため、このギャップが発生したと推測しています (適切な転送と汎化機能なし)。

CLIPモデルは大量のペア データを使用するため、これらの特定のタスクを微調整する必要はありません (十分な情報がCLIP得られているため)。これにより、ベンチマーク テストの結果が、実際のデータでのパフォーマンスをより正確に反映するようになります。

「不正仮説」を検証するために、著者らはCLIPモデルが ImageNet 上で「学習」したときのパフォーマンスの変化もテストしました。線形分類器がCLIP分類タスクに使用される特徴でトレーニングされると、CLIPImageNet テスト セットの精度が10% 近く向上します 10\%10 %ですが、この現象は他のデータセットでは明らかではありません[30]

4. 重要なポイント

4.1はCLIP非常に効率的です

CLIPインターネットから発見されたデータであり、フィルタリングされていない範囲が広い大量の干渉データの影響を受けるという特徴があり、zero-shotパラダイムで使用することを目標としています。GPT-2/3 とは異なり、CLIP必要な計算能力を削減し、トレーニングの効率を向上させることに重点を置いた設計となっています。

大幅な計算能力の節約につながる 2 つのアルゴリズムの選択肢について報告しますが、実際
にはCLIP、計算能力を大幅に節約するアルゴリズムの選択肢が 2 つあります。

  • 対照的な対物レンズを使用して画像とテキストの間のギャップを埋めることは、
    小規模なデータセットをスケーリングするときに非常に役立ちます。

中小規模の実験では、CLIP で使用される対物レンズの方がゼロショット ImageNet 分類で 4 倍から 10 倍効率的であることがわかりました。

  • ビジョントランスフォーマーを使う

ViTを使用すると[31]、従来の Resnet と比較して 3 倍近くのコンピューティング能力が得られます。OpenAI の最高のCLIPモデルは 256 GPU で 2 週間トレーニングされました。

ここに画像の説明を挿入します

私たちは当初、画像からキャプションへの言語モデルのトレーニングを検討しましたが、このアプローチではゼロショット転送を達成するのが難しいことがわかりました。実験では、4 億枚の画像でトレーニングされた言語モデルは、ImageNet では 16% の精度しか達成できませんでしたが、効率ははるかに高く、言語モデルよりも 10% 早く同じ精度を達成できましたCLIP

4.2CLIPは柔軟かつ一般的です

非常に広範囲の視覚概念から自然言語ペアの関係を学習できるため、CLIPこのモデルは明らかに ImageNet でトレーニングされたモデルよりも柔軟で多用途です。

実験の結果、著者はCLIPさまざまなタスクに対してゼロショット移行を実行できることを発見しました。パフォーマンスを検証するために、著者は、きめ細かいオブジェクト分類ビデオ内のアクション認識OCRなどを含む30 を超える異なるデータセットに対してCLIPゼロショット テストを実施しました。

最良のCLIPモデルは 26 の異なる移行データセット上にあり、公開されている最良の ImageNet モデルおよびそのうち 20 の Noisy Student EfficientNet-L2 を上回っています[27]

ここに画像の説明を挿入します

きめ細かいオブジェクト分類、OCR、ビデオ内のアクティビティ認識、地理位置特定などの 27 のデータセットでのテストを通じて、モデルがよりCLIP有用な画像表現を学習できることがわかりました。CLIPこのモデルは、以前に比較した 10 の方法よりも計算効率が高くなります。

5. 制限と影響

5.1 制限事項

CLIP現在のところ、通常の物体を識別する場合には十分な性能を発揮しますが、写真内の物体の数を数えたり、写真内で最も近い車がどの程度接近しているかを予測したりするなど、より抽象的または体系的なタスクには無力です。

この場合、ゼロショットCLIPモデルはランダムな推測とほぼ同じくらい効果的です。同様に、さまざまな車、さまざまな航空機の種類、または花の種類の詳細を区別するなど、きめの細かい分類タスクのパフォーマンスはあまり良くありません。

CLIPまた、事前トレーニング データセットに含まれていない画像に対する一般化も不十分です。たとえば、CLIP効果的な OCR システムを学習したにもかかわらず、MNIST データセットからパフォーマンスを評価すると、ゼロショット CLIP は 88% の精度しか達成できません。これは、データセット上の人間の認識精度 99.75% よりもはるかに低いです。

最後に、著者はCLIP、ゼロショット分類器がフレージングに非常に敏感であり、適切に実行するには、場合によっては微調整や誤った表現 (「プロンプト エンジニアリング」) が必要になることを観察しました。

5.2 より広範な影響

CLIP研究者や機械学習の実践者は、分類器を設計する際にタスク固有のデータを必要とすることができます。ただし、この方法はモデルのパフォーマンスとモデルのバイアスにも重大な影響を与えます (例については原文を参照してください[1])。

さらに、CLIPタスク固有のトレーニングを必要とするモデルではないため、一部の不確実なタスクのロックを解除/処理することが容易です。これらのタスクの中にはプライバシーや監視関連のリスクを高める可能性があるものもありますが、私たちはCLIP有名人の識別におけるパフォーマンスを研究することでそれを調査しています。

CLIP「野生の」有名人データセットにおけるトップ 1 の高い精度

候補者100名 候補者1000人
59.2% 43.3%

ただし、これはタスクに依存しない (タスクに依存しない) 事前トレーニングによって実現されます。しかし、この種の性能を実際の産業用途に実際に適用することはできません。

著者らは論文の中で、CLIP提起された課題をさらに調査しており、この研究がこれらのモデルの機能、欠点、バイアスの特徴付けに関する将来の研究に拍車をかけることを期待している。そして、この種の問題 (マルチモーダル...) について研究コミュニティと関わることができれば素晴らしいと思います。

6 結論

この提案を通じてCLIP、著者らは、インターネット規模のレベルで自然言語で事前トレーニングされたモデルに対するタスク非依存効果をテストしました。この事前トレーニング方法 ( GPT-2/3) は、NLP の分野に大きな進歩をもたらしただけでなく、そのブレークスルーも利用できます。深層学習の他の領域のパフォーマンスを向上させるため。

上記の実験結果から、CLIPこの事前学習モデルは ( GPT-2/3NLP 分野と同様に) CV 方向でも優れたパフォーマンスを発揮します。CLIPImageNet に関する著者らの調査結果は、ゼロショットのパフォーマンスがモデルの能力のより代表的な尺度であることを示唆しています。

参照

[1]: CLIP: テキストと画像の接続
[2]: Dodge, S.、Karam, L. (2017 年 7 月)。「視覚的な歪みの下での人間とディープラーニングの認識パフォーマンスの研究と比較」ICCCN 2017 にて。
[3]: Geirhos, R.、Rubisch, P.、Michaelis, C.、Bethge, M.、Wichmann, FA、および Brendel, W. (2018)。「ImageNet でトレーニングされた CNN はテクスチャに偏っています。形状バイアスを増やすと、精度と堅牢性が向上します。」ICLR 2019 にて。
[4]: Alcorn, MA、Li, Q.、Gong, Z.、Wang, C.、Mai, L.、Ku, WS、および Nguyen, A. (2019)。「ポーズをとります。ニューラル ネットワークは、見慣れたオブジェクトの奇妙なポーズに簡単にだまされます。」CVPR 2019 において。
[5]:Barbu, A.、Mayo, D.、Alverio, J.、Luo, W.、Wang, C.、Gutfreund, D.、… & Katz, B. (2019)。「Objectnet: 物体認識モデルの限界を押し上げるための、バイアスが制御された大規模なデータセット。」NeurIPS 2019 にて。
[6] Radford, A.、Wu, J.、Child, R.、Luan, D.、Amodei, D.、Sutskever, I. (2019)。「言語モデルは教師なしのマルチタスク学習者です。」OpenAIの技術レポート。↩︎
[7]ブラウン、TB、マン、B.、ライダー、N.、サブビア、M.、カプラン、J.、ダリワル、P.、… & アガルワル、S. (2020)。「言語モデルは少数のショットで学習できるものです。」NeurIPS 2020 にて。 ↩︎
[8] Larochelle, H.、Erhan, D.、および Bengio, Y. (2008 年 7 月)。「新しいタスクのゼロデータ学習」。AAAI 2008にて。 ↩︎
[9]CH ランパート、H ニッキッシュ、S ハーメリング (2009 年 6 月)。「クラス間の属性転送により、目に見えないオブジェクト クラスを検出する方法を学習します。」CVPR 2009 にて。 ↩︎
[10] Lei Ba, J.、Swersky, K.、Fidler, S. (2015)。「テキスト記述を使用したディープゼロショット畳み込みニューラルネットワークの予測」ICCV 2015 にて。 ↩︎
[11] Socher, R.、Ganjoo, M.、Manning, CD、および Ng, A. (2013)。「クロスモーダル転送によるゼロショット学習」NeurIPS 2013 にて。 ↩︎
[12] Frome, A.、Corrado, GS、Shlens, J.、Bengio, S.、Dean, J.、Ranzato, MA、および Mikolov, T. (2013)。「考案: 深い視覚的意味の埋め込みモデル。」NeurIPS 2013 にて。 ↩︎
[13]リー、A.、ジャブリ、A.、ジョウリン、A.、およびファン デル マーテン、L. (2017)。「Web データから視覚的な N グラムを学習する」IEEE International Conference on Computer Vision 2017 の議事録にて。 ↩︎
[14] Vaswani, A.、Shazeer, N.、Parmar, N.、Uszkoreit, J.、Jones, L.、Gomez, AN, … & Polosukhin, I . (2017)。「必要なのは注意力だけです。」NeurIPS 2017 にて。
[15] Desai, K.、& Johnson, J. (2020)。「VirTex: テキストの注釈から視覚表現を学習する」arXiv プレプリント。
[16]サリイルディス、MB、ペレス、J.、ラルルス、D. (2020)。「キャプション注釈を使用した視覚表現の学習」ECCV 2020 にて。
[17]Zhang, Y.、Jiang, H.、Miura, Y.、Manning, CD、Langlotz, CP (2020)。「画像とテキストのペアからの医療視覚表現の対比学習」arXiv プレプリント。
[18] Doersch, C.、Gupta, A.、および Efros, AA (2015)。「文脈予測による教師なし視覚表現学習」ICCV 2015 にて。 ↩︎
[19] Zhai, X.、Oliver, A.、Kolesnikov, A.、および Beyer, L. (2019)。「S4l: 自己教師あり半教師あり学習」ICCV 2019 にて。 ↩︎
[20]グリル、JB、ストラブ、F.、アルチェ、F.、タレック、C.、​​リシュモンド、PH、ブチャツカヤ、E.、… & ピオット、B. (2020)。「自分自身の潜在能力をブートストラップする: 自己教師あり学習への新しいアプローチ」NeurIPS 2020 にて。 ↩︎
[21]オード、AVD、リー、Y.、およびヴィニャルズ、O. (2018)。「対照予測コーディングによる表現学習」arXiv プレプリント。↩︎ ↩︎
[22] Hjelm, RD、Fedorov, A.、Lavoie-Marchildon, S.、Grewal, K.、Bachman, P.、Trischler, A.、および Bengio, Y. (2018)。「相互情報量推定と最大化による深い表現の学習」ICLR 2019 にて。 ↩︎
[23] Bachman, P.、Hjelm, RD、および Buchwalter, W. (2019)。「ビュー間の相互情報を最大化することで表現を学習します。」NeurIPS 2019 にて。 ↩︎
[24] He, K.、Fan, H.、Wu, Y.、Xie, S.、Girshick, R. (2020)。「教師なし視覚表現学習の勢いのコントラスト」CVPR 2020 にて。 ↩︎
[25]Chen, T.、Kornblith, S.、Norouzi, M.、ヒントン, G. (2020)。「視覚表現の対比学習のためのシンプルなフレームワーク。」arXiv プレプリント。↩︎
[26]リー、DH (2013 年 6 月)。「擬似ラベル: ディープ ニューラル ネットワークのためのシンプルで効率的な半教師あり学習方法」表現学習における課題に関するワークショップ、ICML (2013)。↩︎
[27] Xie, Q.、Luong, MT、Hovy, E.、& Le, QV (2020)。「騒々しい学生との自己トレーニングにより、イメージネットの分類が向上します。」CVPR 2020 にて。
[28] Kingma, DP、Mohamed, S.、Jimenez Rezende, D.、および Welling, M. (2014)。「深い生成モデルを使用した半教師あり学習」NeurIPS 2014 にて。 ↩︎
[29]Salimans, T.、Goodfellow, I.、Zaremba, W.、Cheung, V.、Radford, A.、および Chen, X. (2016)。「ガンを訓練するための技術の改良。」NeurIPS 2016 にて。 ↩︎
[30] Taori, R.、Dave, A.、Shankar, V.、Carlini, N.、Recht, B.、および Schmidt, L. (2020)。「画像分類における自然な分布の変化に対するロバスト性の測定」NeurIPS 2020 にて。↩︎
[31] Dosovitskiy, A.、Beyer, L.、Kolesnikov, A.、Weissenborn, D.、Zhai, X.、Unterthiner, T., … & Uszkoreit, J. (2020)。「画像は 16x16 ワードの価値があります: 大規模な画像認識のためのトランスフォーマー。」arXiv プレプリント。

おすすめ

転載: blog.csdn.net/g11d111/article/details/113333423