Dataset-(image-text): LAION [58.5 億の画像とテキストのペアを含む、史上最大のマルチモーダルな画像とテキストのデータセット]

史上最大のマルチモーダルな画像・テキストデータセットであるLAION-400M[1]のリリースに続き、今年は超大規模な画像・テキストデータセットであるLAION-5B[2]がリリースされました。

LAION-400M の 14 倍に相当する、CLIP [5] でフィルタリングされた 58.5 億の画像とテキストのペアのデータ セットが含まれています。 80T データを提供し、ポルノ画像フィルタリング、透かし画像フィルタリング、高解像度画像、美的画像などのサブセットとモデルをさまざまな方向の研究に利用できます。

見てみましょう。


今年の人気の DALL E 2 は、マルチモーダル グラフィック テキスト マッチング研究の急増を再び引き起こしました。

画像とテキストのマッチングの分野では、CLIP[5] モデルにより、ImageNet のゼロショット分類精度が 11.5% から 76.2% に改善されました. これに触発されて、ALIGN[3] やBASIC[4] さらなる改善のために、独自のモデルの最適化に加えて、現在の進歩は、実際には何億もの画像とテキストのペアの基礎となるデータに大きく依存していますが、これらのデータセットとモデルのほんの一部しか公開されていません、したがって、LAIONはLAION-5Bとデータセットを提案しましたモデルはそれでトレーニングされ、事前計算されたベクトルと検索機能を提供するWebインターフェースを提供します。

図 1: LAION-5B の検索例。データソース:https://laion.ai/blog/laion-5b/

LAION-5B は CommonCrawl を介してテキストと写真を取得し、OpenAI の CLIP は画像とテキストの類似度を計算して取得し、類似度が設定されたしきい値 (英語のしきい値は 0.28、残りのしきい値は 0.26) よりも低い写真とテキストのペアを削除します。 、および500億枚の写真が保管されています 60億枚未満が収集され、最終的に58.5億の画像とテキストのペアが形成されました。これには、23.2億の英語、22.6億の100以上の言語、および12.7億の未知の言語が含まれます。

公式ウェブサイト:

https://laion.ai/blog/laion-5b/

データセット情報:

https://opendatalab.org.cn/LAION-5B

紙:

https://openreview.net/pdf?id=M3Y74vmsMcY

LAION-400Mの紹介:

https://mp.weixin.qq.com/s/vzyOF4esJCkBZDMiNScE5A

今日の紹介は、次の点を中心に展開します。

● データセットの背景情報

●LAION-5Bの持つもの

●LAION-5Bでできることは?

●LAION-5Bをトレーニングに使用する方法

1. データセットの背景情報

CLIP[5] や DALLE[6] などのモデルは、大規模なマルチモーダル データの重要性を証明しています. 手動でラベル付けしなくても、多くの優れた教師ありモデルを超えることができます. CLIP などの古典的なモデルは、ネットワークの画像とテキストのペアを実行するために 400M を使用します. トレーニング、ImageNet のゼロショットは、ImageNet 1.2M 教師ありデータでトレーニングされた resnet50 のパフォーマンスを 1.9% 上回るだけでなく、通常のビジュアル モデルでは認識できないスケッチ、油絵、アート ドローイングなども認識できます (図 2)。 .


ALIGN[3] や GLIDE[12] などはすぐにこれを確認しましたが、これらの大規模なデータ セットはいずれもオープン ソースではないため、この分野の研究は少数の機関に集中しているだけです。今回公開された LAION-5B[2] は LAION-400M の 14 倍もの規模で公開されており、十分な規模の公開データにより、この分野の研究はより多様化し、より多くの研究者が研究に携わっています。この分野で。

図 2: CLIP はスケッチ、絵画、アート画像を認識できますが、ResNet はこれらが苦手です。データソース: https://openai.com/blog/clip/

さまざまな機関があまりにも多くのモーダル データ セットと画像データ セットを次々にリリースしていますが、数が少ないか非公開であるため、マルチモーダル事前トレーニング モデルでは良い結果を得ることができません。作られた。

1.1 画像とテキストのペアのデータセット

当初、データセットはCOCO [7] やVisual Genome [8] などの手動アノテーションによって生成されました. COCO Captions は、COCO 画像データに基づいて画像説明を手動で注釈することによって取得されます. Visual Genome は、2016 年に Li Feifei によってリリースされた大規模な画像意味理解データセットです。画像と質問応答データが含まれ、高密度の注釈と多様な意味論が含まれています。これらの 2 つのデータセットは、主に画像の生成と説明に使用されます (Visual Genome は、画像の質問応答にも使用できます). ただし、写真の数が少ないため、330k と 5M のペアのみであるため、モデルの開発は制限されています.

その後、 Conceptual Captions 3M [9] やConceptual Captions 12M [16]など、手動で注釈が付けられていないマルチモーダル データ セットが徐々に出現し、対応する説明は Web サイトの alt-text 属性からフィルタリングされます。CLIPモデルの出現により、 ALT200M [10]やALIGN1.8B [3]と同様に、大規模な事前トレーニングモデルがマルチモーダル分野で徐々にトレンドになり、データセットの規模は徐々にただし、データ量が多いため、NLP、ゼロショット視覚推論、マルチモーダル検索などのさまざまなダウンストリーム タスクで、SOTA の結果でさえ良好な結果を達成できます。しかし残念なことに、CLIP と ALIGN などのデータ セットで使用される 4 億の画像とテキストのペアのいずれも公開されていません。

昨年公開されたLAION-400Mは4億の画像とテキストのペアを持ち、当時公開されていた画像とテキストの最大のデータセットであり、公開されると大きな反響があり、このデータに基づいていくつかのモデルがトレーニングされ、ただし、公式CLIPと比べるとまだ若干のズレがあり、LAION-400Mは違和感のある写真が多く含まれており、モデル、特に生成モデルに大きな影響を与えています。たとえば、安定した拡散モデルは多くの人がポルノ画像を生成するために使用されますが、これは悪影響を及ぼしており、より大規模でクリーンなデータ セットが要求されるようになっています。

今回リリースされたLAION-5B は、スケールの拡大に加えて、フィルタリングのためのいくつかのモデルも提供しています.LAION は、ポルノ コンテンツ認識モデル NSFW をトレーニングして、最も不適切な写真をフィルタリングし、透かし検出モデルは、透かし入りの写真をフィルタリングすることができます.コンテンツ 削除が研究の豊富さに影響を与える場合、データ全体からは削除されず、さまざまな目的のためにさまざまなサブセットが提供されます。

1.2 画像データセット

Instagram-1B、JFT300M、JFT3B などの大規模なデータセットはすべてプライベート データセットであり、まだ公開されていません。

図 3: データセットのサイズ比較、パブリック データセット (上) とプライベート データセット (下)。LAION-5B は、他の公開データセットの 100 倍の大きさです。データ ソース: [2]

LAION-5B のデータ スケールは現在最大であり、多くの未公開のマルチモーダル モデルをトレーニングして良好な結果を得ることができ、最初のオープン ソースのCLIPモデルがリリースされました。また、さまざまな分野の画像を含むデータは多様であり、データの重複、画像ノイズ、不適切な画像スクリーニング、リソースの少ない言語、マルチモダリティにおける自然言語の役割、モデル偏差、等々。

ただし、LAION-5B を直接産業に適用する場合、LAION-5B には透かし画像や不適切な画像が含まれており、それに応じてモデルが偏ってしまうため、画像のクリーニングに注意する必要があります。

2.LAION-5Bとは?

LAION400Mのリリース以降、アンフィルタリングに起因する問題が相次ぐ研究で発見されたため、LAIONは50億の画像とテキストのペアに加えて、さまざまなサブセットも提供しています。以前の研究では、生成モデルが人種差別的な画像を生成するのを制限するために、トレーニング セット内の暴力関連のオブジェクト、人、および顔の画像を削除する試みが行われました.しかし、これは明らかにモデルの一般的な機能を制限しました。顔の世代として。したがって、研究の多様性のために、そのようなコンテンツはデータセット全体で削除されるのではなく、さまざまなサブセットが提供されます。

また、LAION はCLIPなどの繰り返しモデルも提供しており、LAION に基づいてトレーニングされたモデルが元のモデルに負けない能力を持っていることを示しています。KNNインデックスと、適切な画像の検索を容易にするWebインターフェイス。

もちろん、大規模なデータセットのダウンロードに便利なように、LAION は画像とテキストのサイズを指定できる img2dataset 分散ダウンロードも提供し、1 つのノードから 20 時間以内に 1 億枚の画像をダウンロードできます (速度 1Gbps、メモリ 32G、i7 16コアCPU搭載)

2.1 サブセット

LAION-5B には 23 億 2000 万の英語、22 億 6000 万の 100 以上の言語、12 億 7000 万の未知の言語が含まれています。

 laion2B-in

 laion2Bマルチ

 laion1B-nolang

LAION は、CLIP 埋め込みに基づくポルノ コンテンツ認識モデルである NSFW をトレーニングしました.3% の不快な画像をフィルター処理できます. NSFW の精度は約 96% です. フィルター処理後、サブセットがあります:

●laion2B-en-safety

●laion2B-マルチセーフティ

● laion1B-nolang-safety

LAION は透かし認識モデルをトレーニングし、フィルタリング後にサブセットがあります。

● laion2B-en-透かし

● laion2B-マルチ透かし

● laion1B-nolang-透かし

170M 超解像サブセット:

● laion-高解像度

画像生成に使用できる美的画像の 1 億 2000 万個のサブセット:

●ライオン美学

詳細は次を参照してください。

https://huggingface.co/laion

2.2 オープンソースモデル

オープンソースではない既存のマルチモーダル モデルの場合、LAION はサブセットを再トレーニングまたは微調整し、より良い結果を達成します。

CLIP: CLIP モデルは openCLIP を通じてオープンソース化されており、LAION-400M と LAION-5B でそれぞれトレーニングされています. 前者の効果は OpenAI の効果よりわずかに低く、後者のゼロショットの効果は OpenAI よりも高いOpenAIのもの。

BLIP: LAION-400M の 115M サブセットで再トレーニングし、CLIP を使用して候補の説明を並べ替えます.評価後、他のモデルよりも優れており、説明の生成と画像とテキストの照合に使用されます.

グライド: グライド モデルは LAION-2B で微調整され、良好な結果が得られました。

さらに、透かし認識モデルとポルノコンテンツ認識モデルNSFWも提供されています

2.3 KNN インデックス/Web インターフェイス

LAION は autofaiss ツールを使用して合計 800GB の KNN インデックスを作成しました。

使いやすさのために、インデックスが Web サイトに統合されています。Web インターフェイスは、クエリの画像/テキストに基づいて画像/テキストを検索します。意味的類似性の高い画像テキストは、CLIP 埋め込みによって取得されます. 高解像度画像の豊富さを考慮して、画像サブセットを生成してカスタム モデルをトレーニングすることができ、特定のトレーニング目的の画像解像度も選択できます.

検索サイトの左側にセーフモードが追加され、不快な写真をフィルタリングできるようになりました。

サイトを取得します。

クリップの先頭 rom1504.github.io/clip-retrieval/?back=https%3A%2F%2Fknn5.laion.ai&index=laion5B&useMclip=false

図 4: Web 検索のデモ

3. LAIONでできることは?

LAION は、大規模なグラフィック データを提供します, これは、ほとんどのマルチモーダルおよび CV 作業に使用できます. マルチモーダルの側面には、大規模な事前トレーニング、グラフィック マッチング、画像生成 (画像生成、画像修復/編集など) およびダウンストリーム タスクが含まれます。テキスト生成 (画像生成テキスト、VQA など)、CV には分類などが含まれます。LAION は、データセットを参照として使用してトレーニングされたモデルも提供します。

3.1 画像とテキストのマッチングとマルチモーダル事前トレーニング

マルチモーダル事前トレーニング、画像とテキストの照合、画像とテキストの検索などのタスクが含まれますが、これらに限定されません。

CLIP モデルは、対照的な学習を使用して画像とテキストを同じ空間に埋め込み、画像とテキストの照合/検索、ゼロショット分類、およびその他の分野の画像とテキストのマルチモダリティの進歩を示しています。ただし、CLIPはトレーニングデータを開示していなかったため、LAIONはLAION-400MとLAION-2Bをそれぞれ使用してCLIPモデルを再トレーニングし、正解率はOpenAIバージョンと同等でした.

3.2 タスクの生成

●画像生成

タスクには、高解像度画像の生成、画像の修復/編集、写真からのテキストの生成、条件付き画像の生成が含まれますが、これらに限定されません。

LAION は、不快な画像や透かし画像をフィルタリングするサブセットを提供し、画像生成の条件をさらに提供します。現在、DALLE [6] の自己回帰モデルや GLIDE [12] の拡散モデルなど、LAION サブセットに基づいて生成できる多くのモデルがあります。

Stable Diffusion [13] は、LAION-5B のサブセットを使用して圧縮空間で画像を再構成します。これにより、画像復元、画像生成などのためにメガピクセルの高解像度画像を生成できます。

VQ-Diffusion [14] モデルは、ベクトル量子化変動オートエンコーダーを使用して、LAION-400M でテキストから画像への生成モデルをトレーニングし、より高い画質を取得します。

Imagen [15] は LAION-400M のサブセットでトレーニングされ、強力な言語モデルを使用して特徴を抽出し、テキストに対応する高品質の画像の生成を導き、DALLE-2 [20] を打ち負かして SOTA を達成します。

- 顔生成FARL [17]など、他の領域の画像を選択して生成することも可能です

● テキスト生成

タスクを含むがこれらに限定されない: 画像生成テキスト、VQA、視覚含意

BLIP [18] は、LAION-400M の 115M サブセットで再トレーニングされ、CLIP を使用して候補の説明を並べ替えました. 評価後、BLIP は他のモデルよりも優れており、説明の生成とグラフィックテキストのマッチングに使用されました.

MAGMA [19] は、LAION のサブセットでトレーニングし、アダプターに基づいて微調整して言語モデルの生成を強化し、視覚的な質問に対する回答を生成し、simVLM のデータ量の 0.2% のみを使用しながら、より良い結果を生成しました。

3.3 分類タスク

ゼロショット、微調整、トレーニングができます。

Web 検索サブセットまたは公式に提供されているサブセットを通じて、分類認識透かし認識ポルノ コンテンツ認識顔の特徴学習などを構築できます。また、提供されている大規模な事前トレーニング モデルを使用して、ダウンストリーム タスクでゼロショット微調整を行うこともできます。

図 5: WIT (公式)、LAION-400M および LAION-2B-en でトレーニングされた CLIP モデルのダウンストリーム データ セットのゼロ ショット パフォーマンス比較を比較すると、LAION でトレーニングされたモデルのパフォーマンスが優れていることがわかります。データソース: [2]

3.4 その他のタスク

LAION はデータが豊富で、他のタスクに必要なデータをフィルター処理できます.たとえば、LAION-2B-multi で指定された言語データを低リソース言語タスク用にフィルター処理したり、データの重複がモデルに与える影響を分析したり、モデルバイアスなど。

4.LAIONの使い方

GPU リソースが豊富な学生の場合、タスクのトレーニング時に大規模なトレーニングにフルセット/サブセット データを使用できます。リソースが比較的限られている学生の場合、大規模なトレーニングを実行することはできません。LAION の事前トレーニング済みモデルは、ゼロショット、微調整などの研究に引き続き使用できます。また、取得する画像リソース プールとして使用することもできます。必要な画像自体。

4.1 大規模なトレーニング

トレーニングにフルセット/サブセットを使用して、多くの場合、大量のリソースを必要とするマルチモーダルおよび視野に関連するタスクを完了することができます。

● 完全なセットは、CLIP によってフィルタリングされた 58 億 5000 万の画像とテキストのペアで構成され、少量のノイズと不快なデータが含まれています。

● サブセットとは、2.1 で提供されるさまざまなサブセットを指します。不快感のない画像サブセット、透かしのないサブセット、超解像サブセット、美的サブセットなどを含みますが、これらに限定されません。

● 適切なサブセットがない場合は、Web でページを検索し、適切なデータをダウンロードして、トレーニング用の画像サブセットを生成し、トレーニングに適した画像解像度を選択することもできます.この方法の利点は、それを選択できることです.カスタムシーンの画像によると。

4.2 少量のトレーニング

リソースが限られているエンジニアの場合、LAION-5B で必要なデータと、LAION-5B が提供するトレーニング用の事前トレーニング モデルを選択できます。

● データ

LAION-5B のデータの一部は、Web 検索インターフェイスを介してカスタム シーンの画像を取得したり、透かしの有無にかかわらず画像、高解像度の画像、美的スコアの高い画像などを使用したりするなど、トレーニング用に選択できます。 -スケールトレーニング。

●モデル面

LAION が提供する事前トレーニング済みのモデルを使用して、ダウンストリームでゼロ ショット、少数ショット、または微調整を実行できます。

zero-shot/few-shot : 公式はCLIP、BLIPなどの事前訓練された大規模なオープンソースモデルを提供し、顕著な効果をもたらします.LAIONトレーニングに基づくCLIPのパフォーマンスは、オリジナルのパフォーマンスに匹敵します.モデル。LAION-400M トレーニングに基づく CLIP パフォーマンスは、図 6 を参照できます。

finetune : 公式の微調整方法が参照用に提供されています: https://github.com/mlfoundations/wise-ft。従来の微調整方法をトレーニングに使用することもできます。

図 6: CLIP は LAION-400M に基づいており、ImageNet、ImageNetV2、Birdsnap、Country211、Flowers102、GTSRB、Standford Cars、UCR101 などのデータ セットをテストします。OpenAI の CLIP パフォーマンスは同等です。データソース: https://github.com/mlfoundations/open_clip

V. まとめ

50 億を超える画像とテキストのペアを含むデータセットである LAION-5B は、言語視覚モデルのオープン データセットの規模をさらに拡大し、より多くの研究者がマルチモーダル分野に参加できるようにします。また、研究を促進するために、さまざまなスケールのモデルをトレーニングするための複数のサブセットが提供されており、サブセットのトレーニングも Web インターフェイスから取得できます。いくつかのモデルと論文は、LAION サブセットに基づいてトレーニングされたモデルが良好な、または SOTA の結果さえも達成できることを証明しています。

参考文献

[1] Christoph Schuhmann、Richard Vencu、Romain Beaumont、Robert Kaczmarczyk、Clayton Mullis、Aarush Katta、Theo Coombes、Jenia Jitsev、および Aran Komatsuzaki。Laion-400m: クリップ フィルター処理された 4 億の画像とテキストのペアのオープン データセット。arXiv プレプリント arXiv:2111.02114, 2021.

[2]クリストフ・シューマン、ロマン・ボーモント、ケイド・W・ゴードン、ロス・ワイトマン、メディ・チェルティ、テオ・クームズ、アーラッシュ・カッタ、クレイトン・マリス、パトリック・シュラモウスキー、スリヴァツァ・R・クンドゥルシー、キャサリン・クロウソン、リチャード・ヴェンク、ルートヴィヒ・シュミット、ロバート・カツマルチック、ジェニア・ジツェフ。LAION-5B: 次世代の画像テキスト モデルをトレーニングするためのオープンな大規模データセット、2022.URL  https://openreview.net/pdf?id=M3Y74vmsMcY

[3]Chao Jia、Yinfei Yang、Ye Xia、Yi-Ting Chen、Zarana Parekh、Hieu Pham、Quoc V. Le、Yun-Hsuan Sung、Zhen Li、Tom Duerig。ノイズの多いテキストの監督による視覚および視覚言語表現学習のスケールアップ。CoRR, abs/2102.05918, 2021. URL  https://arxiv . org/abs/2102.05918.

[4]Hieu Pham, Zihang Dai, Golnaz Ghiasi, Hanxiao Liu, Adams Wei Yu, Minh-Thang Luong, Mingxing Tan, and Quoc V Le. ゼロショット転移学習のための複合スケーリング. arXiv preprint arXiv:2111.10050, 2021.

[5] アレック・ラドフォード、キム・ジョンウク、クリス・ハラシー、アディティア・ラメッシュ、ガブリエル・ゴー、サンディーニ・アガルワル、ギリッシュ・サストリー、アマンダ・アスケル、パメラ・ミシュキン、ジャック・クラーク 他 自然言語の監督から伝達可能な視覚モデルを学びます。機械学習に関する国際会議、8748 ~ 8763 ページ。PMLR、2021年。

[6] アディティア・ラメシュ、ミハイル・パブロフ、ガブリエル・ゴー、スコット・グレイ、チェルシー・ヴォス、アレック・ラドフォード、マーク・チェン、イリヤ・サツケバー。テキストから画像へのゼロショット生成。CoRR, abs/2102.12092, 2021. URL  https://arxiv.org/abs/2102.12092 .

[7]ツン・イリン、マイケル・メイヤー、セルジュ・ベロンジー、ジェームズ・ヘイズ、ピエトロ・ペローナ、デヴァラマナン、ピョートル・ダラー、C・ローレンス・ジトニック。Microsoft ココ: コンテキスト内の共通オブジェクト。コンピューター ビジョンに関するヨーロッパの会議、740 ~ 755 ページ。スプリンガー、2014年。

[8]ランジャイ・クリシュナ、ユーク・チュー、オリバー・グロス、ジャスティン・ジョンソン、畑健二、ジョシュア・クラヴィッツ、ステファニー・チェン、ヤニス・カランティディス、リー・ジア・リー、デヴィッド・A・シャマ 他 ビジュアル ゲノム: クラウドソーシングによる高密度の画像アノテーションを使用して、言語と視覚を結び付けます。コンピューター ビジョンの国際ジャーナル、123(1):32–73、2017 年。

[9]ピユシュ・シャルマ、ナン・ディン、セバスチャン・グッドマン、ラドゥ・ソリカット。概念的なキャプション: 自動画像キャプション用のクリーンでハイパーニム化された画像代替テキスト データセット。計算言語学協会の第 56 回年次総会の議事録 (Volume 1: Long Papers)、2556 ~ 2565 ページ、メルボルン、オーストラリア、2018 年 7 月。計算言語学協会。ドイ: 10.18653/v1/P18-1238. URL  https://aclanthology.org/P18-1238 .

[10] Xiaowei Hu, Zhe Gan, Jianfeng Wang, Zhengyuan Yang, Zicheng Liu, Yumao Lu, and Li-juan Wang. 画像キャプションのための視覚言語事前トレーニングのスケールアップ. arXiv preprint arXiv:2111.12233, 2021.

[11]Olga Russakovsky、Jia Deng、Hao Su、Jonathan Krause、Sanjeev Satheesh、Sean Ma、Zhiheng Huang、Andrej Karpathy、Aditya Khosla、Michael Bernstein、Alexander C. Berg、および Li Fei-Fei。ImageNet 大規模視覚認識チャレンジ。International Journal of Computer Vision (IJCV), 115(3):211–252, 2015. doi:10.1007/s11263-015-0816-y.

[12] アレックス・ニコル、プラフラ・ダリワル、アディティア・ラメシュ、プラナフ・シャム、パメラ・ミシュキン、ボブ・マグリュー、イリヤ・サツケバー、マーク・チェン。Glide: Towards Photorealistic image generation and edit with text-guided difusion models, 2021. URL  https://arxiv.org/abs/2112.10741 .

[13] ロビン・ロンバッハ、アンドレアス・ブラットマン、ドミニク・ローレンツ、パトリック・エッサー、ビョルン・オマー。潜在拡散モデルによる高解像度画像合成。CoRR, abs/2112.10752, 2021. URL  https://arxiv.org/abs/2112.10752 .

[14]Shuyang Gu, Dong Chen, Jianmin Bao, Fang Wen, Bo Zhang, Dongdong Chen, Lu Yuan, and Baining Guo. テキストから画像への合成のためのベクトル量子化拡散モデル. CoRR, abs/2111.14822, 2021. URL  https ://arxiv.org/abs/2111.14822 .

[15] チトワン・サハリア、ウィリアム・チャン、サウラブ・サクセナ、ララ・リー、ジェイ・ワン、エミリー・デントン、セイエド・カミャー・セイエド・ガセミプール、ブルク・カラゴル・アヤン、S・サラ・マダヴィ、ラファ・ゴンティージョ・ロペス、ティム・サリマンズ、ジョナサン・ホー、デヴィッド・J・フリート、モハマド・ノロウジ。深い言語理解を備えたフォトリアリスティックなテキストから画像への拡散モデル、2022. URL  https://arxiv.org/abs/  2205.11487.

[16]Soravit Changpinyo、Piyush Sharma、Nan Ding、および Radu Soricut。概念的な 12m: Web スケールの画像とテキストの事前トレーニングをプッシュして、ロングテールの視覚的な概念を認識します。コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議の議事録、ページ 3558–3568、2021 年。

[17] Yinglinzheng, haoyang, tingzhang, jianminbao, DONGDONGCHEN, yangyuhuang, Luyuan, DONG Chen, Ming Zeng, and fangeral faction learning in a vis UAL-LINGUISTIC Manner. Corr, ABS/2112.03109, 2021. URL HTTPS: / /arxiv  . org/abs/2112.03109 .

[18]ジュンナン・リー、ドンシュー・リー、カイミン・シオン、スティーブン・ホイ。Blip: 統合されたビジョン言語の理解と生成のための言語イメージの事前トレーニングのブートストラップ、2022. URL  https://arxiv.org/abs/2201.12086 .

[19] コンスタンティン・アイチェンバーグ、シドニー・ブラック、サミュエル・ワインバック、レティーシャ・パルカラベスク、アネット・フランク。MAGMA - アダプターベースの微調整による生成モデルのマルチモーダル拡張。CoRR, abs/2112.05253, 2021. URL  https://arxiv.org/abs/2112.05253 .

[20] Aditya Ramesh、Prafulla Dhariwal、Alex Nichol、Casey Chu、Mark Chen。Clip Latents を使用した階層型テキスト条件付き画像生成、2022 年。URL  https://arxiv.org/abs/2204.06125  。




80TB!58.5億!世界最大の大規模公開グラフィックおよびテキスト データセットである LAION-5B の解釈 - プログラマー募集

40 歳の高校教師のオープン ソース データ セット LAION は生成 AI の未来を変えました丨Zhiyuan Conference-Know のゲスト

ヘビーデータセット発表!LAION-400-Million Open Dataset 無料 4億個の画像とテキストのペアデータ(LAION-400M:英語(画像、テキスト)のペア)|データラーナー公式サイト(Datalearner)

おすすめ

転載: blog.csdn.net/u013250861/article/details/130462444