[PMLR 2021] ゼロショット テキストから画像への生成: ゼロショット テキストから画像への生成

[PMLR 2021] ゼロショット テキストから画像への生成: ゼロショット テキストから画像への生成

図 1. 元の画像 (上) と離散 VAE 再構成画像 (下) の比較。 エンコーダーは空間解像度を 8 分の 1 にダウンサンプリングします。 細部 (猫の毛皮の質感、店頭の文字、イラストの細い線など) が失われたり歪んだりすることがありますが、画像の主な特徴は依然として認識できることがよくあります。 情報の損失を軽減するために 8192 という大量の語彙を使用しています

図 1. 元の画像 (上) と離散 VAE 再構成画像 (下) の比較。エンコーダーは空間解像度を 8 分の 1 にダウンサンプリングします。細部 (猫の毛皮の質感、店頭の文字、イラストの細い線など) が失われたり歪んだりすることがありますが、画像の主な特徴は依然として認識できることがよくあります。情報の損失を軽減するために 8192 という大量の語彙を使用しています

元のリンク: [PMLR 2021] ゼロショット テキストから画像への生成: ゼロショット テキストから画像への生成 (作成者) Frontiers of Small-Shot Vision and Intelligence

01 既存の業務が不足していませんか?

テキストから画像への生成は、固定データセットでのトレーニングのためのより適切なモデリング仮定を見つけることに重点を置いています。これらの仮定には、複雑なアーキテクチャ、補助損失、またはトレーニング中に提供されるオブジェクト部分のラベルやセグメンテーション マスクなどのサイド情報が含まれる場合があります。

02 この記事はどのような問題を解決しますか?

テキストと画像のトークンを単一のデータ ストリームとして自己回帰的にモデル化し、ゼロショットのテキストから画像への生成を可能にする、Transformer に基づくシンプルなアプローチについて説明します。

03 鍵となる解決策は何ですか?

この研究では、インターネットから収集した 2 億 5,000 万個の画像とテキストのペアで 120 億パラメータの自己回帰変換器をトレーニングすると、言語制御が可能な柔軟で忠実度の高い画像生成モデルが得られることを示します。

04 主な貢献は何ですか?

  • 自己回帰変換に基づいてテキストから画像を生成する簡単な方法を調査します。
  • 提案された方法は、画像間の変換などの複雑なタスクを初歩的なレベルで実行できます。これには、以前は単一の大規模な生成モデルの機能として登場するのではなく、カスタム アプローチが必要でした (Isola et al., 2017)。

05 メソッドはどのように実行されますか?

私たちの目標は、テキストと画像のトークンを単一のデータ ストリームとして自己回帰的にモデル化するようにトランスフォーマーをトレーニングすることです。ただし、高解像度の画像の場合、ピクセルを画像マーカーとして直接使用すると、大量のメモリが必要になります。尤度目標では、ピクセル間の短距離依存関係のモデリングを優先する傾向があるため、モデリング能力のほとんどは、オブジェクトを視覚的に認識できるようにする低周波構造ではなく、高周波の詳細をキャプチャするために使用されます。

私たちは、次の 2 段階のトレーニングを使用してこれらの問題に対処します。

  1. 離散変分オートエンコーダー (dVAE)1 をトレーニングして、各 256 × 256 RGB 画像を 32 × 32 グリッドの画像マーカーに圧縮します。各マーカーは 8192 個の可能な値を持つことができます。これにより、視覚的な品質を大幅に低下させることなく、Transformer コンテキスト サイズが 192 分の 1 に削減されます (図 1 を参照)。
  2. 最大 256 個の BPE エンコードされたテキスト トークンを 32 × 32 = 1024 個の画像トークンと連結し、自己回帰変換器をトレーニングしてテキスト トークンと画像トークンの結合分布をモデル化します。

この分布を因数分解でモデル化します。

下限が得られます。

図 4. トランスフォーマーの resblock の resblock ごとの勾配スケーリングの図。実線は順伝播の一連の操作を表し、破線は逆伝播の一連の操作を表します。各 resblock の勾配スケーリングに従って入力勾配をスケーリングし、連続する resblock の勾配の合計に追加する前に出力勾配のスケールを解除します。識別されたパスに沿ったアクティベーションと勾配は 32 ビットの精度で保存されます。「フィルター」操作は、活性化勾配内のすべての Inf 値と NaN 値をゼロに設定します。これがないと、現在の resblock 内の非有限イベントにより、以前のすべての resblock の勾配スケールが不必要に低下し、アンダーフローが発生します。

図 4. トランスフォーマーの resblock の resblock ごとの勾配スケーリングの図。 実線は順伝播の一連の操作を表し、破線は逆伝播の一連の操作を表します。 各 resblock の勾配スケーリングに従って入力勾配をスケーリングし、連続する resblock の勾配の合計に追加する前に出力勾配のスケールを解除します。 識別されたパスに沿ったアクティベーションと勾配は 32 ビットの精度で保存されます。 「フィルター」操作は、活性化勾配内のすべての Inf 値と NaN 値をゼロに設定します。 これがないと、現在の resblock 内の非有限イベントにより、以前のすべての resblock の勾配スケールが不必要に低下し、アンダーフローが発生します。

06 実験結果と比較効果は何ですか?

図 2. 信頼性の程度はさまざまですが、私たちのモデルはさまざまな概念を合理的な方法で組み合わせ、動物の擬人化バージョンを作成し、テキストをレンダリングし、特定の種類の画像から画像への変換を実行できるようです。
図 2. 信頼性の程度はさまざまですが、私たちのモデルはさまざまな概念を合理的な方法で組み合わせ、動物の擬人化バージョンを作成し、テキストをレンダリングし、特定の種類の画像から画像への変換を実行できるようです。

図 3. 私たちのモデルのサンプルと MS-COCO の以前のメソッドのサンプルの比較。当社の各モデル サンプルは、比較モデルによってランク付けされた 512 個のサンプルの中で最高のものです。モデルのタイトルやサンプルの選択については、手動による選択は行っておりません。
図 3. 私たちのモデルのサンプルと MS-COCO の以前のメソッドのサンプルの比較。 当社の各モデル サンプルは、比較モデルによってランク付けされた 512 個のサンプルの中で最高のものです。 モデルのタイトルやサンプルの選択については、手動による選択は行っておりません。

図 7. MS-COCO タイトルに関する以前の研究 (DF-GAN) と比較した、私たちのモデルの人による評価 (温度低下なしのゼロショットの評価)。5 人中 1 人の投票で、モデルのサンプルが 90.0% の確率で最も現実的であり、93.3% の確率で共有キャプションに最もよく一致する画像として選択されました。
図 7. MS-COCO タイトルに関する以前の研究 (DF-GAN) と比較した、私たちのモデルの人による評価 (温度低下なしのゼロショットの評価)。 5 人中 1 人の投票で、モデルのサンプルが 90.0% の確率で最も現実的であり、93.3% の確率で共有キャプションに最もよく一致する画像として選択されました。

図 8. CUB データセット上のモデルのゼロショット サンプル。

図 8. CUB データセット上のモデルのゼロショット サンプル。

図 9. MS-COCO と CUB の定量結果。実線は元の検証セットに対して計算された FID を表し、破線は重複する画像が削除された検証セットに対して計算された FID を表します (セクション 3.2 を参照)。MS-COCO の場合、検証セットからサンプリングされた 30,000 のキャプションのサブセットですべてのモデルを評価します。CUB の場合、テスト セット内のすべての固有タイトルのすべてのモデルを評価します。
図 9. MS-COCO と CUB の定量結果。 実線は元の検証セットに対して計算された FID を表し、破線は重複する画像が削除された検証セットに対して計算された FID を表します (セクション 3.2 を参照)。 MS-COCO の場合、検証セットからサンプリングされた 30,000 のキャプションのサブセットですべてのモデルを評価します。 CUB の場合、テスト セット内のすべての固有タイトルのすべてのモデルを評価します。

07 アブレーション研究は何を教えてくれますか?

表 1. モデル サイズと勾配の最小圧縮レベル (最大 128 の倍数) との関係を示します。これは、トレーニングの最初の 10% でのトレーニング損失のギャップを避けるために必要です。これらの結果は、モデルのサイズに関係なく、この設定では約 85% の圧縮を達成できることを示しています。
表 1. モデル サイズと勾配の最小圧縮レベル (最大 128 の倍数) との関係を示します。これは、トレーニングの最初の 10% でのトレーニング損失のギャップを避けるために必要です。 これらの結果は、モデルのサイズに関係なく、この設定では約 85% の圧縮を達成できることを示しています。

図 6. 再ランキングプロセス中の MS-COCO キャプション上の画像数の増加の効果。図 6. 再ランキングプロセス中の MS-COCO キャプション上の画像数の増加の効果。

08 結論

私たちは、大規模な実行時に自己回帰変換に基づいてテキストから画像を生成する簡単なアプローチを調査します。以前のドメイン固有のアプローチのゼロショット パフォーマンスと比較して、また単一の生成モデルによって生成される特徴の範囲の点で、スケールが一般化の向上につながる可能性があることがわかりました。私たちの結果は、サイズの関数として一般化を改善することが、この課題の進歩に役立つ可能性があることを示唆しています。

元のリンク: [PMLR 2021] ゼロショット テキストから画像への生成: ゼロショット テキストから画像への生成 (作成者) Frontiers of Small-Shot Vision and Intelligence

おすすめ

転載: blog.csdn.net/NGUever15/article/details/131430402