タイトル: VisorGPT: 生成事前トレーニングによる視覚事前学習
論文: https://arxiv.org/abs/2305.13777
コード: https://github.com/Sierkinhane/VisorGPT
ガイド
ControlNet
、 、T2I-Adapter
などの制御可能な拡散モデルは、GLIGEN
人体のポーズやターゲット ボックスなどの追加の空間条件を通じて、生成された画像内のコンテンツの特定のレイアウトを制御できます。データセット内の既存の画像、オブジェクト ボックス、または注釈から抽出された人間のポーズを空間制約として使用することで、上記の方法は非常に優れた制御可能な画像生成効果を達成しました。
では、スペースの制約をよりフレンドリーかつ便利に取得するにはどうすればよいでしょうか? あるいは、制御可能な画像生成のために空間条件をカスタマイズするにはどうすればよいでしょうか? たとえば、カスタム空間条件におけるオブジェクトのカテゴリ、サイズ、数、表現 (オブジェクト ボックス、キーポイント、インスタンス マスク) などです。
本論文では、空間条件における物体の形状、位置、関係を視覚事前確率 ( ) としてまとめVisual Prior
、上記視覚事前確率をTransformer Decode
rGenerative Pre-Training
の形でモデル化する。したがって、表現 (オブジェクト ボックス、キーポイント、インスタンス マスク)、オブジェクト カテゴリ、サイズ、数などの複数のレベルでサンプリングすることにより、学習した事前分布からPrompt
空間制約をサンプリングできます。
制御可能な拡散モデルの生成能力の向上により、人間の姿勢推定や混雑したシーンでのターゲット検出など、特定のシナリオでデータを補完するための画像をターゲットを絞った方法で生成できるようになると考えています。
モチベーション
まず、上の概略図を見てください。
(a): 視覚的事前の概念は、シーン内のオブジェクトの位置、形状、関係などの要素を指します。
(b): 画像合成の空間条件が事前の要件を満たしておらず、画像合成が失敗したケースを示しています。具体的には、「ドーナツ」は四角形ではなく、「ダイニングテーブル」の上に置かれるのではなく、空中に浮いています。
©: からサンプリングされた条件VISORGPT
により。
(d):VISORGPT
視覚世界からシーケンス コーパスに変換することによる視覚事前分布の学習を示します。
(e): ユーザーがプロンプトVISORGPT
を。
これらのコンテンツは通常、著者の研究目標と方法、VISORGPT
学習視覚事前分布の応用とカスタマイズされたサンプリングの能力を明確にすることを目的としています。
方法
本稿では、現在公開されているデータセットから、表1に示す7種類のデータを整理して収集します。Generative Pre-Trainingで視覚的な事前学習を行い、シーケンス出力のカスタマイズ機能を追加します。
この論文で提案されている 2 つのテンプレートは次のとおりですPrompt
。
上記のテンプレートを使用すると、表 1 のトレーニング データの各ピクチャのラベルをシーケンスxxにフォーマットできます。×。トレーニング中に、BPE アルゴリズムを使用して各シーケンスxxx 编码成 t o k e n s = u 1 , u 2 , … , u 3 tokens={u_1,u2,…,u3} トークン_ _ _ _ _=あなた1、u2 、_…、u 3 を計算し、次のように尤度を最大化することで視覚的な事前分布を学習します。
最後に、次の図に示すように、上記の方法で学習したモデルからのシーケンス出力をカスタマイズできます。
効果
要約する
この記事では、VISORGPT
生成事前学習を通じて視覚的な事前学習を行う仕組みである手法を中心に紹介します。シーケンシャル データと言語モデリング手法を使用して、位置、形状、カテゴリ間の関係に関する事前知識を学習し、学習した事前知識のカスタム サンプリングの手法を提供します。