ドリームブース論文の解釈


論文: 「DreamBooth: 主題駆動型生成のためのテキストから画像への拡散モデルの微調整」
プロジェクト: https://dreambooth.github.io/
サードパーティ コード: https://github.com/XavierXiao/Dreambooth-Stable - 拡散

まとめ

テキストから画像へのモデルは順調に進歩していますが、提供された参照セットから新しいモダリティを生成することはできません。DreamBooth は、事前トレーニングされたモデルのセマンティック事前分布と新しいターゲット固有の事前保存損失を使用して、参照画像には表示されないさまざまなシーン、ポーズ、視点、照明のターゲットを合成します。

質問

既存のテキストから画像へのモデルでは、参照画像からこのターゲットを生成できません。

アルゴリズム

テキスト説明なしで必要な画像は 3 ~ 5 つだけで、ターゲット バリアントの生成をガイドするためにさまざまなプロンプトを使用できます。

3.1 ビンセングラフ拡散モデル

損失関数は、初期ノイズϵ ∈ N ( 0 , I ) \epsilon \in N(0, I)に対して、式 1 のようになります。ϵN ( 0 ,I )、x は真の値です。
ここに画像の説明を挿入

3.2 パーソナライズされたヴィンセント グラフ モデル

従来の考え方は、少量のデータセットを通じて微調整を実行することですが、過剰適合やモデルの崩壊が発生する傾向があります。しかし、著者らは、大規模なウェンセン グラフ拡散モデルは、事前の知識を忘れることなく新しい情報を統合することに優れており、小規模なトレーニング セットに過剰適合しないことを発見しました。
作成者はプロンプトを「[識別子] [クラス名詞]」として設計しました。[識別子] はターゲット関連の固定識別子、[クラス名詞] は猫や犬などのターゲット カテゴリの説明です。クラスの説明を使用しなかったり、間違ったクラスの説明を使用したりすると、トレーニング時間の増加や言語の変更につながり、パフォーマンスが低下します。
識別子は一般的な単語またはランダムな文字を使用します。各文字は個別にトークン化されるため、効果は同様です。そのため、作成者は語彙f ( V ^ ) f( \hat V)では一般的ではないトークンを使用します。f (V^ )をテキスト空間にV ^ \hat VV^

3.3 クラス固有の事前保存損失

すべてのモデルのすべてのレイヤーを直接微調整すると、言語の変化につながると同時に、出力の多様性の減少につながる可能性があります。
上記の問題に対して、著者は、言語の偏りを抑制しながら多様性を確保するために、自己生成されたカテゴリ固有の事前損失を提案します。この方法では基本的に、生成サンプル教師付きモデルを使用します損失関数は式 2 のとおりです。ここで、C pr C_{pr}C広報_カテゴリ情報のみを含む図 3 は、そのプロセスを示しています。
ここに画像の説明を挿入
ここに画像の説明を挿入

実験

評価方法

  1. CLIP-I: CLIP の抽出により、画像と実際の画像の埋め込みが生成され、2 つの間のコサイン類似度が計算されます。
  2. DINO: ViT-S/16 DINO は、生成されたグラフと実際のグラフの埋め込みを抽出し、両者間のコサイン類似度を計算します。
  3. CLIP-T: プロンプト マシン イメージの CLIP 埋め込み間のコサイン類似度を計算します。

比較

ここに画像の説明を挿入
表 1 では、著者は DreamBooth とテキスト反転を比較していますが、Imagen を使用する方が安定拡散よりも優れています。
表 2 は手動評価の結果を示しています。ターゲットの精度とプロンプトの一貫性の点で、DreamBooth はテキスト反転よりも優れています。表 1 と組み合わせると、定量的な指標にはわずかな違いがあり、ユーザーの直感的なエクスペリエンスは大きく異なります。視覚化の結果を図 4 に示します。
ここに画像の説明を挿入
ここに画像の説明を挿入

アブレーション実験

PPL

ここに画像の説明を挿入
事前保存損失(PPL)の影響を比較した結果を表 3 に示す.計算済み。折りたたまれています。同時に、著者らは多様性評価 (DIV) に平均 LPIPS を使用しました。著者らは、図 6 に示すように、PPL を使用することでより高い多様性を発見しました。
ここに画像の説明を挿入

前のクラス

カテゴリ プリアを使用すると、さまざまなテクスチャ ターゲットを生成できます。間違ったカテゴリを使用すると、奇妙なオブジェクトが生成されます。カテゴリ プリアを使用しないと、モデルの適合が困難になり、間違ったターゲットが生成されます。実験結果を表 4 に示します。
ここに画像の説明を挿入

応用

リファクタリング。図 7 に示すように、ターゲットはさまざまな環境で生成できます。
ここに画像の説明を挿入

芸術の複製。図 8 に示すように、
新しい視点が生成されます。図 8 に示すように、側面、上面、底面の 4 つの正面図のみを使用して、目に見えない視点を生成できます。
プロパティの変更。図 8 に示すように、入力プロンプトは「[V] 犬と [対象種] の交配」です。
ここに画像の説明を挿入

限界

ここに画像の説明を挿入
図 9 にいくつかの失敗例を示します。
著者は
次のように述べています: a. 弱い事前確率、つまりターゲットと特定の概念がトレーニング セットにほとんど現れない; b
. 環境がターゲットの外観と結びついている;
c. 実際の像への過剰適合。プロンプトは実際の画像と似ています。
同時に、一部の比較的まれなターゲットについては、モデルがターゲットの複数のバリアントを生成することが困難です。

結論は

著者が提案した DreamBooth では、ターゲット画像が 3 ~ 5 枚だけ必要で、迅速なガイダンスによってターゲット バリアントを生成できます。このメソッドの中心は、ターゲットを特定の識別子にバインドすることです。

おすすめ

転載: blog.csdn.net/qq_41994006/article/details/131295309