SDXL-Stable Diffusion の改良版


论文: 《SDXL: 高解像度画像合成のための潜在拡散モデルの改善》
github: https://github.com/Stability-AI/generative-models

1. 概要

SDXL は、Vincent グラフに使用されます。以前の SD と比較して、SDXL は、より多くのアテンション ブロックとより大きなクロス アテンションにより、3 倍大きな UNet バックボーンを使用します。著者は、さまざまな新しい条件付きメカニズムを設計し、生成された画像の忠実度を向上させるための改良モジュールを導入しました。前バージョンの SD と比較して、SDXL はパフォーマンスが大幅に向上しました。

2. アルゴリズム:

ここに画像の説明を挿入
SDXL の全体構造を図 1 に示します。

2.1 構造:

扩散生成模型主要使用UNet结构,随着DM发展,网络结构发生变化:从增加self-attention、改进上采样层,增加cross-attention到基于transformer的结构。
为了高效,作者移除最浅特征层中transformer block,中间层使用transformer block数量设置为2和10,移除最深特征层(8倍降采样层),如表1作者与SD1.x及x2.x进行比较。
ここに画像の説明を挿入
同时作者使用更强大预训练文本编码器,将OpenCLIP ViT-bigG与CLIP ViT-L倒数第二输出层进行concat。除了增加cross-attention层约束输入文本,另外将合并的文本编码作为模型条件输入,由此导致模型参数量达到2.6B,其中文本编码器器817M。

2.2 微小的条件机制

LDM的显著缺点为:训练模型需要比较小的图像大小,归因于其二阶段结构。对于该问题,一种方案为丢弃训练集中某一分辨率以下图片,比如:Stable Diffusion 1.4/1.5中512分辨率以下图片;另一种为过小图片进行上采样。然而前者将导致训练集大量数据丢弃,后者上采样过程引入人工因素,导致模型输出模糊样本
作者使用原始图片分辨率 c s i z e = ( h o r i g i n a l , w o r i g i n a l ) c_{size} = (h_{original}, w_{original}) csize=(hまたは_ _wまたは_ _) Unet 条件入力として、具体的には、ピクチャのエンコードにフーリエ特徴が使用され、concat はベクトルであり、そのベクトルはタイムステップの埋め込みに追加されます処理はアルゴリズム1の通り
ここに画像の説明を挿入

図 3 に示すように、推論中にユーザーは必要な画像解像度スケールを設定できます。画像サイズが大きくなるにつれて、画像品質が向上します。
ここに画像の説明を挿入
著者は、解像度 512 * 512 を超えるデータセットのみ (CIN-512 のみ)、すべてのデータ (CIN-nocond)、および解像度増加条件 (CIN-size-cond) を比較し、その結果を表 2 に示します。クロッピング パラメーター調整
ここに画像の説明を挿入
モデル
ここに画像の説明を挿入
図 4 の最初の 2 行に示すように、トレーニング プロセスではランダム クロッピングを使用してバッチ内のデータ サイズを調整するため、前のモデルによって生成されたターゲットがクロップされる可能性があります。この問題を解決するために、作成者は均一サンプリングを使用して、データ読み込みプロセス中に座標ctop、cleft c_{top}、c_{left}をクリップします。cトップ_ _c_ _ _(左上隅の点からの距離) を計算し、それをフーリエ特徴エンコードを通じて条件パラメーターとしてモデルに送信しますこのプロセスをアルゴリズム 1 に示します。推論中に( ctop , cleft ) = ( 0 , 0 )を設定します (c_{top}, c_{left}) = (0, 0)( cトップ_ _c_ _ _)=( 0 ,0 ) を使用すると、図 5 に示すように、ターゲットをグラフの中心に持つサンプルを生成できます。
ここに画像の説明を挿入

2.3 マルチアスペクト比のトレーニング

現在のWensheng グラフィカル モデルによって生成された画像は、512 * 512 または 1024 * 1024 の正方形であり、実際の画像とは異なります。このために、著者はトレーニング用にさまざまなアスペクト比の画像を使用しますが、総ピクセル数は 1024*1024 に近く、幅と高さは 64 倍になります。
事前トレーニング段階では固定のアスペクト比と解像度を使用し、微調整段階では複数のアスペクト比のトレーニングのみを使用します。

2.4 オートエンコーダーの改善

著者は、元の Stable Diffusion と同じネットワーク構造でオートエンコーダをトレーニングし、さらに追跡重みの指数移動平均を増加させた実験結果を表 3 に示し、SD-VAE 2.x は改良した結果です。
ここに画像の説明を挿入

2.5 すべてをまとめる

著者らは、セクション 2.4 で説明したオートエンコーダを使用して、最終モデル SDXL をトレーニングします
最初に基本モデルを事前トレーニングし、内部データセットを使用します。幅と高さの分布は図 2 に示されています。トレーニング中に解像度 256*256 を使用し、セクションで説明されているようにサイズとクロップ条件を同時に使用します。 2.2; 次に、512 * 512 の画像でさらにトレーニングし、最後に、1024 * 1024 の解像度で、さまざまなアスペクト比に基づいてトレーニングします
ここに画像の説明を挿入
洗練段階
図 6 に示すように、作成者は、生成されたサンプルの一部が局所的な品質が低いことを発見したためSDEditで述べたように、基本的なノイズ付加およびノイズ低減処理のための潜在ベクトルを生成するモデル図 1 に示すように、推論中に、基本 SDXL モデルの隠れベクトルがレンダリングされ、このベクトルに基づいて、同じテキスト入力を使用して、洗練されたモデルを使用して拡散ノイズ除去が実行されます視覚化の結果を図 6 および 13 に示します。
ここに画像の説明を挿入
生成された画像のユーザー評価結果が図 1 の左側に示されており、リファインメント モジュールには明らかな効果がありますただし、FID および CLIP 指標に関しては、図 12 に示すように、サンプルがテキストと一致しているほど、指標は SD-1.5 および SD-2.1 よりも低くなります。 -ショット FID スコアは視覚的評価と負の相関があり、手動評価が優先され、著者の実験はこれと一致しています。
ここに画像の説明を挿入

2.6 主流ソリューションの比較

図 8 は、さまざまな主流の発電方式の結果の比較です。
ここに画像の説明を挿入

3. 仕事の未来

シングルステージ: SDXL は 2 ステージ方式であり、モデルのさらなる改良、メモリとサンプリング速度の増加が必要であり、シングルステージ ソリューションは将来的に研究される予定です; テキスト合成 : より大きなテキスト エンコーダによりテキスト表現能力が向上
ます以前の SD モデルと比較しますが、トークンを挿入したり、モデルを増幅したりすることも役立つ場合があります。
構造: 著者は、トランスフォーマーベースの構造である UViT と DiT を実験しましたが、利益はなく、ハイパーパラメーターに関するさらなる研究が必要です。
蒸留: SDXL 生成の品質は向上しましたが、推論のコストが増加しました。将来的には、蒸留を使用することでこのコストが削減されます。

モデル トレーニング プロセスは離散的であり、ノイズから逸脱する必要があるKarras らによって提案されたEDMフレームワークは、連続時間、柔軟なサンプリング、ノイズ補正メカニズムのない将来のモデル トレーニング ソリューションとなる可能性があります。

4. 制限事項

  1. 図 7 に示すように、人間の手などの複雑な構造を生成するのは困難です。多くのトレーニング データが使用されますが、人体の構造は複雑であるため、正確な表現の一貫性を得ることが困難です。図では手や同様のターゲットのばらつきが比較的大きいため、モデル化が困難になる可能性があります。
    ここに画像の説明を挿入
  2. 微妙な照明効果やテクスチャの小さな変更などの特定のニュアンスにより、非現実的な画像が生成されます。
  3. 現在のモデルのトレーニングは大規模なデータセットに依存しているため、社会的および人種的な問題が生じ、この問題を引き起こす画像が生成される可能性があります。
  4. サンプルに複数のターゲットが含まれている場合、モデルには「概念ブリーディング」現象が発生します。つまり、図 14 に示すように、さまざまな要素がマージまたは積み重ねられます。この問題はテキスト エンコーダによって引き起こされる可能性があり、すべての情報が 1 つのトークンに圧縮されており、適切なターゲットと属性に接続することが困難です。Feng らは、単語関係をエンコードすることでこの問題を解決しました。敵対的損失もこの現象を引き起こす可能性があります。異なる接続の負のサンプルが同じバッチに表示されるためです。
    ここに画像の説明を挿入
  5. 図 8 に示すように、長くて読みやすいテキストを表現することは困難です。この問題を克服するには、モデルのテキスト生成能力をさらに強化する必要があります。
    ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/qq_41994006/article/details/132152984