この論文では潜在拡散モデル (LDM) を提案しています。このモデルに基づいた最も有名な作品は、テキスト生成画像モデルsteady-diffusionです。
通常の拡散モデルはピクセル空間で動作し、計算の複雑さが高くなります。拡散モデルを低リソースでトレーニングでき、拡散モデルの品質と柔軟性を維持できるようにするために、この論文では、事前トレーニングされたオートエンコーダーを使用して暗黙的空間を取得し、暗黙的空間で拡散モデルをトレーニングします。一方、この論文では、クロスアテンションのメカニズムを使用して、テキスト、境界ボックスなどの拡散モデルの条件を導入します。
方法
メソッドの全体的な構造を上の図に示します。
まず、オートエンコーダーを使用して一般的な圧縮モデル (赤い部分) をトレーニングします。一般的な圧縮モデルは、さまざまな拡散モデルのトレーニングに使用できます。
次に、計算の複雑さを軽減するために、拡散モデル (緑色の部分) がオートエンコーダーの低次元暗黙空間でトレーニングされます。
画像圧縮
知覚損失とパッチベースの敵対的目標を使用して、画像圧縮用のオートエンコーダーをトレーニングします。
写真を表現するために使用します。エンコーダとデコーダがあります。
、z はダウンサンプリングされた暗黙的表現であり、圧縮の結果です。2 次元の暗黙的表現は、画像の詳細を保持するのに役立ちます。
潜在空間の過度に大きな分散を避けるために、著者は 2 つの正則化を使用します。
- KL-reg. VAE と同様に、暗黙的な表現は標準正規分布に従うと想定されます。
- VQ-reg. デコーダはベクトル量子化層を使用します。
暗黙的な拡散モデル
通常の拡散モデルの最適化式は以下のとおりです。
圧縮モデルがトレーニングされた後、低次元の潜在空間が取得されます。尤度ベースの生成モデル用のこのスペースの利点は、生成モデルが重要な意味論的情報により多くの注意を払うことができ、より効率的にトレーニングできることです。
この論文では、暗黙的空間で拡散モデルをトレーニングすることを提案しています。暗黙的表現に基づく拡散モデル最適化の式は次のとおりです。
これは時間条件付き UNet を使用して実装されます。
条件付きメカニズム
著者らは、条件を導入するクロスアテンション メカニズムを使用して UNet を補完しています。クロスアテンションの計算は次のとおりです。
ここで、 はエンコーダを通じて取得された条件 y の中間表現であり、UNet の中間表現です。
条件ベースの陰的拡散モデルの最適化式は次のとおりです。
いくつかの名詞が見つかりました
次元あたりのビット数
Bits/dim は論文の解析図に表示されます。これは、負の対数尤度を画像の次元で割った単位です。インデックスが小さいほど、モデルのパフォーマンスが向上します。負の対数尤度は、エントロピー符号化スキームを使用した可逆圧縮に必要な平均ビット数に等しくなります。
合計の離散対数尤度は、画像の次元によって正規化されます (たとえば、CIFAR-10 の場合は 32 × 32 × 3 = 3072)。これらの数値は、このモデルに基づく圧縮スキームがすべての RGB カラー値を圧縮するために必要なビット数として解釈できます。
参考:《Pixel Recurrent Neural Networks》