潜在拡散モデルによる高解像度画像合成笔记

始めたばかりなので、一人で論文を読んでも理解できないかもしれません

この論文の問題の原因は何ですか

この論文はどのような問題を解決し、どのような機能を実装しますか
? これらのモデルは通常、ピクセル空間で直接動作するため、強力な DM の最適化には通常、GPU で数百日かかり、逐次評価のため推論にコストがかかります。
これは、計算要件を削減し、複雑さの軽減とディテールの維持の間のスイート スポットに近い方法でリソースの問題を解決し、視覚的な忠実度を大幅に向上させる必要があります。当社の潜在拡散モデル (LDM) は、画像の新しい最先端のスコアを達成
ます修復およびクラス条件付き画像合成に適しており、テキストから画像への合成、無条件画像生成、超解像度などのさまざまなタスクで非常に競争力のあるパフォーマンスを実現します。また、ピクセルベースの DM と比較して、計算要件が大幅に削減されます

解決方法:
品質と柔軟性を維持しながら限られた計算リソースで DM トレーニングを実行するために、生成学習フェーズから圧縮学習フェーズを明示的に分離することによってこの欠点を回避することを提案します (図 1B を参照)。2) 状況。これを達成するために、画像空間と知覚的に同等でありながら、計算の複雑さを大幅に軽減する空間を学習するオートエンコーダー モデルを活用します。

モデル アーキテクチャにクロス アテンション レイヤーを導入することで、拡散モデルをテキストやバウンディング ボックスなどの一般的な条件付き入力用の強力かつ柔軟なジェネレーターに変え、畳み込み方式で高解像度の合成を実行できます。

このアプローチの利点
このアプローチにはいくつかの利点があります。
(i) サンプリングが低次元空間で実行されるため、高次元の画像空間を離れることにより、計算効率の高い DM が得られます。
(ii) UNet アーキテクチャ [71] から継承した DM の誘導バイアスを利用することで、DM が空間構造を持つデータに対して特に効果的となり、以前の方法で必要とされた積極的で品質を低下させるレベルの圧縮の必要性が軽減されます。 (iii
)最後に、潜在空間を使用して複数の生成モデルや、単一イメージの CLIP ガイド付き合成などの下流アプリケーションをトレーニングできる圧縮モデルを一般化しました。

おすすめ

転載: blog.csdn.net/qq_45560230/article/details/130760685