2021年以前の手法はすべてGANに基づいており、テキストとノイズを生成ネットワークに入れて画像を生成した後、識別器でテキストと一致するかどうかを判定し、同時に本物と偽物を判定する手法が一般的です。 2 つの欠点があります: 1. モデル化できるのは 1 つのシーンのみです。たとえば、顔関連のシーンのみを生成できるため、gan モデルは顔のシーンでのみトレーニングできます; 2. 複数のオブジェクトに存在する複数のオブジェクトを構築できません。シーンのカビ。右側は GPT に基づく方法で、与えられたテキストに対して dalle が画像の左上隅から開始し、左上から右下に向かって順番にブロックごとに画像を生成しますが、一部の複雑なテキストについては、トークンが間違っていると、後続の世代に問題が発生し、非常に遅くなります。
1. ヴィンセント図の分野へのノイズ除去拡散の導入; 2. VQ 拡散アルゴリズムの提案; 3. 自己回帰より 15 倍高速。
拡散モデルには、右から左に見てノイズを追加するフォワード ステップとマルコフ プロセスの 2 つのステップがあります。画像にノイズが追加され続けると、最終的には純粋なノイズ画像になります。リバース ステップのノイズ除去では、ネットワークを使用して処理します。画像からノイズが除去され、最終的な画像が得られます。
VQ 拡散は純粋なピクセル空間ではなく、定量化されたピクセル空間で行われます。ピクセル空間の画像解像度は非常に高いです。トランスフォーマーを使用して各ピクセルをモデル化すると、シーケンスの長さが非常に長くなり、モデリングです。したがって、画像空間の解像度を圧縮するには、VQVAE を使用して画像をより低い解像度の離散コードに変換します (たとえば、上の画像の解像度は 256x256 ですが、圧縮後は 32x32 になります)。
2 番目のステップでは、マスクと置換の戦略が導入されます。すべてのノイズの追加は離散空間で実行されます。ノイズを追加するには 2 つの方法があります。1 つ目は、特定のコードをランダムに削除してマスクすることです。2 つ目は、置き換えることです。 、コードを他のコードにランダムに置き換えるので、ノイズを追加するときに、ランダムコードとマスクコードで構成されるベクトルを取得し、ノイズとテキスト情報を含むコード列を通じて元の画像を復元できます。