テキストから画像への合成のためのベクトル量子化拡散モデル

CVPR 2022 論文共有セッション - VQ-Diffusion_bilibili_bilibili に基づいたテキストから画像への合成 CVPR 2022 論文共有セッション - VQ-Diffusion に基づいたテキストから画像への合成、ビデオ再生数 1438、コメント 2、いいね! 投げたコインの数は 12、コレクターは 40 人、リツイート数は 13 です。ビデオの作者は Microsoft Technology です。作者について。皆さん、こんにちは。私は Tian 先生です。Tian Zijian は時々クラスを開催し、定期的に賞品を抽選しています。関連ビデオ: 2023 CVPR 論文共有セッション | セッション 1: ビジュアル生成 - Zhang Bo、Microsoft 2023 Microsoft 365 Copilot カンファレンスの全レビュー中国語字幕版、2023 CVPR 論文共有セッション | セッション 1: ビジュアル生成 - Dong Jing、2023 CVPR論文共有セッション | ポスター共有、[AAAI 2023 論文共有] オフラインからオンライン強化学習への適応ポリシー学習、ICSE 2021 論文共有 - 深層学習モデルのリソース指向構成スペース削減、[Douban 9.5 ポイント削減] SCI 論文執筆の教科書、英語を母国語としない国の研究者向けにカスタマイズされており、英語の学術論文執筆の指導に特化しています。-SCI/学術論文/ジャーナル, 【AAAI 2023 Paper Sharing】原因と結果に基づく組み合わせオンライン学習、「デジタル変革」の課題に取り組む準備はできていますか? , just install the CodeGeeX plug-in to enjoy AI coding | VSCode plug-in recommendation | CodeGeeX usage tutorial https://www.bilibili.com/video/BV13Y4y1r7CH/?spm_id_from=333.1007.top_right_bar_window_dynamic.content.click&vd_source=4aed82e35f26bb600bc5b46e65e25c22

2021年以前の手法はすべてGANに基づいており、テキストとノイズを生成ネットワークに入れて画像を生成した後、識別器でテキストと一致するかどうかを判定し、同時に本物と偽物を判定する手法が一般的です。 2 つの欠点があります: 1. モデル化できるのは 1 つのシーンのみです。たとえば、顔関連のシーンのみを生成できるため、gan モデルは顔のシーンでのみトレーニングできます; 2. 複数のオブジェクトに存在する複数のオブジェクトを構築できません。シーンのカビ。右側は GPT に基づく方法で、与えられたテキストに対して dalle が画像の左上隅から開始し、左上から右下に向かって順番にブロックごとに画像を生成しますが、一部の複雑なテキストについては、トークンが間違っていると、後続の世代に問題が発生し、非常に遅くなります。

1. ヴィンセント図の分野へのノイズ除去拡散の導入; 2. VQ 拡散アルゴリズムの提案; 3. 自己回帰より 15 倍高速。

拡散モデルには、右から左に見てノイズを追加するフォワード ステップとマルコフ プロセスの 2 つのステップがあります。画像にノイズが追加され続けると、最終的には純粋なノイズ画像になります。リバース ステップのノイズ除去では、ネットワークを使用して処理します。画像からノイズが除去され、最終的な画像が得られます。

VQ 拡散は純粋なピクセル空間ではなく、定量化されたピクセル空間で行われます。ピクセル空間の画像解像度は非常に高いです。トランスフォーマーを使用して各ピクセルをモデル化すると、シーケンスの長さが非常に長くなり、モデリングです。したがって、画像空間の解像度を圧縮するには、VQVAE を使用して画像をより低い解像度の離散コードに変換します (たとえば、上の画像の解像度は 256x256 ですが、圧縮後は 32x32 になります)。

2 番目のステップでは、マスクと置換の戦略が導入されます。すべてのノイズの追加は離散空間で実行されます。ノイズを追加するには 2 つの方法があります。1 つ目は、特定のコードをランダムに削除してマスクすることです。2 つ目は、置き換えることです。 、コードを他のコードにランダムに置き換えるので、ノイズを追加するときに、ランダムコードとマスクコードで構成されるベクトルを取得し、ノイズとテキスト情報を含むコード列を通じて元の画像を復元できます。

おすすめ

転載: blog.csdn.net/u012193416/article/details/132523097