事前学習済み拡散モデルを使用した画像合成

小さな手を動かして大金を稼いで、親指を立ててください!

テキストから画像への拡散モデルは、自然言語記述の手がかりと一致するリアルな画像を生成する際に、驚くべきパフォーマンスを達成します。オープンソースの事前トレーニング済みモデルのリリース (安定した拡散など) は、これらの手法の民主化に役立ちます。事前トレーニングされた拡散モデルを使用すると、大量の計算能力や長いトレーニング プロセスを必要とせずに、誰でも素晴らしい画像を作成できます。

テキストガイドによる画像生成ではある程度の制御が可能ですが、たとえ多数の手がかりがあっても、所定の構図で画像を取得するのは難しいことがよくあります。実際、標準的なテキストから画像への拡散モデルでは、生成された画像に描かれるさまざまな要素をほとんど制御できません。

この記事[1]ではMultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation論文に基づいて最先端のことを解説します。この技術により、テキストガイド付き拡散モデルによって生成された画像に要素を配置する際の制御を強化できます。この論文で紹介されている方法はより一般的で、パノラマ画像の生成など他の応用も可能ですが、ここでは領域ベースのテキストキューを使用した画像合成の場合に限定します。このアプローチの主な利点は、コストのかかる再トレーニングや微調整を行わずに、すぐに使用できる事前トレーニング済みの拡散モデルで機能することです。

この投稿をコードで補完するために、シンプルなColabノートブックと、この投稿で画像を生成するために使用したコード実装を含むGitHubリポジトリを準備しました。このコードは、Hugging Faceディフューザー ライブラリに含まれる安定した拡散パイプラインに基づいていますが、よりシンプルで読みやすくするために、その機能に必要な部分のみが実装されています。

普及モデル

このセクションでは、拡散モデルに関するいくつかの基本的な事実を確認します。拡散モデルは、データ分布を等方性ガウス分布にマッピングする拡散プロセスを反転することによって新しいデータを生成する生成モデルです。より具体的には、画像が与えられると、拡散プロセスは一連のステップで構成され、各ステップでその画像に少量のガウス ノイズが追加されます。無限のステップ数の制限の下では、ノイズの多いイメージは、等方性ガウス分布からサンプリングされた純粋なノイズと区別できなくなります。

拡散モデルの目的は、ステップ t でノイズのある画像が与えられた場合に、拡散プロセス中にステップ t-1 でノイズのある画像を推測しようとすることで、プロセスを逆転させることです。たとえば、これは、このステップで追加されるノイズを予測するようにニューラル ネットワークをトレーニングし、ノイズのある画像からそれを減算することで実行できます。

このようなモデルをトレーニングしたら、等方性ガウス分布からノイズをサンプリングして新しい画像を生成し、このモデルを使用してノイズを徐々に除去することで拡散プロセスを逆転させることができます。

代替

テキストから画像への拡散モデルは、拡散プロセスを逆にして、テキスト プロンプトの説明に対応する画像に到達しようとします。これは通常、各ステップ t で、ステップ t のノイズのある画像だけでなく、再構成しようとしている画像を説明するテキストの手がかりにも条件を付けて、ステップ t-1 のノイズのある画像を予測するニューラル ネットワークによって行われます。

多くの画像拡散モデル (安定拡散を含む) は、元の画像空間では動作せず、より小さな学習された潜在空間で動作します。このようにして、品質の低下を最小限に抑えながら、必要なコンピューティング リソースを削減できます。潜在空間は通常、変分オートエンコーダーを通じて学習されます。潜在空間での拡散プロセスは以前とまったく同じで、ガウス ノイズから新しい潜在ベクトルを生成できます。これから、変分オートエンコーダのデコーダを使用して、新しく生成された画像を取得できます。

多重拡散を使用した画像合成

次に、このメソッドを使用してMultiDiffusion画像の構図を制御する方法を説明します。目標は、事前にトレーニングされたテキストから画像への拡散モデルを通じて、画像内に生成される要素をより適切に制御できるようにすることです。より具体的には、画像の一般的な説明 (例: カバー画像のリビング ルーム) が与えられた場合、テキスト キューで指定された一連の要素が特定の場所 (例: 中央の赤いソファ、その上の観葉植物など) に表示されるようにします。左は観葉植物、右上は観葉植物です)は絵画です)。これは、目的の要素を説明するテキスト ヒントのセットと、要素を説明する必要がある場所を指定する領域ベースのバイナリ マスクのセットを提供することによって実現されます。たとえば、以下の画像には、カバー画像の画像要素の境界ボックスが含まれています。

代替

MultiDiffusion制御可能な画像生成の中心となるアイデアは、指定された異なるキューに対して複数の拡散プロセスを組み合わせて、所定の領域内の各キューの内容を示す一貫性のある滑らかな画像を取得することです。各ヒントに関連付けられた領域は、画像と同じ寸法のバイナリ マスクを介して指定されます。ヒントをその位置に描画する必要がある場合、マスクのピクセルは 1 に設定され、それ以外の場合は 0 に設定されます。

更具体地说,让我们用 t 表示在潜在空间中运行的扩散过程中的通用步骤。给定时间步 t 处的噪声潜在向量,模型将预测每个指定文本提示的噪声。从这些预测噪声中,我们通过在时间步 t 处从先前的潜在向量中删除每个预测噪声,获得时间步 t-1 处的一组潜在向量(每个提示一个)。为了获得扩散过程中下一个时间步骤的输入,我们需要将这些不同的向量组合在一起。这可以通过将每个潜在向量乘以相应的提示掩码,然后采用掩码加权的每像素平均值来完成。遵循此过程,在特定掩模指定的区域中,潜在向量将遵循相应局部提示引导的扩散过程的轨迹。在预测噪声之前,在每一步将潜在向量组合在一起,确保生成图像的全局内聚性以及不同屏蔽区域之间的平滑过渡。

MultiDiffusion 在扩散过程开始时引入了引导阶段,以更好地粘附紧密掩模。在这些初始步骤期间,对应于不同提示的去噪潜在向量不会组合在一起,而是与对应于恒定颜色背景的一些去噪潜在向量组合。这样,由于布局通常是在扩散过程的早期确定的,因此可以获得与指定蒙版的更好匹配,因为模型最初可以仅关注蒙版区域来描绘提示。

实例

在本节中,我将展示该方法的一些应用。我使用 HuggingFace 托管的预训练稳定扩散 2 模型来创建本文中的所有图像,包括封面图像。

如所讨论的,该方法的直接应用是获取包含在预定义位置中生成的元素的图像。

代替
代替

该方法允许指定要描述的单个元素的样式或一些其他属性。例如,这可用于在模糊背景上获得清晰的图像。

代替
代替

元素的风格也可以非常不同,从而产生令人惊叹的视觉效果。例如,下图是通过将高质量照片风格与梵高风格的绘画混合而获得的。

代替
代替

总结

在这篇文章中,我们探索了一种将不同扩散过程结合在一起的方法,以改善对文本条件扩散模型生成的图像的控制。此方法增强了对生成图像元素的位置的控制,并且还可以无缝组合以不同风格描绘的元素。

ここで説明する手順の主な利点の 1 つは、通常は高価なプロセスである微調整を必要とせずに、事前にトレーニングされたテキストから画像への拡散モデルを使用できることです。もう 1 つの利点は、バイナリ マスクを通じて制御可能な画像生成が得られることです。バイナリ マスクは、より複雑な条件よりも指定および処理が容易です。

この手法の主な欠点は、対応するノイズを予測するために、各拡散ステップでキューごとにニューラル ネットワークを通過させる必要があることです。幸いなことに、GPU メモリの使用率は高くなりますが、これらをバッチ処理して推論時間のオーバーヘッドを削減できます。また、一部のヒント (特に画像のごく一部にのみ指定されているヒント) が無視されたり、対応するマスクで指定された領域よりも広い領域をカバーしたりする場合があります。これはガイド付きステップで軽減できますが、ガイド付きステップが多すぎると、要素を調整するために使用できるステップが少なくなるため、画像全体の品質が大幅に低下する可能性があります。

異なる拡散プロセスを組み合わせるというアイデアは、この論文で説明されているものに限定されず、「画像生成」論文のように、パノラマ画像生成などのさらなるアプリケーションにも使用できることは言及する価値がありますMultiDiffusion: Fusing Diffusion Paths for Controlled

この記事を楽しんでいただければ幸いです。技術的な詳細を詳しく知りたい場合は、この Colab ノートブックとコード実装を含む GitHub リポジトリを確認してください。

参照

[1]

ソース:https://towardsdatascience.com/image-composition-with-pre-trained-diffusion-models-772cd01b5022

この記事はmdniceマルチプラットフォームによって公開されています

おすすめ

転載: blog.csdn.net/swindler_ice/article/details/131820177