密な拡散

トレーニングなしでテキストと画像の生成マッチングを大幅に改善します。

微調整のために追加のデータセットを必要とせずに、モデルのテキストとレイアウト条件への準拠性が向上します。

論文:https://arxiv.org/pdf/2308.12964v1.pdf

コード:https://github.com/naver-ai/DenseDiffusion

解決すべき問題:

  1. 既存のテキストから画像への拡散モデルは、密度の高い説明テキストを扱う場合 (つまり、説明テキストが非常に豊富で、複数の角度や複数の写真から説明されている場合)、現実的な画像を合成できないことが多く、さまざまなオブジェクトの視覚特性を反映できません。 、または意志 さまざまなオブジェクトの特性が混在しています。

  2. ユーザーがテキスト プロンプトだけを使用して、生成された画像のシーン レイアウトを正確に制御することは困難です。

具体的には:

  1. 密な説明テキストとは、各テキスト フレーズが画像の特定の領域を詳細に説明することを意味し、既存のモデルは通常、単一の短い文の説明のみを含む画像データセットでトレーニングされるため、密な説明テキストを扱う場合にはうまく機能しません。

  2. ユーザーは、画像内のさまざまなオブジェクトが表示される場所を指定するなど、画像のレイアウトをより詳細に制御したいと考えていますが、テキスト プロンプトだけでこのような細かい制御を実現することは困難です。

この記事で提案する DenseDiffusion メソッドは、これら 2 つの問題を解決することを目的としています。これにより、事前トレーニングされたテキストから画像へのモデルが、ユーザー指定の生成レイアウトに従いながら、高密度の説明テキストを処理できるようになります。

主な革新点は、モデルの中央にあるアテンション マップの変調方法を提案することです。これにより、微調整のための追加のデータ セットを必要とせずに、テキストとレイアウトの条件に対するモデルの準拠性を向上させることができます。このトレーニング不要のアプローチにより、微調整のたびにコンピューティング リソースが消費されることがなくなります。

一般に、この作業は、テキストから画像への生成タスクにおける条件を制御する機能の向上に特化しています。詳細なテキストの説明を処理し、指定されたオブジェクトのレイアウトに従うことができ、テキストとプロンプトのレイアウトに基づいて画像を生成する機能を大幅に向上させることができます。マッチング_ 効果の例は次のとおりです。メソッドの基本 

Q と K は、それぞれ中間特徴とコンテンツ特徴からマッピングされたクエリ値とキー値です。d はキーとクエリの特徴の長さを表します。

セルフアテンション層では、中間特徴がコンテンツ特徴としても使用されるため、本論文では、異なる領域の画像タグを接続することにより、グローバルに一貫した構造を合成することができます。同時に、クロスアテンション層は、CLIPテキストエンコーダを使用して入力テキスト説明テキストcからエンコードされた入力テキスト説明テキストcのテキスト特徴に基づいて条件を更新します。

注意スコア分析。 テキスト条件に従う拡散モデルは、早い段階で各オブジェクトの位置と外観を形成し、比較的遅い段階で色やテクスチャの変化などの詳細を洗練する傾向があります。同様の傾向は、安定拡散から生成された 16×16 アテンション マップを分析することによっても実証されます。この論文では、まず MS-COCO 検証セット内の 250 個の説明テキストを使用して画像を合成します。図 2 に示すように、生成が進むにつれて、アテンション マップは画像レイアウトに似ていく傾向があります。表 1 の定量分析は、クエリとキーのペアが同じオブジェクトのクロスアテンション層とセルフアテンション層に属するかどうかに応じて、アテンションスコア間の有意な差を示しています。これは、同じオブジェクトに属するクエリキーのペアは生成中により大きなスコアを持つ傾向があることを示しています。

レイアウトが注意力の調整を導く

アテンション マップの分析結果は、この論文が生成プロセスに介入し、テキストとレイアウトの条件をよりよく反映するために生のスコアを調整する動機となっています。具体的には、アテンション マップは次のように調整されます 。

評価設定

索引。 各方法は、次のテキスト キューの忠実性とレイアウト条件との整合性という 2 つの基準に基づいて評価されました。テキスト ヒントの場合、入力テキストの特徴と生成された画像の特徴の間の距離を測定する CLIP スコアと、YOLOv7 を使用して記述されたオブジェクトが生成された画像に表示されるかどうかを確認する SOA-I スコアを計算します。レイアウトの配置に関しては、YOLOv7 によって予測されたセグメンテーション マップが指定されたレイアウト条件と比較され、IoU スコアが計算されます。切り出されたオブジェクト画像の CLIP スコア (ローカル CLIP スコア) がさらに評価され、生成されたオブジェクトが詳細な説明に従っているかどうかがチェックされます。Composable Diffusion と Structure Diffusion はレイアウト条件を受け付けないため、比較から除外されます。

基準。 私たちの方法を、密な説明テキストに対する事前トレーニング済みの安定拡散の忠実度を向上させるために設計されたさまざまなトレーニング不要の方法と比較します。

データセット。 新しい評価データセットは、各セグメントの詳細な説明とともに組み立てられます。具体的には、2 つ以上の一意のオブジェクトを含む 250 個のサンプルが MS-COCO 検証セットから選択されます。次に、各セグメンテーション マスクのクラス ラベルが、説明テキストから抽出されたフレーズに手動で置き換えられました。たとえば、「犬」は「白黒の犬」に変更されました。説明テキストごとに 4 つのランダムな画像を生成し、評価用のベンチマークごとに 1000 枚の画像を生成します。ユーザー調査。 Amazon Mechanical Turk を使用してユーザー調査を実施します。タスクごとに、同じ入力条件を持つ 4 つの画像の 2 セットをユーザーに表示します。次の基準のいずれかに基づいて、より良い画像セットを選択するよう求められました。主要なオブジェクトの詳細な説明を反映しながらテキスト条件に従っているか、オブジェクトを正確に描写するためにレイアウト条件に従っているかです。このペーパーでは、画像の各ペアをランダムな順序で表示し、異なるユーザーから 3 つの評価を収集します。表 2 と 3 のスコアは、ベースラインよりも DenseDiffusion を選択したユーザーの割合を示しています。50% は、DenseDiffusion とベースラインが同じ優先順位を持っていることを意味し、50% を超える値は、より多くのユーザーがベースラインよりも DenseDiffusion を選択することを意味します。 

結果

テキスト条件の忠実性を評価します。 図 4 では、高密度の説明テキストから生成された画像について、DenseDiffusion とすべてのベースライン手法を比較しています。ベースライン手法では、テキスト説明テキストに記述されている 1 つ以上のオブジェクトが欠落することがありますが、私たちの結果はテキストとレイアウトの条件をより忠実に反映しています。特に SD​​-Pww との比較では、トレーニング不要の変調方式の有効性が強調されます。表 2 の定量的評価結果は一貫した傾向を示しています。自動評価でも手動評価でも、DenseDiffusion は他の方法よりも優れたパフォーマンスを発揮します。ただし、LAION と MS-COCO の学習にはそれぞれ Stable Diffusion と YOLOv7 が使用されているため、SOA-I は手動評価結果との相関が弱いと思われます。興味深いことに、コンポーザブル拡散の場合と同様、推論方法が元の推論から大きく逸脱しすぎると、パフォーマンスが大幅に低下する傾向があります。レイアウト条件に従った忠実性の評価。 以下のレイアウト条件の忠実度を評価するために、この文書では SD-Pww の結果のみを比較します。SD-Pww は画像レイアウトを制御できる唯一のベースラインであるためです。図 4、5、および表 3 は、DenseDiffusion が SD-Pww よりも大幅に優れていることを示しています。SD-Pww はレイアウト条件を忠実に反映できないだけでなく、異なるオブジェクトの機能が混在したり、主要なオブジェクトが省略されたりする傾向があります。特に、IoU スコアの大きな違いは、DenseDiffusion がレイアウト条件をより効果的に反映していることを示しています。図 6 は、元のレイアウト条件を維持しながら、オブジェクト タイプや画像スタイルなどの特定のテキスト条件に基づいてコンテンツの一部を変更することによって作成されるさまざまな条件に、この手法が良好に応答することを示しています。レイアウト条件化モデルとの比較。 DenseDiffusion がトレーニング不要の方法と同様に効果的であることを強調するために、MAS および SpaText とさらに比較します。どちらもレイアウト条件を使用してトレーニングされたテキストから画像へのモデルです。MAS はトークン化されたセマンティック セグメンテーション マップを追加条件として使用し、SpaText はレイアウト条件に応じて Stable Diffusion の空間スプライシング CLIP 画像機能を微調整します。これらのモデルは公開されていないため、この記事では元の SpaText 論文に記載されている例を使用します。図 5 は、DenseDiffusion が、さまざまな概念に関して MAS と同等、場合によっては MAS よりも優れた配置条件を反映できることを示しています。

アブレーション研究。 次の論文では、DenseDiffusion で使用される各コンポーネントを評価します: (a) クロスアテンション層の注意変調、(b) 自己注意層の注意変調、(c) 適応度値範囲の注意変調、および (d) マスクエリア適応型注意変調。この記事ではまず、アブレーション研究の視覚的な結果を図 7 に示します。各行のすべての画像は、同じ初期ノイズ マップを使用して生成されます。w/o (a) と w/o (b) の列に示されているように、クロスアテンション レイヤーとセルフ アテンション レイヤーの両方での注意の調整は、テキストとレイアウトの両方の条件を満たすために重要です。列なし (c) の画像は、適応度値の範囲を調整することで、指定された条件に対するメソッドの忠実度がさらに向上することを示しています。最後に、列 w/o (d) によれば、この方法では、図 7 に示すように、単調な背景が作成される傾向があります。現実的な画像と同じではないかもしれませんが、セグメンテーション マップを予測するためにセグメンテーション モデルで使用する方が簡単です。したがって、レイアウト条件に関連する良好なメトリック スコアを取得するのに役立ちますが、テキスト条件を常に満たすわけではありません。表 4 では、この論文では自動測定基準を使用してさまざまなアブレーション方法を評価しています。結果は、コンポーネント (d) を除くすべてのコンポーネントを削除すると、すべてのメトリック スコアが大幅に低下することを示しています。IoU スコアの大幅な低下が示すように、アブレーション方法ではレイアウト条件に対する高い忠実度を達成できません。テキスト特徴が画像レイアウトの構築において重要な役割を果たすため、クロスアテンション層のアテンション変調が省略された場合に最大のパフォーマンス低下が観察されます。さらに、値の範囲を考慮せずにスコアを調整すると、すべての指標が減少する結果になりました。これらの発見を総合すると、注意力の調整により、事前トレーニングされたモデルの生成能力を損なうことなく、特定の条件への忠実度が効率的に向上することが確認されます。ワオソフト アイオット http://143ai.com

構成要素 (d) に関しては、図 7 に示すように、アブレーション方法が単調な背景を作成する傾向の結果としてこの例外を扱います。現実的な画像とは異なる場合がありますが、セグメンテーション マップを予測するためのセグメンテーション モデルに使用する方が簡単です。したがって、レイアウト条件に関連する良好なメトリック スコアを取得するのに役立ちますが、必ずしもテキスト条件に関連するとは限りません。

結論は

この論文では、高密度説明テキストの事前トレーニングされたテキストから画像へのモデルの忠実度を向上させ、画像レイアウト制御を実現できる、トレーニング不要の手法である DenseDiffusion を提案します。私たちの調査結果は、値の範囲とセグメントサイズを考慮することで、注意力の調整方法を大幅に改善できることを示しています。実験結果は、DenseDiffusion がさまざまな評価指標において他の方法よりも優れていることを示しています。特に、トレーニング不要のアプローチは、このタスク専用の既存のモデルをトレーニングすることによって得られるものと同等のレイアウト制御を提供します。

おすすめ

転載: blog.csdn.net/qq_29788741/article/details/132769068