画像は一言の価値があります: テキスト反転を使用したテキストから画像への生成のパーソナライズ

画像は一言の価値があります: テキスト反転を使用したテキストから画像への生成のパーソナライズ (論文の閲覧)

Rinon Gal、テルアビブ大学、イスラエル、arXiv2022、引用:182、論文コード

1 はじめに

テキストから画像へのモデルは、自然言語を介してオーサリングをガイドする前例のない自由を提供します。ただし、この自由度をどのように活用して、特定のユニークなコンセプトの画像を生成したり、外観を変更したり、それらを組み合わせて新しいキャラクターや新しいシナリオを作成したりできるかは不明です。言い換えれば、言語ガイド付きモデルを使用して、猫を絵画に変えたり、お気に入りのおもちゃに基づいて新製品を想像したりするにはどうすればよいでしょうか? ここでは、この創造的な自由を可能にする簡単な方法を提案します。ユーザーが指定したコンセプト (オブジェクトやスタイルなど) の 3 ~ 5 枚の画像のみを使用して、凍結されたテキストから画像へのモデルの埋め込み空間で新しい「単語」を介してそれを表現する方法を学習します。これらの「単語」を自然言語文に組み合わせて、直感的な方法でパーソナライズされた作成をガイドできます。驚くべきことに、ユニークで多様な概念を捉えるには単一の単語の埋め込みで十分であることがわかりました。私たちの手法をさまざまなベースラインと比較し、さまざまなアプリケーションやタスクにわたってこれらの概念をより忠実に表現していることを実証します。

2. 全体論的思考

Dreamboothと同様に、特定のテーマをテキスト プロンプト内の特定の単語に統合します。モデルがこの特定の単語を理解できるようにモデルをトレーニングします。

3. 方法

映画「タイタニック」の有名なシーンで、ローズはジャックに「...あなたのフランス人の女の子のように私を描いてください。」その単純さにもかかわらず、この要求には豊富な情報が含まれています。これは、ジャックが絵を描く必要があることを示し、そのスタイルと構成がジャックの以前の作品の一部と一致する必要があることを示します。ユニークなテーマ: ロス自身です。リクエストを行う際、ローズはジャックにこれらの概念 (広範かつ具体的なもの) について推論し、新しい作品に組み込んでもらいます。

私たちは、事前学習されたテキストから画像へのモデルのテキスト埋め込み空間で新しい単語を見つけることを提案します。テキスト符号化プロセスの最初の段階を考えます (図 2)。ここでは、入力文字列が最初にトークンのセットに変換されます。次に、各トークンは独自の埋め込みベクトルに置き換えられ、これらのベクトルが下流モデルに供給されます。私たちの目標は、新しい特定の概念を表す新しい埋め込みベクトルを見つけることです。

ここに画像の説明を挿入
新しい擬似ワード (擬似ワード) を使用して新しい埋め込みベクトルを表現します。S ∗ S_∗を使用します。S特急。この擬似単語は他の単語と同様に扱われ、生成モデル用の新しいテキスト クエリを作成するために使用できます。したがって、「 S ∗ S_∗ 」と求めることができます。Sビーチでの写真"、" S ∗ S_∗S壁に掛けられた油絵」、あるいは「 S ∗ 1 S^1_∗」のように 2 つの概念を組み合わせたものもあります。S1S∗2S^2_∗の描き方S2重要なのは、このプロセスは生成モデルを変更しないことです。そうすることで、新しいタスクに合わせて視覚モデルや言語モデルを微調整するときに失われがちな、豊富なテキストの理解と一般化能力が維持されます。これらの疑似単語を見つけるために、次のように定式化します。反転の形式としてのタスクです。固定の事前トレーニングされたテキストから画像へのモデルと、概念を含む小さな (3 ~ 5) の画像セットがあります。私たちの目標は、単語埋め込みベクトルを見つけることです。その結果、形式は「S ∗ S_∗の部分S「私の写真」の文は、小さな画像セット内の画像を再構成することができました。この埋め込みベクトルは、「テキスト反転」と呼ばれる最適化プロセスを通じて見つかりました。

テキストの埋め込み: BERT などの一般的なテキスト エンコーディング モデルは、テキスト処理ステップから始まります (図 2、左)。まず、入力文字列内の各単語またはサブワードが、事前定義された辞書へのインデックスであるトークンに変換されます。各トークンは一意の埋め込みベクトルに関連付けられ、インデックスベースの検索を通じて取得できます。これらの埋め込みベクトルは通常、テキスト エンコーダとして使用されます。c θ c_θc学習の一部。私たちの作業では、この埋め込み空間を反転のターゲットとして選択します。具体的には、プレースホルダー文字列S ∗ S_∗を指定します。S私たちが学びたい新しい概念を表すために。新しい学習された埋め込みベクトルv∗v_∗を使用して埋め込みプロセスに介入します。vトークン化された文字列に関連付けられたベクトルを置き換えることは、基本的にその概念を語彙に「挿入」することになります。こうすることで、他の単語と同じように、その概念を含む新しい文を作成できます。

テキスト反転: これらの新しい埋め込みベクトルを見つけるために、さまざまな背景や姿勢など、いくつかの異なるコンテキストでターゲットの概念を含む小さな画像コレクション (通常は 3 ~ 5 枚) を使用します。直接最適化によりv ∗ v_∗を求めますvつまり、少数の画像セットからサンプリングされた画像の LDM 損失によって最小化されます。生成を条件付けるために、CLIP ImageNet テンプレートから派生した中立的なコンテキスト テキストをランダムにサンプリングします。これらのテンプレートには、「S∗ の写真」、「S∗ のレンディション」などの形式のプロンプトが含​​まれています。

実装の詳細: 特に明記されていない限り、LDM の元のハイパーパラメータの選択を維持します。単語埋め込みベクトルは、オブジェクトの単語の粗い記述子の埋め込みで初期化されます (たとえば、図 1 の 2 つの概念の粗い記述子は「彫刻」と「猫」です)。私たちの実験では、バッチ サイズ 4 の 2 つの V100 GPU を使用します。基本学習率は 0.005 に設定されます。LDM の後、GPU の数とバッチ サイズに応じて基本学習率をさらにスケーリングし、有効学習率を 0.04 にします。すべての結果は 5,000 の最適化ステップ後に得られます。これらのパラメータはほとんどの場合に効果的であることがわかりました。ただし、一部の概念では、ステップ数を減らすか学習率を高めることで、より良い結果が得られることがわかりました。

4. 実験

まず、オブジェクトのさまざまなバリエーションをキャプチャして再作成するための単一の擬似ワードの使用を示します。図 3 では、私たちの方法を 2 つのベースライン方法と比較しています。人間のキャプションによってガイドされる LDM と、人間のキャプションまたは画像キューによってガイドされる DALLE-2 です。Mechanical Turkを使用してタイトルを収集しました。参加者にはコンセプトの 4 つの画像が提供され、アーティストがそれを再現できるような方法でそれを説明するよう求められました。短いタイトル (≤ 12 ワード) と長いタイトル (≤ 30 ワード) をお願いします。コンセプトごとに合計 10 タイトルを集めました。そのうち 5 作品は短編、5 作品は長編でした。図 3 は、ランダムに選択されたタイトルを使用した各設定の複数の結果を示しています。

私たちの結果が示すように、私たちの方法は概念の固有の詳細をよりよく捉えています。人間によるキャプションは、多くの場合、オブジェクトの最も顕著な特徴を捉えることができますが、ティーポットの色パターンなどの微妙な特徴を再構築するには詳細が不十分です。場合によっては (頭蓋骨のカップなど)、自然言語でオブジェクト自体を説明するのが非常に難しい場合があります。画像が提供されると、DALLE-2 は、特に詳細が限られたよく知られたオブジェクト (アラジンの魔法のランプなど) について、より魅力的なサンプルを再現することができました。ただし、画像エンコーダ (CLIP) では認識されなかった可能性のある、独自のパーソナライズされたオブジェクト (マグカップ、ティーポットなど) の詳細にはまだ苦労しています。対照的に、私たちの方法はこれらの詳細をうまく捕捉し、単一の単語の埋め込みのみを使用します。ただし、私たちの作品はソース オブジェクトに近づいていますが、それでもソース オブジェクトとは異なる可能性があるバリエーションであることに注意することが重要です。
ここに画像の説明を挿入
図 1 と 3 では、学習した擬似単語を新しい条件付きテキストに組み込むことで、新しいシナリオを作成できることを示しています。概念ごとに、トレーニング セットの例を、生成された画像とその条件付きテキストとともに示します。私たちの結果が示すように、凍結されたテキストから画像へのモデルは、新しい概念とその膨大な事前知識について同時に推論し、それらを組み合わせて新しい作品を作成することができます。重要なのは、トレーニングの目標は生成的ですが、擬似単語にはモデルが利用できる意味概念が含まれていることです。

おすすめ

転載: blog.csdn.net/qq_43800752/article/details/131090033
おすすめ