GlyphDraw: テキストから画像への生成で複雑な空間構造を持つテキストをシームレスにレンダリング

GlyphDraw: テキストから画像への生成で複雑な空間構造を持つテキストをシームレスにレンダリングする (紙の読書)

Jian Ma、OPPO Research Institute、CH、arXiv、引用:1、コード論文

1 はじめに

最近、言語ガイド付き画像生成の分野で目覚ましい進歩があり、ユーザーの指示に基づいて高品質で多様な画像を生成できるようになりました。合成結果は素晴らしいものですが、現在の画像生成モデルの重要な制限は、特に漢字などの複雑な書記素構造の場合、画像内のテキストを一貫して生成する能力が不十分であることです。この問題に対処するために、画像生成モデルが特定の言語向けにテキストが埋め込まれた画像を生成できるように設計された一般的な学習フレームワークである GlyphDraw を導入します。まず画像とテキストのデータセットの構築戦略を慎重に設計し、次に拡散ベースの画像ジェネレーターに基づいてモデルを構築し、モデルがグリフと文字の助けを借りて言語文字の描画を学習できるようにネットワーク構造を慎重に変更します。位置情報。さらに、パラメータ効率の高い微調整手法を使用することで、モデルのオープンドメイン画像合成機能を維持し、壊滅的な忘却を防ぎます。広範な定性的および定量的実験により、私たちの方法がプロンプトに一致する言語文字を正確に生成するだけでなく、生成されたテキストを背景にシームレスにブレンドできることが実証されました。

2. 全体論的思考

まず第一に、中国語のテキストを含む画像データセットが必要です。このデータセットを使用してプロンプトを構築し、BLIP-2 を使用して画像 (プロンプト用) のタイトルを生成することもできます。これで、画像とタイトルが完成しました。テキスト付き。テキストを含むテキスト画像を生成したい場合は、拡散モデルにテキストを認識させ、テキスト内の情報に基づいてテキストを生成する必要があります。この記事で使用される方法は次のとおりです。トレーニング フェーズでは、OCR 認識を通じて画像内のテキストをマスクに差し引いて、元の画像、マスク、およびテキスト プロンプトをデノイザーに送信します。これにより、拡散モデルは、特定のテキスト 場所とテキスト情報、プロンプトの恩恵を受けて、このモデルをトレーニングすると、テキストに従って場所に対応するテキストとコンテンツを生成することを学習できます。この記事はおそらく最初の作業であり、生成された効果は非常に唐突で、20 年前の写真にテキストを追加する方法とまったく同じです。

3. 方法

現在の画像合成方法は、人間の手やテキスト コンテンツなどのきめの細かい複雑な構造を生成する際に、依然として多くの課題に直面しています。先駆的な研究である Imagen は、特別に設計されたネットワークやトレーニング戦略を導入することなく、T5-XXL などの凍結済みの事前トレーニング済み汎用大規模言語モデルを使用して、英語のテキストを画像内にレンダリングできることを実証しています。別の最近の研究では、文字認識言語モデル (ByT5 ファミリなど) を利用して、画像合成モデルのビジュアル テキスト レンダリング機能をさらに強化することが提案されています。ただし、この研究で実証されているように、これらの方法は中国語などの非ラテン文字を生成するには十分ではありません。これは主に、8 つの異なるタイプの基本ストロークと、一般的に使用される多数の文字 (最大数千) で構成される、漢字のより複雑な 2 次元空間構造によるものです。したがって、正確で多様な漢字を生成することはより困難であり、未解決の研究課題のままです。さらに、事前トレーニングされた一般言語モデルをフリーズすると、ユーザー指定の下流言語でビジュアル テキストをレンダリングする画像合成モデルの調整に柔軟性がなくなり、特定の言語モデルを最初からトレーニングするのはコストがかかり、データ集約的になります。したがって、私たちは、軽量のトレーニング戦略とデータセットを使用して、ビジュアルテキストプレゼンテーションの課題に取り組むための、一般的で適応性のあるアルゴリズムを設計することを思いつきました。

ここに画像の説明を挿入

この問題に対処するために、画像生成モデルが画像内に一貫したビジュアル テキストを生成できるように設計された一般的なフレームワークである GlyphDraw を提案します。GlyphDraw は、文字グリフとテキスト位置を補助情報として使用して、文字生成プロセスをより適切に制御します。私たちの方法は、与えられた指示に正確に従う多様なビジュアルテキストを生成することができ、印象的な結果を達成しました。図 1 の中国語と英語の例に示すように、生成されたテキストは、コンテキストに最も適したフォント スタイルとインテリジェントに一致し、高品質の生成を維持し、過剰適合や壊滅的な忘れなどの問題を回避しながら、背景とシームレスに融合することに注目する価値があります。示されています。私たちの主な貢献は次のように要約されます。

  1. 英語や中国語などの特定の言語のビジュアル キャラクター生成の問題を解決するための汎用的で柔軟なフレームワークである GlyphDraw を紹介します。GlyphDraw は、生成プロセス全体にわたってきめ細かいガイダンスを提供し、高品質で複雑な文字をさまざまなスタイルの画像環境にシームレスにブレンドできるようにします。
  2. 私たちは、事前トレーニングされたモデルに基づいてパラメーター効率の高い微調整戦略を開発し、過剰適合や壊滅的な忘却を防ぎ、オープンドメイン生成におけるモデルの強力なパフォーマンスを効果的に維持し、同時に正確なビジュアルテキスト生成を実現します。
  3. トレーニング データセットの構築プロセスと評価ベンチマークについて詳しく説明します。GlyphDraw は、中国語と英語の文字レンダリングでそれぞれ 74% と 75% に達し、以前の画像解像度を大幅に上回る優れた OCR 精度を達成しました。

3.1 関連作品

多くの研究が、テキストコンテンツを画像合成に組み込むという課題を検討してきました。例えば、フォント生成に関する研究は、与えられた入力フォントに基づくスタイル変換の問題として扱うことで、新しいフォントを作成することを目的としています。Diff-font は、拡散モデルを利用してフォント生成タスクを処理します。ただし、これらの作業は背景なしでフォント グリフを生成することだけに焦点を当てており、画像合成におけるテキスト生成を改善するという私たちの目標とは矛盾します。別の関連研究では、文字レベルの入力機能を組み込むことでテキスト生成を改善する文字認識拡散モデルが提案されています。ただし、文字認識メソッドは、空間構造が複雑であるため、非ラテン語テキストの生成ではパフォーマンスが低くなります。私たちの知る限り、私たちの論文は、汎用画像合成における非ラテン語テキスト (中国語など) 生成の困難な問題に初めて取り組んだものです。

3.2 はじめに

このセクションでは、後で提案するアルゴリズムをよりわかりやすく説明するために、まず安定拡散 (SD) に必要な表記法を簡単に確認します。次に、GlyphDraw フレームワークの概要を詳しく説明し、補助情報をどのように利用するかを説明します。さらに、壊滅的な物忘れを防ぐために私たちが考案したトレーニング戦略も紹介します。最後に、トレーニングフェーズとは少し異なる推論プロセスを紹介します。

SD では、入力画像はオートエンコーダによって潜在表現に変換され、拡散処理も潜在空間内で実行されます。ここで、条件付き U-Net を使用して現在のステップttを予測します。t、潜在空間ノイズzt z_tzそしてビルドコンディションCCCにおけるϵ \epsilonϵ、ここでの条件は、U-Net モジュールに追加されたクロスアテンション モジュールです。
注意 ⁡ ( Q , K , V ) = ソフトマックス ⁡ ( QKT d ) ⋅ V ここで、 Q = WQ ( i ) ⋅ φ i ( zt ) 、 K = WK ( i ) ⋅ C 、 V = WV ( i ) ⋅ C です。 \オペレーター名{注意}(Q, K, V)=\オペレーター名{ソフトマックス}\left(\frac{QK^{T}}{\sqrt{d}}\right) \cdot V \\ where \quad Q= W_{Q}^{(i)} \cdot \varphi_{i}\left(z_{t}\right), K=W_{K}^{(i)} \cdot C, V=W_{V} ^{(i)} \cdot C .注意( Q K V )=ソフトマックス(d Q KT)Vここ_Q=WQ()ファイ私は( z)K=WK()C V=WV()C .
その中で、φ i ( zt ) \varphi_{i}(z_{t})ファイ私は( z)は、デノイザー後の平坦化ベクトルWQ ( i ) 、 WK ( i ) 、 WV ( i ) W_{Q}^{(i)},W_{K}^{(i)},W_{ V}^ {(私)}WQ()WK()WV()
は学習可能な射影行列です。テキストから画像への生成のコンテキストでは、条件C = τ θ ( y ) C=\tau_{\theta}(y)C=t( y )は、事前トレーニングされた CLIP テキスト エンコーダτ θ \tau_{\theta}tyyにテキストメッセージを送るyコードを取得しました。

3.3 モデルの概要

ここに画像の説明を挿入

私たちが提案する GlyphDraw メソッドの全体的なトレーニング フレームワークを図に示します。私たちは、安定拡散におけるクロスアテンション メカニズムの修正に焦点を当てました。元の入力潜在変数zt z_tz画像の潜在変数zt z_tに置き換えられますz、テキストマスクlm l_mメートルおよびグリフイメージlg l_gg連結。さらに、ドメイン固有の融合モジュールを使用することで、条件付きCCCには、グリフ機能とテキスト機能が混在しています。テキスト マスクと書記素情報の導入により、トレーニング プロセス全体を通じてきめ細かい拡散制御が可能になります。これは、パフォーマンスを向上させるための重要なコンポーネントの 1 つです。画像潜像部分はOCRで検出したlm l_mメートルおよび文字の視覚情報のみを含むグリフ画像lg l_gg画像の潜在的な特徴zt z_tz接続する。次に、結合された潜在特徴zt ' z'_tztUNet への入力として使用されます。テキスト調整部分に関しては、事前トレーニングされた CLIP モデルがヒントとグリフ イメージを埋め込みなどとしてエンコードしますe e g e_g eg次に、融合モジュールを使用して、テキストと書記素の埋め込みを条件付き特徴にさらに融合しますCCCでは、この機能は UNet クロスアテンション層のキーおよび値コンポーネントとして使用されます。推論中に、MLP のようなマスク予測モジュールを使用して文字マスク マップを推定します。

3.4 補助情報の探索

テキスト情報、特に漢字のような表意文字のピクセル表現は、自然物体の表現とはまったく異なります。たとえば、「天天」という漢字は複数のストロークで構成された単なる 2 次元構造ですが、対応する自然のイメージは「白い雲が点在する巨大な青い画面」です。ビジュアル テキストは非常にきめ細かい機能であり、わずかな移動や変形でもテキストのレンダリングが間違ってしまい、非現実的な画像が生成される可能性があります。自然画像の背景に文字を埋め込む場合、隣接する自然画像のピクセルに影響を与えずに、文字ピクセルの生成を正確に制御する方法も考慮する必要があります。したがって、リアルな自然画像上に違和感なく完璧な文字をレンダリングするために、拡散ベースの合成モデルでは、位置制御と書記素制御という 2 つの重要なコンポーネントを慎重に設計します。

ここに画像の説明を挿入

位置制御: 文字ピクセルの潜在的特徴の分布は、自然画像ピクセルの分布とは大きく異なります。モデル学習の崩壊を防ぐために、異なる領域間の分布を分離するためのきめ細かい位置領域制御を革新的に導入します。具体的には、バイナリマスク特徴マップが元の画像の潜在特徴上に生成され、元の画像の潜在特徴に連結される。トレーニング段階では、OCR 検出情報により四角形マスクが抽出されます。推論段階では、利用可能な参照画像がないため、初期の拡散段階でマスク予測モジュールによってマスクが生成されます。これについてはセクション 3.5 で詳しく説明します。

グリフ制御: 前述の位置制御に加えて、もう 1 つの重要な課題は、言語文字ストローク合成のきめ細かい制御です。漢字の複雑さ (多くの場合 1 ~ 20 の 2D ストロークで構成される) と多様性 (一般的に使用される最大 10,000 文字) を考慮すると、明示的な事前知識の注入なしで大規模な画像テキスト データセットのみから学習することは非常に困難です。漢字を正確に生成するために、追加の条件情報として明示的なグリフ イメージをモデル拡散プロセスに導入します。具体的には、図2に示すように、「北岱河(Beidai River)」のように、背景が白で画像の中央に位置する漢字のみを含む事前に抽出されたグリフ画像を画像の潜在部分とテキストに注入します。埋め込み部分。まず、グリフ ジェネレーターによって抽出されたグレースケール グリフ イメージlg l_ggノイズを含む画像の潜在特徴zt z_tに連結されます。zおよびバイナリ テキスト マスクlm l_mメートル新しい画像潜在特徴を形成しますzt ' = concat ( zt , lg , lm ) z'_t = concat(z_t, l_g, l_m)zt=接続( z _ _ _ _gメートル畳み込み層の次元調整後、特徴ベクトルz ~ t = convin ( zt ' ) \tilde z_t = conv_{in}(z'_t)z=コンv _( zt)はクエリコンポーネントとして UNet に入力されます。条件情報に関しては、C = M [ concat ( eg , et ) ] C = M [concat(e_g, e_t)]C=M [接続( e _ _ _ _ge)]融合モジュールMM書記素埋め込みからのM (例 = I θ ( lg ) e_g = I_θ(l_g)eg=( lg) ) およびテキスト埋め込み (et = τ θ ( y ) e_t = τ_θ(y)e=t( y ) )、グリフ埋め込みは固定 CLIP 画像エンコーダー (I θ I_θ) 抽出、テキスト エンコーダーからのテキスト埋め込み ( τ θ τ_θt) ここで抽出したもの、gphdraw の基本項目は次のとおりです:
lgd b ε ( x 0 ) , y , , , ϼ ϼ 〜 Σ ψ cepti ZT , T , y , lg , lm ) ∣ ∣ 2 2 ] \mathcal{L}_ {GD_b}=\mathbb{E_{\varepsilon(x_0),y,l_g,l_m,\epsilon\sim N(0,1), t}}=[||\epsilon-\epsilon_{\theta}(z_t 、t、y、l_g、l_m)||^2_2]LG Db=Ee ( x0) y lglメートル, ϵ N ( 0 , 1 ) , t=[ ∣∣ ϵϵ( zgメートル) 22

3.5 トレーニング

学習フェーズでは、学習言語の文字生成のためのネットワーク パラメーターのみを更新し、他のパラメーターを凍結してモデルの全体的な機能を維持します。UNet が位置マスクとグリフ情報を画像潜在変数とともに追加チャネルとして使用できるようにするため、UNet の入力「conv_in」モジュールを適宜適応させて追加情報に対応し、学習中にそれを更新します。同様に、グリフ情報の統合やテキストキューの埋め込みによって生成条件 C を変更する融合モジュールも更新する必要があります。さらに、最も重要なことは、特定のテキストから画像への分布からマッピングを更新する場合、各クロスアテンション ブロックのみを更新する必要があるということですi中的 W K i W^i_K WK私は W V i W^i_V WV私はテキストの特徴はキーと値の射影行列への唯一の入力であるため、これで十分です。更新するパラメーターを厳選することで、私たちの方法はモデルの生成パフォーマンスを効果的に維持し、全パラメーターの 3% のみを更新しながら一貫したテキスト生成を達成し、モデルの収束を大幅に高速化します。

モデルのビジュアルテキスト生成パフォーマンスをさらに向上させるために、トレーニング目標の設計に重み付け戦略を実装します。これは、学習プロセス中の言語文字生成能力の学習に重点を置くことを目的としています。具体的には、ロケーションマスク情報lm l_mに従って、メートル量的方程式として次の方程式を生成しましょう:
LGD = E ε ( x 0 ) , y , lg , lm , ϵ 〜 N ( 0 , 1 ) , t = [ ∣ ∣ ϵ − ϵ θ ( zt , t , y , lg , lm ) ∣ ∣ 2 2 + α ∣ ∣ ( ϵ − ϵ θ ( zt , t , y , lg , lm ) ) ∗ ( 1 − lm ) ∣ ∣ 2 2 ] \mathcal{L} _{GD} =\mathbb{E_{\varepsilon(x_0),y,l_g,l_m,\epsilon\sim N(0,1),t}}=[||\epsilon-\epsilon_{\theta}( z_t,t, y,l_g,l_m)||^2_2+\alpha||(\epsilon-\epsilon_{\theta}(z_t,t,y,l_g,l_m))*(1-l_m)||^2_2 ]LGD _=Ee ( x0) y lglメートル, ϵ N ( 0 , 1 ) , t=[ ∣∣ ϵϵ( zgメートル) 22+α ∣∣ ( ϵϵ( zgメートル))( 1メートル) 22

3.6 推論

ここに画像の説明を挿入
推論中、元の画像 x0 が存在しないため、マスク情報 lm は OCR 検出器によって直接抽出できません。そこで、任意形状の粗いマスクを推定するための、図2のマスク予測モジュール(赤い線とボックス)を提案します。図 3 に示すように、MSE 損失でトレーニングされた単純なピクセル単位の MLP ネットワークを使用して、最初のいくつかの拡散ステップ (t = {T,T−1,...,tearly}) で文字マスクを推定します。推定マスクと真のマスクの間。予測されたマスクを取得した後、DDIM サンプリング戦略による完全拡散プロセス (t = {T,T−1,...,rT,...,1}) を通じて画像を再生成します。Glyphdraw モデルを使用して、事前トレーニングされた安定拡散を使用して最初の数ステップ ({T, T−1, ..., rT + 1}) と残りのステップ ({rT, ..., 1}) をサンプリングします。モデル、グリフ、および位置の事前分布は破棄されます。ここで、 r ∈ [0,1]は、テキストのレンダリング精度とオープンドメインの生成能力の間でトレードオフするハイパーパラメーターです。

4. 実験

安定した拡散に基づいて、GlyphDraw は VAE、UNet、CLIP、および fusion モジュールで構成されており、これらには合計 19 億個のパラメータが含まれており、そのうち 10 億個のパラメータ (fusion モジュール、conv_in モジュール、射影行列 W(i)K、W(i) のみです)V ) を訓練することができます。VAE と UNet は安定した拡散モデルのチェックポイントから初期化され、CLIP 画像とテキスト エンコーダは事前トレーニングされた CLIP チェックポイントからロードされます。CLIP エンコーダーの後、画像とテキストのトークン長はそれぞれ 257 と 64 になります。フュージョンモジュールとして6層、8アテンションヘッド、1024隠れ次元を持つトランスフォーマーを採用。学習率を 2e-5 に設定し、式の重みスケール ハイパーパラメータ α を 0.5 に設定します。モデル全体は 24 個の A100 GPU で、GPU あたり 25 のバッチ サイズで合計 20 エポックでトレーニングされます。
ここに画像の説明を挿入
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/qq_43800752/article/details/130935198
おすすめ