中国語は、豊富な語彙、豊富なグリフ変換、文字間の複雑な相互依存関係を備えた言語です。漢字には複数の意味があり、複合語を形成できることが多いため、テキストの説明と視覚的表現の間で正確かつ一貫したマッピングの変更を確立することができます。困難。
中国の生成拡散モデルの欠点 1. 既存のモデルの多くは、一般的なテキスト記述に基づいて画像を生成することに焦点を当てており、特定のドメインまたはコンテキストで画像を生成する機能を無視しています。2. 中国語の場合、洗練された画像スタイルの転送と画像編集に lora と controlnet を使用する可能性は十分に検討されていません。
2.モデル
Largeとxlargeは生成される画像のサイズを指し、前者は512x512、後者は768x768であり、sd1.5のモデル構造と全く同じです。
トレーニング データは、wukong の 1 億個のテキストと画像のペアと OpenKG を使用して、中国語のクリップ モデルを事前トレーニングします。