PAI-Diffusion:t2i 合成用のオープン中国拡散モデル ファミリの構築と提供

マルチシーンの PAI-Diffusion 中国モデル ファミリが大幅にアップグレードされ、12 のモデルと 2 つのツールがすべてオープンソースになりました - Zhihu 著者: Duan Zhongjie、Liu Bingyan、Wang Chengyu、Zou Xinyi、Huang Jun 概要 ここ数年、 AI 生成コンテンツ (AI Generated Content、AIGC) の台頭により、この分野では安定拡散モデルが登場しました。この分野の発展を促進するために、Alibaba Cloud Machine Learning PAI チーム... icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/655955464 1.はじめに

中国語は、豊富な語彙、豊富なグリフ変換、文字間の複雑な相互依存関係を備えた言語です。漢字には複数の意味があり、複合語を形成できることが多いため、テキストの説明と視覚的表現の間で正確かつ一貫したマッピングの変更を確立することができます。困難。

中国の生成拡散モデルの欠点 1. 既存のモデルの多くは、一般的なテキスト記述に基づいて画像を生成することに焦点を当てており、特定のドメインまたはコンテキストで画像を生成する機能を無視しています。2. 中国語の場合、洗練された画像スタイルの転送と画像編集に lora と controlnet を使用する可能性は十分に検討されていません。

2.モデル

Largeとxlargeは生成される画像のサイズを指し、前者は512x512、後者は768x768であり、sd1.5のモデル構造と全く同じです。

トレーニング データは、wukong の 1 億個のテキストと画像のペアと OpenKG を使用して、中国語のクリップ モデルを事前トレーニングします。

おすすめ

転載: blog.csdn.net/u012193416/article/details/133082990