安定した Diffsuion リソース ディレクトリ
SDの簡単な紹介
Stable Diffusion は、2022 年にリリースされた深層学習のテキストから画像への生成モデルです。これは主に文本的描述
詳細の生成图像
に使用されますが、内部補完描画、外部補完描画、プロンプト ワードによるマップ生成マップの翻訳など、他のタスクにも適用できます。
で使用される技術原理は拡散アルゴリズムと呼ばれ、具体的なアルゴリズムの設計は非常に複雑な主題です。一般的な原則は、イメージをぼかしてから、关键词
内容を少しずつ具体化することです。最終的に、説明したとおりのものが得られました。
私がこの技術のことを知ったのは昨年の2022年9月からでした。しかし、この技術の実際の運用計画については詳細がわかっていません。
今年は、このテクノロジーの Alibaba Cloud の運用と、いくつかの公開アカウントの内容も断続的に調査しました。また、比較的人気のある隠し QR コードや、テキストが隠された光と影の道路地図も懸念されています。しかし、実際にはうまくいきませんでした。
この週末は、以前見た教材を探して読み直し、実践しました。以下はこのテクニックについての私の要約です。
SDインストール
SD をローカルで操作する場合は、優れたディスクリート グラフィック カードが必要です。このグラフィックス カードの要件を満たせない場合は、Alibaba Cloud サーバーまたは一部のクラウド デスクトップを選択して動作させることができます。
- ローカルインストール環境は3つのステップに分かれており、まずPython環境をインストールし、環境変数に設定します。次に、最初にサポートする必要がある cuda サポートをインストールする必要があります。これにより、
nvidia-smi
デバイスでサポートされているバージョンを確認できますCUDA version
。 - cuda ダウンロード アドレスのリンクから、対応するバージョンの cuda をダウンロードできます。
- 次に、それをインストールする必要があります。上からプロジェクトをクローンする
git
必要があり、いくつかのプラグインを渡すこともできるため、 github のwebuiプロジェクト アドレスを渡すこともできます。github
webui
git
clone
- この完全に手動の方法に加えて、ステーション B からいくつかの優れたゴッド ランチャー インストール パッケージを見つけることもできます。インストールパッケージには動作環境が同梱されており、非常に安心してご利用いただけます。
モデルのダウンロード
プロジェクトが開始されると、必要な大きなモデルをいくつかダウンロードする必要があり、SD に必要なモデルが多数あります。
checkpoint
これは、SD の実行に必要なデータのソースです。大きなモデルではファイル サイズも大きくなります。一般的には2G以上になります。SDペイントに必要な大辞典に相当します。VAE
これは画面に色を付けるためのもので、フィルターとして理解できます。写真をより鮮やかで目を引くものにします。Embedding
SD作成画面はテキスト、つまりキーワードで記述する必要がありますが、このモデルはいくつかのキーワードを直接パッケージ化することに相当します。記述する際には多くの内容を記述する必要はなく、モデルを直接対応するフォルダーにインポートします。次に、キーワードに対応する埋め込みを入力します。Hypernetwork
辞書は非常に大きいため、これはブックマークに相当します。これにより、SD によって作成された画像がより要件に一致するようになります。Lora
Lora は、Hypernetwork のアップグレード版に相当します。これは、大きなモデルに基づいてより詳細に記述し、要件をより詳細に記述したことに相当します。大規模なモデルの結果を微調整します。LyCORIS
LyCORIS は Lora のアップグレードであり、アルゴリズム生成がより洗練され、さらに調整されています。
すべてのモデルは、説明の基礎と SD ペインティングの範囲を提供するように設計されています。これは、大規模なモデルをトレーニングする場合、データ セットが非常に大きくなり、実際の操作では精度を高めるために他の小さなモデルを使用する必要があるためです。そこで、これらのモデルがあります。
一般的に使用されるモデルのダウンロード アドレスの一部を次に示します。
キーワード、説明文
プロンプトワード: 順方向テキストプロンプトワード、逆方向テキストプロンプトワード
最も重要なことは、表現したいこと、つまりテーマを確認することです。内容はテーマに沿ったものであるためです。
- 登場人物と主題の特徴
- シーンの特徴
- 環境光
- 補足、フレーム角度
コンテンツの説明に加えて、画質を説明するためのいくつかのキーワードも必要です
- 高解像度
- 特定の高解像度
- 描き方のコツ(イラスト・平面・写実)
プロンプトワードの重み: 括弧を追加して重みを増やすか、キーワードの後に特定の倍数を追加して重みを制御できます。
プロンプトワード Web サイト:
プラグイン管理
github から sd をインストールしたら、描画を開始できます。ただし、ソフトウェアをより使いやすくするために、SD をより使いやすくするためにいくつかのプラグインをインストールできます。
- 中国語中国化言語プラグイン
- ギャラリーブラウザプラグイン(画像ブラウザ)
- プロンプトワードプラグイン
- Ultimate Upscale (画像を拡大し、Vincent の図にスクリプトとして表示されます)
- Local Latent couple (LLUl) (ローカル詳細最適化プラグイン)
- アフターディテイラー(顔や手の細部を美しくするのに役立ちます)
- controlNet
プラグインは基本的に github で管理されており、gitee などの他のコード プラットフォームを通じてダウンロードしてインストールすることもできます。
コントロールネット
controlNet は、画面をきめ細かく制御するためのプラグインです。画像の一部のメタデータが必要です。たとえば
通道信息
、この情報は ps を通じて取得できます。
- 姿勢をコントロールする
- 画像の深さを制御する
- 画面の端をコントロールする
- 光と影をコントロールする
- アート QR コードの生成
自分でモデルをトレーニングする
上記の内容では要件を満たすのに十分でない場合は、独自にモデルのトレーニングを実行できます。
- データ ソース、オブジェクトの写真を見つける
- SD を通じて画像にタグを付けます。つまり、画面上のコンテンツを識別します。学習の基礎として
- SDに教えてもらいましょう
- データソースは均一なサイズであることが望ましい
- ローカルのグラフィックカードが十分でない場合は、aliyunを通じて3 か月間無料の PAI クラウド サービスを利用できます
- データトレーニングにはgithub のプロジェクト、 colab のLora_Trainer を使用します
- トレーニングが完了したら、SD の xyz スクリプトを通じて最高の効果を持つモデルを選択する必要があります。