安定拡散入門チュートリアル

この記事はbilibiliのリンクを参考にしています:B局初の体系的AI絵画教室!基礎ゼロで安定拡散を学ぶ、これは間違いなくこれまで見た中で最も簡単な AI ペイント チュートリアルです | SD WebUI Nanny Level Raiders_哔哩哔哩_bilibili

目次

 1. 即興のプロンプトワード

1。概要

2. 迅速な分類

3. プロンプトワードの比重分布

4. 逆プロンプトワード

5. プロンプトワードウェブサイト

2. WebUIパラメータの説明

1. ヴィンセントグラフパラメータ

2. グラフィックパラメータ

3. InPaint の部分再描画とパラメータ

3.モデル

1. 機種の種類

(1)大型モデル

(2)埋め込み

(3) LoRa:下位モデル

(4) ハイパーネットワークスーパーネットワーク

2. 機種分類と上位機種名

(1) 2次元モデル

(2) 実システムモデル

(3) 2.5Dスタイルモデル

4. 解像度を拡大するためのツール

1. HD 修理 Hires.fix

2、SDアップスケール

5. AIペイント入門拡張プラグイン

1.中国語ローカリゼーション言語パック

2. ギャラリーブラウザ

3. プロンプト単語の自動補完

4. プロンプトの言葉を逆にする

5.高級なズームインとズームアウト

6. 部分的なリファインと再描画

7. プロンプトワードの意味セグメンテーション

8. 無制限のズームアニメーションビデオ

6、ControlNetプラグイン

1. 概要

2. インストール

3. マニホールドの 5 つの ControlNet モデルの比較

(1) オープンポーズモデル

(2) 深さモデル

(3)キャニーモデル

(4) HEDモデル

(5)落書きモデル

3、マルチコントロールネット


まず、楽しい名詞をいくつか紹介します。

Alchemy : AI に画像生成モデルを学習させるトレーニング

マントラ: プロンプトプロンプトワード

 1. 即興のプロンプトワード

1。概要

収録内容:作品のテーマ、画風、イメージの特徴、その他具体的な要素を含む

プロンプト単語の文法規則:

  • 急な言葉は英語で書く必要があります
  • プロンプトワードはフレーズを単位として扱います

2. 迅速な分類

(1) 登場人物と主な特徴

服装:白いドレス

髪の色:金髪、ロングヘア

顔の特徴:小さな目、大きな口

表情:笑顔

体の動き:腕を伸ばす

(2) シーンの特徴

屋内と屋外: 屋内/屋外

大きなシーン: 森、街、通り

細部: 木、茂み、白い花

(3) 環境照明

昼と夜: 昼/夜

特定の時間帯:朝、日没

光環境:太陽光、明るい、暗い

天空:blue sky, starry sky

(4) 補足:フレーム画角について

距離: 近く、遠く

キャラクター比率:全身、上半身

観察角度:上から、背面から見た図

レンズタイプ: 広角、Sony A7 III

(5) 画質

ユニバーサルHD:

最高の品質 最高の品質

超詳細なスーパーディテール

傑作

高解像度を採用

8k 8k解像度

特定の高解像度タイプ:

非常に詳細な CG Unity 8k 壁紙 超詳細な 8K Unity ゲーム CG

アンリアル エンジンのレンダリング アンリアル エンジンのレンダリング

3. プロンプトワードの比重分布

(1) 括弧内の数字を追加します。

(白花:1.5) 白花の重さをオリジナルの1.5倍に調整(強化)

(白花:0.8) 白花の重さを元の0.8倍に調整(弱める)

(2) ブラケット

カッコ:(((白花))) 1セットにつき1段、増量×1.1倍

中括弧: { { {白花}}} 1 セットにつき 1 層、追加 *1.05 倍

角括弧:[[[白花]]] 1セットにつき1段、増量×0.9倍

4. 逆プロンプトワード

画像の既存のコンポーネントを識別し、それらを AI 辞書にある内容に要約して、AI に何かをより正確に説明するのに役立ちます。

DeepBooru と CLIP は 2 つの異なる画像認識アルゴリズムですが、DeepBooru の方が速度と認識精度の点で優れています。

5. プロンプトワードウェブサイト

AI 描画プロンプト ワード ジェネレーター - ツールボックス - 便利なオンライン ツールがすべてここにあります。

2. WebUIパラメータの説明

1. ヴィンセントグラフパラメータ

(1) サンプリング反復ステップ数: ノイズ除去反復回数。一般に 20 回を超えると、改善は大きくありません。

(2) 解像度: 解像度が大きすぎると、複数の手足を持つ人が多くなる可能性があります。AI が学習に使用する画像の解像度は一般に比較的小さいため、解像度が大きすぎると、複数の写真。写真はつなぎ合わされます。高解像度の画像が必要な場合は、まず 512*512 の画像を描画してから、「hires.fix」を通じて高解像度の復元を実行します。

(3) 「顔を復元」顔修復。いくつかの対立アルゴリズムを使用して、人々の顔を識別して修復します。

(4) 「タイリング」タイリング。画面全体をシームレスに埋めるテクスチャ付きの画像を生成するために使用されます。

(5) バッチ生成: 完璧な画像を追求するために、一連のプロンプト ワードを使用して複数回生成することができます。この機能により、一度に複数の画像を生成できます。すべての画像を組み合わせたプレビューが表示され、それぞれの画像が表示されます。画像をご覧ください。

2. グラフィックパラメータ

ノイズ除去の強度: 再描画範囲、元の画像の重みにどの程度似ているか

3. InPaint の部分再描画とパラメータ

宿題を書くときに使う修正液や修正テープのようなもので、大きな絵の中の一定の範囲を塗りつぶしたり描き直したりすることができます。間違いを修正できるだけでなく、紙全体を破いて再度描き直すことも避けられます。

イメージ生成の方法を使用してパーツを再描画し、元のイメージに戻します。

マスク: 一般に、処理領域を制限するために使用されるいくつかの範囲オブジェクトを指します。特定の重要な領域をカバーするプレート。

スケッチの修復: 描画します。描かれた色付きの線は同時に絵の一部を形成し、絵を描くプロセスに参加します。

3.モデル

1. 機種の種類

モデルダウンロードサイト:抱き顔/civitai

(1)大型モデル

チェックポイント チェックポイントまたはキー ポイント モデル (ckpt ラージ モデルと呼ばれる)、通常 2 ~ 7 GB

Safetensor は通常 1 ~ 2GB で、モデルの信頼性と効率性を高めるためにトレーナーによって特別に開発された大規模なモデルでもあります。

(2)埋め込み

ステーション C のモデル タイプに対応するテキスト埋め込みは、「Textual Inversion」、つまりテキスト反転です。

埋め込みファイルは非常に小さく、通常は数十 KB です

Checkpoint が大きな辞書だとすると、Embeddings はその上の小さな「しおり」のようなもので、個々の単語の意味を正確に示すことができるため、非常に効率的なインデックスを提供します。

埋め込み自体には情報は含まれず、マークアップのみが含まれます。

埋め込みにより特定の画像を示すことができます

ファイルの拡張子は pt で、ダウンロード後、models フォルダーの隣にある同じ名前のフォルダー embeddings に配置します。

埋め込みには追加の呼び出しは必要なく、プロンプト内で特定のプロンプトを使用して呼び出すだけで済みます。

(3) LoRa:下位モデル

LoRaの役割は、正確な特徴と明確な主題を持つ画像をAIに伝え、記述することです。

AIにその世界に存在しないものを学習させることが可能です。

埋め込みがしおりだとすると、Lora はぬり絵で、画像の特徴とその表現方法を紙に直接書きます。

Lora の場所は、models の下の Lora サブフォルダーです。

lora を使用するには、プロンプト ボックスに直接入力します。

大規模なモデルをトレーニングするための最小要件は、12G 以上のビデオ メモリを備えていることですが、LoRA モデルのトレーニングには 8G またはそれ以下しか必要ない場合があります。従来の大型モデルは少なくとも 2 G のストレージ スペースを占有しますが、最大の LoRA モデルでも 200 M を超えることはありません。

いくつかの側面でこのチェックポイントの「微調整」を実現するには、チェックポイントと組み合わせて使用​​する必要があります。

(4) ハイパーネットワークスーパーネットワーク

ローラと同じ効果を得ることができます。

AIにその世界に存在しないものを学習させることが可能です。

ハイパーネットワークは通常、生成された画像の全体的なスタイルを向上させるために使用されます。必ずしも使用する必要はありません。後で直接 LORA を使用してください。

2. 機種分類と上位機種名

(1) 2次元モデル

Anything V5: アニメ、イラスト、キャラクターポートレートなどのグラフィックスタイル。

偽造品:高精細修復を施したイラスト風モデル

Dreamlike Diffusion: 夢のような幻想的な絵や作品を作成するためのコミックイラストスタイルのモデル

(2) 実システムモデル

Deliberate: スーパーアップグレードされた SD 公式モデル、非常に詳細かつ包括的なリアルなスタイル

リアルなビジョン: シンプルでリビングスペースがあり、ポートレート、食べ物、動物の写真を作成したり、現実感のあるフェイクニュース写真を作成したりするために使用されます。

LOFI: 前 2 つよりもさらに洗練された顔処理を施した、写真レベルの精緻なポートレート モデル

(3) 2.5Dスタイルモデル

NeverEnding Dream:アニメやゲームのキャラクターの二次創作にLoraと組み合わせた「立体」的な2.5Dモデルに非常に適しています

フォトリアリズム: 優れた写真効果と創造性の余地

Guofeng3: 「文化的成果」を実現するための民族様式の絶妙なモデル

4. 解像度を拡大するためのツール

1. HD 修理 Hires.fix

アップスケール: 倍率、画像が元の解像度からどの程度拡大されるかを示します。

採用ステップ: HD 修復のサンプリング時間。HD 修復は 1 回再描画する必要があるため、サンプリング ステップ数を設定する必要があります。デフォルト値の 0 のままにしておきます。これは、設定したサンプリング反復数 (20) と一致します。

ノイズ除去強度: 再描画強度。グラフ内の再描画強度に相当します。

生成プロセス: SD は最初に低解像度のイメージを描画し、次にそれに基づいて 2 番目の高解像度のイメージを描画します。その本質は、この低解像度の完成した「写真イメージ」を一度取得し、それを潜在空間に送り返して再ノイズ除去し、より大きなイメージを取得することです。

高解像度修復の本質: 呼び出して再描画し、もう一度作成します。Vincent 図に適合します

  • アドバンテージ:

フレーム構成は変更しません (ランダム シードによって固定)。

複数人、複数頭の解決によって生じる問題を安定的に克服します。

操作はシンプル、明瞭、直観的です。

  • 欠陥:

それでも最大ビデオ メモリによって制限されます。

計算速度は比較的遅く、1 回の描画は通常の場合 2 ~ 3 回の描画に相当します。

時々「ドラマ追加」、不可解な追加要素あり

2、SDアップスケール

グラフ内の画像解像度を拡大するための優れたヘルパーです。

脚本:

SD アップスケールを選択

その描画プロセスは、高精細修復の「戻して描き直す」とは全く異なり、絵を4等分に切り出し、4枚ずつ1枚ずつ描いて貼り合わせて描画します。

機械的に 4 つの部分にカットしただけの場合、隣接するタイル間の継ぎ目に非常に鈍い遷移エッジが確実に存在するため、タイルのオーバーラップによるピクセルのオーバーラップが「バッファ」の役割を果たします。

アドバンテージ:

メモリ制限を突破してより大きな解像度を取得できる

高解像度の画像、細部まで優れた豊かな効果

欠陥:

分割と再描画のプロセスは比較的制御不可能です (意味上の誤解を招き、分割線の分割)

操作が面倒で比較的直感的ではない

時々「ドラマ追加」、不可解な追加要素あり

5. AIペイント入門拡張プラグイン

拡張機能に関連するすべての機能は、この「拡張機能」タブで一元的に保存および管理されます。

プラグインはルートディレクトリの「Extension」フォルダに統一してインストールされ、各拡張機能は別のフォルダになります。

1.中国語ローカリゼーション言語パック

GitHub - hanamizuki-ai/stable-diffusion-webui-localization-zh_Hans: SD-WebUI 簡体字中国語翻訳拡張機能

2. ギャラリーブラウザ

 GitHub - yfszzx/stable-diffusion-webui-images-browser:stable-diffusion-webui の画像参照

3. プロンプト単語の自動補完

 https://github.com/DominikDoom/a1111-sd-webui-tagcomplete

これは、ローカルの Booru シソーラスに基づいて実装されます。

このプラグインは中国語で入力し、その後英語に切り替えて入力することもできます。

4. プロンプトの言葉を逆にする

 https://github.com/toriato/stable-diffusion-webui-wd14-tagger.git

CLIP や DeepBooru よりも効率的な反転ツール。

5.高級なズームインとズームアウト

 https://github.com/Coyote-A/ultimate-upscale-for-automatic1111.git

インストールが完了すると、独立したタブはありませんが、スクリプト内に表示されます。

6. 部分的なリファインと再描画

https://github.com/hnmr293/sd-webui-llul 

5番目のツールと比較すると、全体像が特に大きくなるわけではありませんが、サイズが限られており、これ以上精緻化できない一部の部分が「拡大」されます。

それは、元の構造を変えることなく、画像により豊かなディテールをもたらすことにあります。

7. プロンプトワードの意味セグメンテーション

https://github.com/hnmr293/sd-webui-cutoff.git 

キューワード間の相互干渉を解決します。

延長の原則は次のとおりです。

各プロンプトワードの「説明」コンポーネントを抽出して個別に処理し、それを結合して元の絵画に戻します。

8. 無制限のズームアニメーションビデオ

https://github.com/v8hid/infinite-zoom-automatic1111-webui.git 

そのシーンは常に外側に拡張され、最終的にアニメーションビデオが生成されると想像できます。

6、ControlNetプラグイン

1. 概要

これ以前は、拡散モデルに基づく「AI ペインティング」は制御が非常に難しく、この絵の拡散を解除するプロセスはランダム性に満ちていました。

原則として、ControlNet と LoRA には多くの類似点があり、その位置付けは大規模な普及モデルを微調整する追加のネットワークです。その中心的な役割は、追加情報に基づいて拡散の方向を制御することです。

例えば「姿勢」ですが、プロンプトワードで「ダンス」と入力するだけで、画面上の文字やキャラクターは無数のダンス姿勢を持っている可能性があります。特定の「ポーズ」の記録を入力できるのがControlNetの本質です。 「情報」 描画をガイドするための絵。ControlNet は以下の情報を読み取ることができます。

2. インストール

 プラグインのダウンロード アドレス: GitHub - Mitobill/sd-webui-controlnet: ControlNet 用 WebUI 拡張機能 

 ダウンロード後、拡張機能ディレクトリに配置することもでき、再起動して有効になると、Wensheng 図または上の図の下部にプラグインが表示されます。

現時点では、ControlNet はまだ使用できません。機能するには、対応する制御モデルをダウンロードする必要があるためです。対応するモデルのダウンロード アドレスは次のとおりです。

lllyasviel/ControlNet-v1-1 · 抱き合う顔

モデルをダウンロードした後、それを ControlNet フォルダー内の models フォルダーに配置する必要があります。注意: 同じ名前の pth モデル ファイルと yaml 設定を一緒に配置する必要があります。

ControlNet プラグインの Annotator 機能を使用すると、ControlNet に役立つ追加情報を画像から抽出できます。

コントロール ウェイト: 画像内のこのコントロール エフェクトの強度を決定します。後の 2 つのオプションは、継続的な画像拡散のプロセスにおいて ControlNet にいつ参加するかに影響します。デフォルト値の 0 ~ 1 は、最初から最後まで有効であることを意味します。

3. マニホールドの 5 つの ControlNet モデルの比較

(1) オープンポーズモデル

体位提示の「生命線」をダイレクトに把握。

下の写真はオープンポーズハンドです

以下はopenpose-faceです

(2) 深さモデル

その焦点は、シーン、特に空間感のあるマルチレベル シーンの描写と復元にあります。

(3)キャニーモデル

画像処理分野のエッジ検出アルゴリズム。

(4) HEDモデル

全体的なエッジライン検出。

Canny よりも入力線がぼやけています。両者の比較は次のとおりです。

Canny はキャラクターの内部の細部にさらに注意を払っており、HED 処理では大きな輪郭のみが保持され、内部には実際にはさらに開発の余地があります。

(5)落書きモデル

落書き。

得る:

3、マルチコントロールネット

多重ControlNet

おすすめ

転載: blog.csdn.net/benben044/article/details/131107805