安定した拡散トレーニング Lora モデル

次のコンテンツを参照してください: https://www.bilibili.com/video/BV1Qk4y1E7nv/?spm_id_from=333.337.search-card.all.click&vd_source=3969f30b089463e19db0cc5e8fe4583a

1. Lora をトレーニングするための 2 つの重要なステップ

最初のステップは、トレーニングに使用する写真、つまり高品質の写真を準備することです。

2 番目の部分は、これらの写真、つまり正確なタグをマークすることです。

2. 画像の要件

推奨される枚数は 20 ~ 50 枚、最大 100 枚です。

悪い写真: ぼやけた写真、ゆがんだ動き、隠れた顔、複雑な背景のある写真 (背景を差し引いたもの)

解像度: sd2 をベースモデルとして使用する場合、768*768 以上である必要があります。

画像サイズ調整バッチ:https://www.birme.net/? target_width=512&target_height=512

画像フォーマットをバッチで調整: https://www.wdku.net/image/imageformat

3. 画像マーキング

2 つのプラグインをインストールする必要があります: Tagger と dataset tag editor (アドレス: https://github.com/toshiaki1729/stable-diffusion-webui-dataset-tag-editor )

(1)タガープラグイン

イメージはタグ情報の txt ファイルを生成します。通常、入力ディレクトリは出力ディレクトリと同じです。

(2)データセットタグエディタ

タグを処理する

1) 重複した単語を削除、重複したタグを削除

2) キャラクターの目、眉、鼻、髪の長さなど、キャラクターそのものを表す属性に属するタグを削除します。キャラクターに縛られている人は削除する必要があります。(将来的には lora 名に従ってこれらの特徴を直接生成する必要があるため、モデルは他のプロンプト単語を提供せずに lora 名に従ってこれらの特徴を直接学習する必要があります)

次のコンテンツを参照してください: https://www.jianshu.com/p/e8cb3ba45b1a

4. トレーニング

日本人が作成したトレーニング用グラフィック ツール kohya をインストールします。

(1) ダウンロード

プロジェクトアドレス: https://github.com/bmaltais/kohya_ss

ダウンロード後のサーバー上の場所: /data/work/xiehao/kohya_ss

(2) プロジェクトの依存関係をインストールする

ディレクトリを入力し、依存関係パッケージをインストールします: pip install -rrequirements.txt

(3) 実行用設定ファイルの生成

加速設定コマンドを実行します。私の構成は次のとおりです。

(4) トレーニングのグラフィカルインターフェイスを開始します

コマンドを実行します: python kohya_gui.py --listen 0.0.0.0 --server_port 12348 --inbrowser

5.実戦

(1) Baidu から 25 枚の Zhangluyi の写真をダウンロード

(2) 画像は 768*768 にトリミングされます

https://www.birme.net/?target_width=768&target_height=768

(3) すべての写真はjpt形式に変換されます

https://www.wdku.net/image/imageformat

(4) Tagプラグインを使用してタグを抽出する

バッチ抽出の方法

実行後、対応するtxtファイルがLinux上に生成されます。

(5) Dataset Tag Editor によるタグの処理

まず、重複とキャラクター特性プロンプトを削除します

次に、この変更を保存します。

(6) SDトレーニングモジュール内のトレーニングセットのファイル名を加工

生成されるファイル情報は以下のとおりです。

これらのファイルは 10_zly ディレクトリに配置する必要があります。ディレクトリ名の前の数値文字は、各トレーニング プロセス中にネットワークが 1 つのイメージをトレーニングする回数ですこのディレクトリの名前は非常に重要です。このバグを見つけるのに 1 時間かかりました

(7)コーヤでの研修

データセットの準備が完了したら、kohya でトレーニングできます。

まず、ベースモデル情報を設定します。

事前トレーニング済みモデル名またはパスで指定された Linux の場所に対応するモデルには、model_index.json、トークナイザー ディレクトリ、およびその他の情報が含まれている必要があり、セーフテンソル ファイルは 1 つだけであってはなりませんhttps://huggingface.co/digiplay/majicMIX_realistic_v4 (18G ) はgit lfs clone 経由でダウンロードできます

 このキーポイントは非常に重要であり、測位とダウンロードのプロセスに数時間かかりました

次に、トレーニング ディレクトリを設定します。

次に、トレーニングパラメータを設定します

オプティマイザーはデフォルト値を使用できません。現在、ソース コードでサポートされているのは次の 5 種類のみです。

1 つずつ試して、どれがエラーを報告しないかを確認してください。

実行が成功すると、次の図にログが表示されます。トレーニングには約 6G の GPU メモリ リソースが必要で、トレーニング時間は 20 分、最終的に生成される lora は約 10M です。

(8) 安定拡散ウェブイにおける lora モデルの効果の検出

トレーニングが完了したら、Lora ディレクトリを SD ルート ディレクトリ extensions/sd-webui-Additional-networks/models/lora の下に配置します。

Webui 上のインターフェース操作は次のとおりです。

おすすめ

転載: blog.csdn.net/benben044/article/details/132365625