次のコンテンツを参照してください: https://www.bilibili.com/video/BV1Qk4y1E7nv/?spm_id_from=333.337.search-card.all.click&vd_source=3969f30b089463e19db0cc5e8fe4583a
1. Lora をトレーニングするための 2 つの重要なステップ
最初のステップは、トレーニングに使用する写真、つまり高品質の写真を準備することです。
2 番目の部分は、これらの写真、つまり正確なタグをマークすることです。
2. 画像の要件
推奨される枚数は 20 ~ 50 枚、最大 100 枚です。
悪い写真: ぼやけた写真、ゆがんだ動き、隠れた顔、複雑な背景のある写真 (背景を差し引いたもの)
解像度: sd2 をベースモデルとして使用する場合、768*768 以上である必要があります。
画像サイズ調整バッチ:https://www.birme.net/? target_width=512&target_height=512
画像フォーマットをバッチで調整: https://www.wdku.net/image/imageformat
3. 画像マーキング
2 つのプラグインをインストールする必要があります: Tagger と dataset tag editor (アドレス: https://github.com/toshiaki1729/stable-diffusion-webui-dataset-tag-editor )
(1)タガープラグイン
イメージはタグ情報の txt ファイルを生成します。通常、入力ディレクトリは出力ディレクトリと同じです。
(2)データセットタグエディタ
タグを処理する
1) 重複した単語を削除、重複したタグを削除
2) キャラクターの目、眉、鼻、髪の長さなど、キャラクターそのものを表す属性に属するタグを削除します。キャラクターに縛られている人は削除する必要があります。(将来的には lora 名に従ってこれらの特徴を直接生成する必要があるため、モデルは他のプロンプト単語を提供せずに lora 名に従ってこれらの特徴を直接学習する必要があります)
次のコンテンツを参照してください: https://www.jianshu.com/p/e8cb3ba45b1a
4. トレーニング
日本人が作成したトレーニング用グラフィック ツール kohya をインストールします。
(1) ダウンロード
プロジェクトアドレス: https://github.com/bmaltais/kohya_ss
ダウンロード後のサーバー上の場所: /data/work/xiehao/kohya_ss
(2) プロジェクトの依存関係をインストールする
ディレクトリを入力し、依存関係パッケージをインストールします: pip install -rrequirements.txt
(3) 実行用設定ファイルの生成
加速設定コマンドを実行します。私の構成は次のとおりです。
(4) トレーニングのグラフィカルインターフェイスを開始します
コマンドを実行します: python kohya_gui.py --listen 0.0.0.0 --server_port 12348 --inbrowser
5.実戦
(1) Baidu から 25 枚の Zhangluyi の写真をダウンロード
(2) 画像は 768*768 にトリミングされます
https://www.birme.net/?target_width=768&target_height=768
(3) すべての写真はjpt形式に変換されます
https://www.wdku.net/image/imageformat
(4) Tagプラグインを使用してタグを抽出する
バッチ抽出の方法
実行後、対応するtxtファイルがLinux上に生成されます。
(5) Dataset Tag Editor によるタグの処理
まず、重複とキャラクター特性プロンプトを削除します
次に、この変更を保存します。
(6) SDトレーニングモジュール内のトレーニングセットのファイル名を加工
生成されるファイル情報は以下のとおりです。
これらのファイルは 10_zly ディレクトリに配置する必要があります。ディレクトリ名の前の数値文字は、各トレーニング プロセス中にネットワークが 1 つのイメージをトレーニングする回数です。このディレクトリの名前は非常に重要です。このバグを見つけるのに 1 時間かかりました。
(7)コーヤでの研修
データセットの準備が完了したら、kohya でトレーニングできます。
まず、ベースモデル情報を設定します。
事前トレーニング済みモデル名またはパスで指定された Linux の場所に対応するモデルには、model_index.json、トークナイザー ディレクトリ、およびその他の情報が含まれている必要があり、セーフテンソル ファイルは 1 つだけであってはなりません。https://huggingface.co/digiplay/majicMIX_realistic_v4 (18G ) はgit lfs clone 経由でダウンロードできます。
このキーポイントは非常に重要であり、測位とダウンロードのプロセスに数時間かかりました。
次に、トレーニング ディレクトリを設定します。
次に、トレーニングパラメータを設定します
オプティマイザーはデフォルト値を使用できません。現在、ソース コードでサポートされているのは次の 5 種類のみです。
1 つずつ試して、どれがエラーを報告しないかを確認してください。
実行が成功すると、次の図にログが表示されます。トレーニングには約 6G の GPU メモリ リソースが必要で、トレーニング時間は 20 分、最終的に生成される lora は約 10M です。
(8) 安定拡散ウェブイにおける lora モデルの効果の検出
トレーニングが完了したら、Lora ディレクトリを SD ルート ディレクトリ extensions/sd-webui-Additional-networks/models/lora の下に配置します。
Webui 上のインターフェース操作は次のとおりです。