AIペインティング - 建築図面支援設計のためのモデルトレーニング

要約

2023-06-18 日曜日の杭州は小雨

注: 昨日はとても疲れていました。10 時ごろ、少し横になって寝ようと思いました。不思議です。AI で絵を描くと、夜にとても奇妙な夢を見ます。言葉では言い表せない気分です。なんとも言えない不快さ。
人間が宇宙の偶然の奇跡なのか、それとも確率統計に基づく必然の現象なのかを明らかにする必要はなく、本来の生物学的欲求を維持している限り、好奇心が猫を殺す最も一般的な方法であることがよくあります。

タスクリスト:
a. LORA トレーニングスクリプト;
b. トレーニングセットの選択;
c. カットとマーキング;
d. モデルの生成;

導入

LoRA の正式名は LoRA: Low-Rank Adaptation of Large Language Models です。安定拡散 (SD) モデルのプラグインとして理解できます。ハイパーネットワークや controlNet と同様に、少量のデータを使用せずに使用します。 SD モデルを変更します。データは、カスタマイズされたニーズを達成するために、絵画スタイル/IP/キャラクターをトレーニングします。必要なトレーニングリソースは、SD モデルをトレーニングするよりもはるかに少なく、コミュニティユーザーや個人の開発者に非常に適しています。LoRA はもともと NLP 分野で GPT-3 (ChatGPT の前身) などのモデルを微調整するために使用されていました。GPTパラメータの数が1000億を超え、学習コストが高すぎるため、LoRAでは低ランクの行列（低ランク行列）のみを学習させ、使用時にLoRAモデルのパラメータをSDモデルに注入することで、学習コストを変化させる手法が採用されています。 SD モデル。スタイルを生成するか、新しいキャラクター/IP を SD モデルに追加します。データ式は次のように表されます。ここで、
は初期 SD モデルのパラメータ (Weights)、
は LoRA モデルのパラメータである低ランク行列、
LORA の影響を受けた後の最終的な SD モデルのパラメータを表します。モデル。全体のプロセスは単純な線形関係であり、元の SD モデルと LORA モデルを重ね合わせた、まったく新しい効果を備えたモデルと考えることができます。

有名なモデル共有 Web サイト https://civitai.com/ には、多数の SD モデルと LoRA モデルがありますが、そのうち SD モデルは 2,000 個のみで、残りの 40,000 個は基本的に LoRA などの小規模なモデルです。たとえば、下の図では、水墨画と原神八重神子は、特定の絵画スタイルとキャラクター IP を実現するための LoRA モデルです。

応用演習

1. LORA モデルのトレーニングスクリプト

方法 1: ドリームブース

Dreambooth は、少数の画像を使用してモデルを学習する手法であり、深層学習に基づいた画像スタイルの転送技術です。Dreambooth の利点の 1 つは、ユーザーが専門的なアートスキルを必要とせずに、高品質のアートワークを生成できることです。

特徴：

モデルファイルは 2 ～ 4GB と大きいです
顔、ペット、オブジェクトのトレーニングに適しています
使用時にモデルをロードする必要があります
モデルの融合を実行し、他のモデルファイルと結合して、新しいモデルを形成できます。
ローカルトレーニングには、12GB 以上の高グラフィックスメモリが必要です
推奨育成キャラクター※の絵柄

方法 2: ローラ

Lora は、少数の画像を使用してモデルをトレーニングする方法です。Dreambooth とは異なり、LoRA のトレーニングは高速です。Dreambooth は実行に約 20 分かかり、数 GB のモデルが生成されますが、LoRA はトレーニングの完了にわずか 8 分かかり、約 5 MB のモデルが生成されます。kohya_ss GUI を使用することをお勧めします。。

特徴：

モデルのサイズは中程度、8～140MB
使用する際は、対応するloraモデルを読み込むだけで、複数の異なる(loraモデル+ウェイト)を重ねて使用することができます。
loraモデルは他のモデルと融合可能
ローカルトレーニングには中程度のビデオメモリ (7GB 以上) が必要です
推奨トレーニング数値

** ダウンロードアドレス **
リンク: https://pan.baidu.com/s/1xrsbVvpkkPs7dzJ3nY2yuQ
抽出コード: goat

# 下载项目到本地
git clone https://github.com/bmaltais/kohya_ss.git

# 运行设置脚本
setup.bat

2. 優れたトレーニングセットの選択

** パラメータ **
選択基準: 一貫性のある統一されたスタイル;
トレーニングセットの数: 約 30 枚の画像 (100 枚以内、そうでない場合は過剰適合しやすくなります)。

**対象**
自己想定: 私は UI デザイナーです。気に入ったアイコンのデザインがありますが、有料です。彼のスタイルを学び、似たようなアイコンをデザイン用にカスタマイズするだけで済みます。対象の Web サイト (Web サイトを選択してください)いいね
）アイコン）：https://www.iconfont.cn

3. カットとマーキング

** パラメータ **
グラフィックカード: 8G 以降
画像サイズ: 512 512/512 768/768*768;
ラベルパラメータ: 色または特定の制限的な単語を除外します。

**作物**

图片源路径: F:\AILab\AI 绘画\图标训练集\icon\in-001
图片目标路径: F:\AILab\AI 绘画\图标训练集\icon\out-001

** マーキング**

输入目录: F:\AILab\AI 绘画\图标训练集\icon\out-001
输出目录: F:\AILab\AI 绘画\图标训练集\icon\out-001

4. モデルのトレーニング

** トレーニングセット**

训练图片路径   F:\AILab\AI 绘画\lora-scripts\train\001-icon\5_icon

# 备注: 001-icon 训练图片的路径，可随意；5_icon，其中的数字表示每张图片训练的次数;

**下型を選択してください**

训练底模: F:\AILab\AI 绘画\lora-scripts\sd-models
SD模型位置: F:\AILab\AI 绘画\sd-webui-aki-v4\models\Stable-diffusion\chilloutmix_NiPrunedFp32Fix.safetensors

**トレーニングパラメータ**

**トレーニングを実行します**

5. モデルテスト（精密テスト）

**パラメータ設定**

文生图描述: a man in a suit and bow tie <lora:vpc123-caixukun:1>
训练就绪的模型: vpc123-caixukun.safetensors
底模: chilloutmix_NiPrunedFp32Fix.safetensors
# 测试时，底模和 lora 最好配套，不然可能文不对题

グラフを生成します:

要約する

AI 絵画界の優れたツール、Cai Xukun の正確なテスト。現代の 2 次元のティーンエイジャーは、容赦なく嘲笑するのがとてもストレートです。テストモデルでは、生成されたキャラクターのスタイルと特徴をまだ見ることができますが、それはなくなっています回り道が多いベースモデルとベースモデルを基に学習したloraモデルを併用する必要があるベースモデルの中には画像特徴量のキーワードが含まれていないものもあり、キャラクターモデルと建物モデルの学習用に選択するモデルは異なり、必要なモデルが存在する実際には合理的な選択とトレーニングが必要です。

QA

問題 1: スクリプトの実行権限がない

无法加载文件 F:\AILab\AI 绘画\lora-scripts\train.ps1。未对文件 F:\AILab\AI 绘画\lora-scripts\train.ps1 进 行数字签名。无法在当前系统上运行该脚本。有关运行脚本和设置执行策略的详细信息，请参阅 https:/go.microsoft.com/fwlink/?Li nkID=135170 中的 about_Execution_Policies

# 开启脚本执行能力 
set-ExecutionPolicy RemoteSigned

問題 2: Python 環境変数
activate の設定に失敗しました: 「activate」項目をコマンドレット、関数、スクリプトファイル、または実行可能なプログラムの名前として認識できません。名前のスペルを確認し、パスが含まれている場合は、パスが正しいことを確認して再試行してください。場所行: 1 文字: 1

問題 3: トレーニングスクリプトの依存関係の欠如

解決：

cd F:\AILab\AI 绘画\lora-scripts\sd-scripts\
pip install -r .\requirements.txt