ControlNet 1.1 がリリースされ、14 モデルすべてがオープンソースになりました。

出典: https://github.com/lllyasviel/ControlNet-v1-1-nightly
ControlNet 1.1 は ControlNet 1.0 とまったく同じアーキテクチャを持ち、ControlNet 1.1 には堅牢性と結果の品質が向上した以前のモデルがすべて含まれており、いくつかの新しいモデルが追加されています。

モデル命名規則の更新

ControlNet 1.1 から、標準 ControlNet 命名規則 (SCNNR) を使用してすべてのモデルに名前を付けるようになりました。これにより、作成者はユーザー エクスペリエンスが向上することを期待しています。


ControlNet 1.1 には 14 個のモデル (11 個は実稼働準備完了、2 個は実験用、1 個は未完成) が含まれています。

control_v11p_sd15_canny
control_v11p_sd15_mlsd
control_v11f1p_sd15_depth
control_v11p_sd15_normalbae
control_v11p_sd15_seg
control_v11p_sd15_inpaint
control_v11p_sd15_lineart
control_v11p_sd15s2_lineart_anime
control_v11p_sd15_openpose
control_v11p_sd15_scribble
control_v11p_sd15_softedge
control_v11e_sd15_shuffle
control_v11e_sd15_ip2p
control_v11u_sd15_tile

モデルのダウンロード アドレス: https://huggingface.co/lllyasviel/ControlNet-v1-1/tree/main

ControlNet 1.1 の深さ

モデルファイル:

Model file: control_v11f1p_sd15_depth.pth
Config file: control_v11f1p_sd15_depth.yaml

モデル効果:

Depth1.1 の改善:

  1. 以前の cnet 1.0 のトレーニング データセットにはいくつかの問題がありました。(1) 少数のグレースケール ポートレートが何千回もコピーされ (!!)、以前のモデルではグレースケール ポートレートが生成される可能性が多少ありました。(2) 一部の画像低品質、非常にぼやけた、または明らかな JPEG アーティファクト; (3) 少数の画像に、データ処理スクリプトのエラーが原因でペアリング プロンプト エラーが発生します。新しいモデルはトレーニング データセットに関するすべての問題を修正しており、多くの場合、より合理的になるはずです。
  2. 新しいディープ モデルは、比較的偏りのないモデルです。特定の深度推定方法によって特定のタイプの深度でトレーニングされたわけではありません。プリプロセッサを過剰適合させることはありません。これは、異なる深度推定値、異なるプリプロセッサ解像度、さらには 3D エンジンによって作成された実際の深度でも、モデルがより適切に機能することを意味します。
  3. ランダムな左右反転など、いくつかの合理的なデータ拡張がトレーニングに適用されます。
  4. モデルは深さ 1.0 から復元され、深さ 1.0 が正常に機能したすべてのケースで正常に機能するはずです。深さ 1.0 が失敗する多くの場合、深さ 1.1 はうまく機能します。
  5. 384 プリプロセッサ解像度で Midas Depth (webui プラグインの「Depth」) を使用する場合、深さ 1.0 と 1.1 の差は最小限になるはずです。ただし、他のプリプロセッサ解像度や leres や zoe などの他のプリプロセッサを試した場合は、深さ 1.1 の方が 1.0 よりも若干優れていることが予想されます。

ControlNet 1.1 ノーマル

モデルファイル:

Model file: control_v11p_sd15_normalbae.pth
Config file: control_v11p_sd15_normalbae.yaml



Normal 1.1 の改良点:

  1. Normal 1.0 の Normal-from-midas アプローチは合理的でも正しくもありません。この方法は多くの画像ではうまく機能しません。ノーマル 1.0 モデルは、レンダリング エンジンによって作成された実際のノーマル マップを解釈できません。
  2. この Normal 1.1 は、比較的正しいプロトコル (NYU-V2 の視覚化メソッド) を使用して法線マップを推定するようにプリプロセッサがトレーニングされているため、より合理的です。これは、色が正しい限り (前面が青、左が赤、上が緑)、Normals 1.1 がレンダリング エンジンからの実際の法線マップを解釈できることを意味します。
  3. テストでは、このモデルはより堅牢であり、ディープ モデルと同様のパフォーマンスを達成できます。以前の CNET 1.0 では、Normal 1.0 はあまり一般的に使用されていませんでした。しかし、この Normal 2.0 は大幅に改良されており、より頻繁に使用される可能性があります。

ControlNet 1.1 キャニー

モデルファイル:

Model file: control_v11p_sd15_canny.pth
Config file: control_v11p_sd15_canny.yaml


Canny 1.1 の改良点:

  1. 以前の cnet 1.0 のトレーニング データセットにはいくつかの問題がありました。(1) 少数のグレースケール ポートレートが何千回もコピーされ (!!)、以前のモデルではグレースケール ポートレートが生成される可能性が多少ありました。(2) 一部の画像低品質、非常にぼやけた、または明らかな JPEG アーティファクト; (3) データ処理スクリプトのエラーにより、少数の画像にペアリング エラーがあります。新しいモデルはトレーニング データセットに関するすべての問題を修正しており、多くの場合、より合理的になるはずです。
  2. Canny モデルは最も重要な (おそらく最も一般的に使用されている) ControlNet モデルの 1 つであるため、資金を使用して 8 Nvidia A100 80G バッチサイズ 8×32=256 のマシンで 3 日間トレーニングし、費用は 72×30 = 2160 ドル ( 8 A100 80G、1 時間あたり 30 ドル)。このモデルはCanny 1.0から復元されました。
  3. ランダムな左右反転など、いくつかの合理的なデータ拡張がトレーニングに適用されます。
  4. ControlNet を評価するのは困難ですが、Canny 1.1 は Canny 1.0 よりも堅牢で、ビジュアル品質が高いことがわかりました。

ControlNet 1.1 MLSD

Model file: control_v11p_sd15_mlsd.pth
Config file: control_v11p_sd15_mlsd.yaml


MLSD 1.1 の改良点:

  1. 以前の cnet 1.0 のトレーニング データセットにはいくつかの問題がありました。(1) 少数のグレースケール ポートレートが何千回もコピーされ (!!)、以前のモデルではグレースケール ポートレートが生成される可能性が多少ありました。(2) 一部の画像低品質、非常にぼやけた、または明らかな JPEG アーティファクト; (3) データ処理 3. スクリプトのエラーにより、少数の画像にペアリング プロンプト エラーが発生します。新しいモデルはトレーニング データセットに関するすべての問題を修正しており、多くの場合、より合理的になるはずです。
  2. トレーニング データセットは MLSD を使用して拡大され、16 行を超える画像が検索され、300K の画像が追加されました。
  3. ランダムな左右反転など、いくつかの合理的なデータ拡張がトレーニングに適用されます。
  4. MLSD 1.0 から再開し、A100 80G で 200 GPU 時間でトレーニングを続けます。

ControlNet 1.1 スクリブル

Model file: control_v11p_sd15_scribble.pth
Config file: control_v11p_sd15_scribble.yaml



Scribble 1.1 の改良点:

  1. 以前の cnet 1.0 のトレーニング データセットにはいくつかの問題がありました。(1) 少数のグレースケール ポートレートが何千回もコピーされ (!!)、以前のモデルではグレースケール ポートレートが生成される可能性が多少ありました。(2) 一部の画像低品質、非常にぼやけた、または明らかな JPEG アーティファクト; (3) データ処理スクリプトのエラーにより、少数の画像にペアリング エラーがあります。新しいモデルはトレーニング データセットに関するすべての問題を修正しており、多くの場合、より合理的になるはずです。
  2. ユーザーは非常に太い落書きを描くことを好む場合があることがわかりました。したがって、落書きを合成するために、より積極的なランダム形態学的変換を使用します。比較的太い落書きでも (トレーニング データの最大幅は 512 キャンバスで 24 ピクセル幅の落書きですが、それより広い落書きでも問題なく動作するようです。最小幅が 1 ピクセルであれば、モデルも問題なく動作するはずです)。
  3. Scribble 1.0 から復元され、A100 80G で 200 GPU 時間で継続されました。

ControlNet 1.1 ソフトエッジ

モデルファイル:

Model file: control_v11p_sd15_softedge.pth
Config file: control_v11p_sd15_softedge.yaml

モデル効果:
ControlNet 1.1 の新機能: 「SoftEdge_safe」と呼ばれる新しいタイプのソフト エッジが追加されました。これは、HED または PIDI がソフト推定で元のイメージの破損したグレースケール バージョンを隠す傾向があり、この隠しモードが ControlNet の注意をそらす可能性があり、悪い結果につながる可能性があるためです。解決策は、隠れたパターンを完全に除去するために、前処理を使用してエッジ マップを複数のレベルに量子化することです。


Soft Edge 1.1 の改良点:

  1. Soft Edge 1.1 は、ControlNet では以前は HED 1.0 として知られていました。
  2. 以前の cnet 1.0 のトレーニング データセットにはいくつかの問題がありました。(1) 少数のグレースケール ポートレートが何千回もコピーされ (!!)、以前のモデルではグレースケール ポートレートが生成される可能性が多少ありました。(2) 一部の画像低品質、非常にぼやけた、または明らかな JPEG アーティファクト; (3) データ処理スクリプトのエラーにより、少数の画像にペアリング エラーがあります。新しいモデルはトレーニング データセットに関するすべての問題を修正しており、多くの場合、より合理的になるはずです。
  3. Soft Edge 1.1 は、HED 1.0 よりも大幅に (ほぼ 100% の確率で) 優れています。これは主に、HED または PIDI 推定器が破損した元の画像のグレースケール バージョンをソフト エッジ マップで隠す傾向があるのに対し、以前のモデルである HED 1.0 は境界を意識した拡散を実行するのではなく、隠れた破損した画像を回復するためにオーバーフィットするためです。Soft Edge 1.1 トレーニングでは、75% の「安全な」フィルターを使用して、このような隠れた破損したグレースケール画像の内部制御マップを削除しました。これにより、Soft Edge 1.1 は非常に強力になります。実際のテストでは、Soft Edge 1.1 はディープ モデルと同様に使用可能であり、今後さらに頻繁に使用されると考えられます。

ControlNet 1.1 セグメンテーション

モデルファイル:

Model file: control_v11p_sd15_seg.pth
Config file: control_v11p_sd15_seg.yaml

モデルの効果:


セグメンテーション 1.1: 改善:

  1. COCOプロトコルをサポートします。以前の Segmentation 1.0 は約 150 色をサポートしていましたが、Segmentation 1.1 はさらに 182 色のココをサポートしています。
  2. セグメント 1.0 から戻りました。以前のエントリはすべて引き続き機能するはずです。

ControlNet 1.1 オープンポーズ

モデルファイル:

Model file: control_v11p_sd15_openpose.pth
Config file: control_v11p_sd15_openpose.yaml

モデル効果:


Openpose 1.1 からの改善点:

  1. このモデルの改善は主に、OpenPose の実装の改善に基づいています。pytorch の OpenPose と CMU の C++ openpose の違いを注意深く確認しました。プロセッサーは、特に手動での精度がさらに向上するはずです。プロセッサの改良により、Openpose 1.1 の改良が行われました。
  2. より多くの入力 (手と顔) をサポートします。
  3. 以前の cnet 1.0 のトレーニング データセットにはいくつかの問題がありました。(1) 少数のグレースケール ポートレートが何千回もコピーされ (!!)、以前のモデルではグレースケール ポートレートが生成される可能性が多少ありました。(2) 一部の画像低品質、非常にぼやけた、または明らかな JPEG アーティファクト; (3) データ処理スクリプトのエラーにより、少数の画像にペアリング エラーがあります。新しいモデルはトレーニング データセットに関するすべての問題を修正しており、多くの場合、より合理的になるはずです。

ControlNet 1.1 線画

モデルファイル

Model file: control_v11p_sd15_lineart.pth
Config file: control_v11p_sd15_lineart.yaml

モデル効果:


ControlNet 1.1 アニメ線画

モデルファイル

Model file: control_v11p_sd15s2_lineart_anime.pth
Config file: control_v11p_sd15s2_lineart_anime.yaml

モデル効果:

ControlNet 1.1 シャッフル

ControlNet 1.1 Pix2Pix への命令

モデルファイル:

Model file: control_v11e_sd15_ip2p.pth
Config file: control_v11e_sd15_ip2p.yaml

モデル効果:


ControlNet 1.1 インペイント

モデルファイル:

Model file: control_v11p_sd15_inpaint.pth
Config file: control_v11p_sd15_inpaint.yaml

モデル効果:

ControlNet 1.1 タイル (未完成)


おすすめ

転載: blog.csdn.net/yanqianglifei/article/details/130175604