安定した拡散 - SD v1.6+ バージョンで BLIP Interrogate CLIP (CLIP 逆プッシュ) 関数の RuntimeError 例外が発生する

私の CSDN をフォローしてください: https://spike.blog.csdn.net/
この記事のアドレス: https://spike.blog.csdn.net/article/details/132994678

画像

麦橘写实_MajicMIX_Realistic_v6モデルからの画像

SD v1.6 バージョンをアップグレードすると、CLIP リバース プッシュ機能が使用できなくなります。つまり、次のとおりです。
SD

参考:画像反転(Interrogate) プロンプトワードアルゴリズム(BLIP、DeepBooru)

エラーログ:

# ...
  File "stable_diffusion_webui/repositories/BLIP/models/med.py", line 277, in forward
    self_outputs = self.self(
  File "stable_diffusion_webui/venv/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1501, in _call_impl
    return forward_call(*args, **kwargs)
  File "stable_diffusion_webui/repositories/BLIP/models/med.py", line 178, in forward
    attention_scores = torch.matmul(query_layer, key_layer.transpose(-1, -2))
RuntimeError: The size of tensor a (2) must match the size of tensor b (4) at non-singleton dimension 0

解決策: SD の CLIP 逆関数はGitHub - salesforce/BLIPを呼び出します。プロジェクトは 2022.9 に最後に更新されました。全体的な Transformer フレームワークは比較的古く、現在はバージョン 4.26.1 のみをサポートしています。

pip install transformers==4.26.1
pip install tokenizers==0.11.1

ただし、トランスフォーマの SD v1.6 バージョンは 4.30.2 に更新することが推奨されているため、競合が発生します。以下requirements.txtを参照してくださいrequirements_versions.txt

transformers==4.30.2

BLIP は現在メンテナンスされていないためtransformers==4.26.1、BLIP の Transformer をベースにすることしかできません。

参考:

同時に、stable-diffusion-webui/modules/launch_utils.pyスクリプトを変更して GitHub エージェントを追加することで、https://ghproxy.com/WebUI プロジェクトを開始する前処理の速度を向上させることができ、バージョンを更新する必要がある場合は、対応するプロジェクト アドレスに従って更新できます。で:

  • BLIP プロジェクトは次の場所にあります。stable-diffusion-webui/stable_diffusion_webui/repositories/BLIP
  • BLIP モデルは次の場所にあります。stable_diffusion_webui/models/BLIP/model_base_capfilt_large.pth

今すぐ:

def prepare_environment():
# ...
    clip_package = os.environ.get('CLIP_PACKAGE', "https://ghproxy.com/https://github.com/openai/CLIP/archive/d50d76daa670286dd6cacf3bcd80b5e4823fc8e1.zip")
    openclip_package = os.environ.get('OPENCLIP_PACKAGE', "https://ghproxy.com/https://github.com/mlfoundations/open_clip/archive/bb6e834e9c70d9c27d0dc3ecedeebeaeb1ffad6b.zip")

    stable_diffusion_repo = os.environ.get('STABLE_DIFFUSION_REPO', "https://ghproxy.com/https://github.com/Stability-AI/stablediffusion.git")
    stable_diffusion_xl_repo = os.environ.get('STABLE_DIFFUSION_XL_REPO', "https://ghproxy.com/https://github.com/Stability-AI/generative-models.git")
    k_diffusion_repo = os.environ.get('K_DIFFUSION_REPO', 'https://ghproxy.com/https://github.com/crowsonkb/k-diffusion.git')
    codeformer_repo = os.environ.get('CODEFORMER_REPO', 'https://ghproxy.com/https://github.com/sczhou/CodeFormer.git')
    blip_repo = os.environ.get('BLIP_REPO', 'https://ghproxy.com/https://github.com/salesforce/BLIP.git')
#...

注: 公式 Web サイトのモデル アドレスはhttps://storage.googleapis.com/sfr-vision- language-research/BLIP/models/model_base_capfilt_large.pth です。これは、SD が推奨するモデルmodel_base_caption_capfilt_large.pth、つまり 2.0G よりも大きいです。 800M。

         files = modelloader.load_models(
             model_path=os.path.join(paths.models_path, "BLIP"),
-            model_url='https://storage.googleapis.com/sfr-vision-language-research/BLIP/models/model_base_caption_capfilt_large.pth',
+            model_url='https://storage.googleapis.com/sfr-vision-language-research/BLIP/models/model_base_capfilt_large.pth',^M
             ext_filter=[".pth"],
-            download_name='model_base_caption_capfilt_large.pth',
+            download_name='model_base_capfilt_large.pth',^M
         )

New Bing 経由の画像の説明:

豪華な部屋の椅子に座っている人の写真。
黒と白のゼブラ柄のドレスと黒のハイヒールを着ています。
椅子は明るいベージュ色で、背もたれと肘掛けが湾曲しています。
部屋には白いカーテンと大きな窓があります。壁には金枠の鏡、
床は明るい色の木材で作られており、
ドレスの大胆で印象的な模様と、部屋の柔らかくエレガントな色とのコントラストが現れ、
もたれかかっているとリラックスして快適に見えるようです椅子に座って足を組む
写真は、その人のスタイルやセンスが表れるファッション雑誌や個人のブログ用に撮影されるかもしれません。
部屋の美しさと豪華さを表現するため、ホテルの広告や旅行日記としても使用される可能性があります。
写真は、好奇心や興味だけでなく、洗練された魅力的な印象を与えます。

画像
完全なプロモーションワード:

(傑作、最高品質: 1.2)、非常に詳細な、非常に詳細な、実際の写真、ビューアを
見て、体に面したビューア、240D ラップヒップ極厚パンスト、黒いパンストを着て
豪華な部屋の椅子に座っている人の写真
白いゼブラ柄のドレスと黒いハイヒール、
椅子は明るいベージュ色で、背もたれと肘掛けが湾曲しており、
部屋には大きな窓があり、白いカーテンがあり、壁には金枠の鏡があり、
床は明るい色の木材でできており、
ドレスの大胆で印象的なパターンと、部屋の柔らかくエレガントな色合いのコントラストを示し、
椅子にもたれかかったり足を組んだりする姿はリラックスして快適であるように見えます。
その人のスタイルやセンスを表現するため、ファッション雑誌や個人のブログ用に撮影されることもありますし、
お部屋の美しさや高級感を表現するため、ホテルの広告や旅行記などに使用されることもあります。
洗練さと魅力、そして好奇心と興味の印象、
(靴、足:1.2)、手、体型がいい、
(写実的、写実的:1.2)、
<lora:more_details:0.4><lora:clothing_adjuster_v2:-0.8>
否定的なプロンプト: (ng_deepnegative_v1_75t:1.3)、(negative_hand) )、(badhandv4)、
(negative_feet_v2:0.5)、
胸の谷間、臀部、
腕の欠損、脚の欠損、余分な腕、余分な脚、突然変異した脚、余分な四肢、奇形の四肢、浮遊四肢、切断された四肢、
悪い解剖学、悪いプロポーション、変形、長い首、長い脚、
最悪の品質、悪い品質、JPEG アーティファクト、低解像度、標準品質、低品質、
EasyNegative、
ステップ: 30、サンプラー: DPM++ 2M SDE Karras、CFG スケール: 7、シード: 2386674497、サイズ: 512x768、モデルハッシュ: e4a30e4607、モデル: 麦橘写实_MajicMIX_Realistic_v6、ノイズ除去強度: 0.3、ADDetailer モデル: face_yolov8n.pt、ADetailえーっとプロンプト: “asian face,beautiful face,”、ADetailer の信頼度: 0.3、ADetailer の拡張/侵食: 4、ADetailer マスク ブラー: 4、ADetailer のノイズ除去強度: 0.4、ADetailer の修復のみマスク: True、ADetailer の修復パディング: 32、ADetailer のバージョン: 23.9.2、採用アップスケール: 2、採用ステップ: 5、採用アップスケーラー: 4x-UltraSharp、Lora ハッシュ: 「more_details: 3b8aa1d351ef、clothing_adjuster_v2: f038e3a5b67b​​」、TI ハッシュ: 「ng_deepnegative_v1_75t: 54e7e4826d53」 、negative_hand: 73b524a2da12、badhandv4: 5e40d722fc3d 、negative_feet_v2: df90b1ff666d、EasyNegative: 66a7279a88dd”、バージョン: v1.6.0

おすすめ

転載: blog.csdn.net/u012515223/article/details/132994678