新世代の「マット マップ」アーティファクト、IP アダプターの完全なアプリケーション解釈

導入

lora のトレーニングが不要で、1 枚の画像でスタイル転送が可能で、複数画像や複数特徴の抽出もサポートすると同時に、その強力な拡張機能により、ダイナミック プロンプト マトリックス、コントロールネットなどへの接続も可能です。これは、AIGC の旅をより効率的かつ簡単にするための新しい「パッド」「ピクチャー」メソッドである IP アダプターです。



どれも「クッション絵」 あなたの頭の中にある絵を誰が復元できるでしょうか?

「マット絵」という概念は誰もがよく知っているはずですが、以前はプロンプトを使って頭の中にある絵を正確に表現できなかったとき、最も簡単な方法は近似的な絵を見つけることであり、その後 img2img プロセスが開始され、すべてが行われました。

img2img はシンプルではありますが、プロンプトの復元が不十分であったり、生成される画像の多様性が弱いなど、回避できない制限もあり、特に多層制御でコントロールネットを追加する必要がある場合は、画像、モデルの組み合わせを参照してください。慎重に選択しないと、写真の影響でその場で意見が分かれてしまうこともよくあります...



しかし今、新しい「マット マップ」アーティファクトである IP アダプターが登場しました。これを解釈する前に、まずその効果を直観的に感じてみましょう。





その効果はかなり爆発的であると言えますが、IP アダプターが最終的な答えなのでしょうか?それはどの程度一般化可能ですか?互換性は十分ですか?迅速なサポートについてはどうですか?本当に実際の業務に統合したい場合、どのような拡張機能が備わっているのでしょうか?一つずつ見ていきましょう。

IP アダプターの主な利点は、関心のあるものだけを描画できることです

IP-Adapter と img2img は両方とも動作中の「マット マップ」ですが、その基礎となる実装は互いに何の関係もないと言えます。

ざっくりとしたわかりやすい例で言えば、「IP-Adapter」と「img2img」という 2 人の画家が、男性を描くようにというプロンプトを与えられた場合、参考画像を提供しなくても、おそらく男性を描くでしょう。しかし、図 2 への参照を追加すると、この 2 つの違いが明らかになります。



img2img は、参考画像に直接被せて模写を始めるのと同じです。男を描きたいのはわかっていますが、虎を基準に修正してしまいます。どうしてもぎこちなくなります。途中で虎と男は必ず混乱するだろう、無理やり混ぜたものを描く、絵が来る。このプロセスでは、参照画像がより重要であり、すべてが参照画像に基づいて描画され、結果は参照画像に偏るためです。

 



IP アダプターはコピーするのではなく、実際に自分で絵を描きます。プロンプトを常に覚えており、人間を描きたいことを認識していました。むしろ、虎と虎の特徴を統合する方法を理解するために Xu Beihong のようなアートマスターを招待するようなものです。その説明は非常に遠いので、その過程で、金色の瞳孔、王の形をした額のしわ、虎縞のひげや髪など、「男性」に「虎」の要素を追加してきました。現時点では、プロンプトが最終的な目標であるため、プロンプトがより重要です。



 

もちろん、これらは一定のパラメータの範囲内であり、しきい値を超える場合は、極端に参照画像をコピーする必要があります。しかし、それでも、img2img は 1:1 のコピーにすぎず、IP アダプターにはさらに多くのプロンプトのヒントがあることがわかります。



単純な「クッションマップ」を有望なものに拡張する

IP アダプターのロジックを理解すると、それがもたらす変化が単なる「クッション絵」ではないことがわかるでしょう。ここでは、最初に私たちの作品でその例を示し、次にそれを段階的に分解していきます。





上記の効果は実装が非常に簡単で、コントロールネットの 2 つのレイヤーを追加するだけで済み、1 つのレイヤーは IP アダプターを提供するために使用され、もう 1 つのレイヤーは追加する必要がある製品を描画および固定するために Canny を使用します。



webui でのみ適用される場合は、実際にはここで問題ありません。しかし今回はさらに一歩進んで、新しいツールを使用してよりクリエイティブな機能を実現します。

土木施工の能力と効果について、より詳しくお伝えしたいのは次の点です(具体的な手法については後ほど詳しく説明します)。

①絵はloraなのでトレーニングコストが大幅に削減されます。

② 複数の参照画像にアクセスして、より豊富な生成結果を提供します

③ プロンプトに細心の注意を払い、プロンプト マトリックスで豊富な結果を提供する

④ comfyuiをベースとしたワークフロー展開で多段階の自動生成を実現



これまでは、特定のデザイン スタイルを実現するには、トレーニング資料の収集、マーキング、モデルのトレーニング、効果のテストなどの複数のリンクを含む、目的を絞った方法で lora をトレーニングする必要があり、通常は 1 ~ 2 日かかりました。 、そして結果は依然として非常に強い不確実性でした。

しかし、現在では、IP アダプターのステップを通じて、結果を数分で直観的に確認できるため、時間が大幅に節約され、機敏性がまったく異なります。







これらの特性を備えている場合、ほぼ「インスタント lora」が得られます。コストは、期待を満たす参考画像をいくつか見つけるだけです。



同時に、IP アダプターは一度に複数の参照画像を読み取ることもできるため、生成された結果は、img2img プロセスでは達成できない、より豊かな多様性とランダム性を持ち、これが 2 つの間の最大の違いでもあります。









 

IP-Adapter はプロンプトを重視しているため、プロンプト内の情報をより直感的に結果に反映できます。そのため、img スタイルを継承しながら、プロンプト内のキーワードを置き換えて別の結果を示すことができ、プロンプトの組み合わせマトリックスを形成し、生成される結果の多様性をさらに拡張できます。





 

さらに、生成された結果の制御可能なガイダンスを実現するために、さまざまなコントロールネットとバッチ材料読み取りが追加され、より豊富なテンプレートを提供するためにバッチ読み取り機能が使用されます。 「コスト0のリアルタイムlora+controlnet制御可能生成+プロンプトマトリックス多様生成」の一連の自動化処理が完了しました。

私たちはこのプロセスをプロジェクトで採用しており、その効果について言えば、全員のフィードバックは 1 回のクリックと 3 回の接続という一文に要約されます。





 

下の図は、上記のプロセスが実際の作業でどのように展開されているかを示しています。キャリアは comfyui です。it と webui は両方とも安定した拡散機能に基づいていますが、webui の Web インターフェイスとは異なり、SD 機能を異なるノードに分解しています。ノードの関連付けは、実装するために構築されていますさまざまな機能。そのため、よりオープン、フリー、マルチソースとなり、プロセスの自動化が実現でき、実用化の効率が大幅に向上しますが、次回は具体的に説明します。





 



現時点では、IP アダプターの背後にある原理とアプリケーションが整理されました。多くの利点がありますが、実際のシナリオと組み合わせて適用する必要もあります。それは依然として同じ概念です。最良の方法はなく、唯一の方法があります。適切な方法。

皆様に楽しんで使っていただければ幸いです。ご意見やご提案がございましたら、大歓迎です。また次号でお会いしましょう。




ここが退屈な境界線だ



ちょっと退屈だけど、話すと面白いよ

そのパフォーマンスを確認した後、基礎となる原理を見て、IP アダプターの何が特別なのかを見てみましょう。

安定拡散は拡散モデルであり、その中心的なメカニズムはノイズの処理であることがわかっています。迅速な処理が目標とみなすことができます。継続的なノイズ除去プロセスを通じて、目標にどんどん近づき、最終的に期待される画像が生成されます。





IP アダプターは、プロンプト特徴として画像を個別に提案します。画像特徴とテキスト特徴を単純に抽出してそれらを結合する以前の方法と比較して、IP アダプターは分離されたクロスアテンションを備えた適応的な方法を使用します。構成モジュールは、クロスアテンションを区別します。テキスト機能のアテンションと画像機能のクロスアテンション: 画像機能を導入するために、新しいクロスアテンション モジュールが Unet モジュールに追加されました。

これは、元の SD の img とプロンプトを 1 つのベクトルに分離することに相当します。img とプロンプトの両方が別個のベクトルを形成して unet 層に渡すため、img の機能がより適切に保持され、それによってより明示的な継承とプロンプトが実現されます。画像の特徴を保持します。

本質的に、IP-Adapter は txt2img のプロセスであり、プロンプトは依然としてプロセスの中で最も重要ですが、IP-Adapter は参照画像のプロンプト機能を強化するために途中で使用されます。





比較として、img2img は参照画像を直接 unet に渡して元のランダム ノイズを置き換え、生成されたすべての結果がそれに基づいているため、人間とトラが混在する現象が理解しやすくなります。





最後に、疑似コードを通じて 2 つの根本的な違いを見てみましょう。

構造的に:

img2img は、エンコーダー (ダウンサンプリング) とデコーダー (アップサンプリング) を含む、unet アーキテクチャを使用します。

IP アダプターには、画像エンコーダーと、分離されたクロスアテンション メカニズムを含むアダプターが含まれています

# img2img
class UNet(nn.Module):
    # ... (U-Net architecture code)

# IP-Adapter
class IPAdapter(nn.Module):
    def __init__(self, image_encoder, text_to_image_model):
        # ... (initialization code)



プロセスの観点から:

img2img はエンコーダ/デコーダを渡し、一連のアップサンプリングとダウンサンプリングを渡す必要があります。

IP アダプターは、画像エンコーダー、テキストヒント、画像機能を介した適応モジュールを通じて、事前トレーニングされたテキストから画像へのモデルと対話します。

# img2img
encoded = unet_encoder(img2img_input)
decoded = unet_decoder(encoded)

# IP-Adapter
image_features = image_encoder(ip_adapter_input[1])
adapted_features = adapter_module(ip_adapter_input[0], image_features)



出力時:

img2img は変換された画像を出力します

IP アダプターは、テキストと画像のプロンプトに基づいて生成された画像です

# img2img
output_image = img2img_model(img2img_input)

# IP-Adapter
generated_image = ip_adapter_model(ip_adapter_input)



以上で本当に終わりです。また近いうちにお会いしましょう





 

著者: JD Retail 何雲深

出典:JD Cloud Developer Community 転載の際は出典を明記してください

SenseTime 創設者、Tang Xiaoou 氏が 55 歳で死去 2023 年、PHP は停滞 Wi-Fi 7 が完全に利用可能になる2024 年初頭にデビュー、Wi-Fi 6 の 5 倍高速 Hongmeng システムが独立しつつあり、多くの大学が「Hongmeng クラス」を設立 Zhihui Jun の新興企業が借り換え、金額は 6 億元を超え、事前評価額は 35 億元 Quark Browser PC 版が内部テストを開始 AI コード アシスタントは人気があり、プログラミング言語のランキングはすべてです できることは何もありません Mate 60 Pro の 5G モデムと無線周波数技術ははるかに先を行っています MariaDB が SkySQL を分割し、確立されました独立した企業として<​​/span> Xiaomi、Yu Chengdong 氏の Huawei からの「キールピボット」盗作声明に対応
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/4090830/blog/10321747