[Tencent Cloud HAI ドメイン探索] StableDiffusionWebUI を使用して、宮崎駿のアニメの夏を見つけることができました

序文

私は常に独自の StableDiffusion モデルをデプロイしたいと思っていましたが、モデルを構築する過程で多くの問題に遭遇しました。その後、HAI を使用してモデルを迅速に構築してデプロイできることがわかり、非常に便利になり、多くのコストを節約できました。トラブル。

Hyper Application Inventor (HAI) は、プラグアンドプレイの強力なコンピューティング能力と共通環境を提供する面向 AI 和科学计算的 GPU/NPU 应用服务製品です。中小企業や開発者が言語モデル、AI 描画、データサイエンスなどの高性能アプリケーションを迅速に展開できるように支援し、サポートする開発ツールとコンポーネントをネイティブに統合して、アプリケーション層の開発生産性を大幅に向上します。

Stable Diffusion、ChatGLM2 6B、Llama2 7B、Llama2 13B などの AI モデルをすばやく構築したい場合、またはPytorch2.0.0、Tensorflow2.9.0 などの AI フレームワークを構築したい場合は、HAI を使用できます。最初の選択です。この記事では、主に深層学習アルゴリズムを使用して図面を作成する、2 次元 AI ペイント用の安定拡散モデルを構築します。アプリケーションシナリオも非常に幅広いです。

一、HAI

ハイパフォーマンスアプリケーションサービス HAI はアプリケーション中心であり、GPU クラウドコンピューティングリソースと一致し、中小企業や開発者が LLM、AI ペインティング、データサイエンスなどのハイパフォーマンスアプリケーションを迅速に展開できるように支援します。その利点は非常に重要です。

1. シンプルで使いやすい。コンピューティング、ネットワーク、ストレージなどのインフラストラクチャの構成プロセスを簡素化することで、クラウドサービスの運用と管理の複雑さが大幅に軽減されます。
2. アプリケーション環境の迅速な展開。 ChatGLM-6B、StableDiffusion などの複数の AI 環境の迅速な導入をサポートし、ユーザーがビジネスおよびアプリケーションシナリオの革新に集中できるようにします。
3. 高い柔軟性。ユーザーがインスタンスにログインし、 AI モデルとインスタンス環境を柔軟に構成できるようにサポートします。内部開発、ビジネステストを実行したり、外部ビジネスサービスを提供したりできます。
4. 複数のログイン方法。従来の接続方法に加え、jupyterlab、WebUI などによるワンクリック起動にも対応し、より利用シーンに適したログイン方法を提供します。
5. 豊富な種類のコンピューティング能力。さまざまなコンピューティングパワーパッケージオプションを提供し、将来的にはユーザーが選択できるタイプがさらに追加される予定です。

2. 応用シナリオ

HAI には幅広いアプリケーションシナリオがあり、AI の描画/デザイン、AI の会話/ライティング、AI 開発テスト、データサイエンスで使用できます。
AI ペイント/デザインに関しては、デザイナーと開発者は高性能アプリケーションサービスを使用して、AI ペイントモデルを迅速に展開して最適化できます。この高性能アプリケーションサービスには、主流の AI ペイントモデルと Stable Diffusion などの一般的に使用されるプラグインがプリインストールされており、すぐに使用できる GUI グラフィカルインターフェイスが提供されるため、開始の敷居が大幅に低くなります。 AI 対話/ライティングに関して、研究者や開発者は、高性能アプリケーションサービスを使用して、LLAMA2、ChatGLM などの大規模な言語モデルを迅速に展開して実行し、テキスト生成、感情分析、テキスト分類など高性能アプリケーションサービスによって提供されるコンピューティング能力のサポートと最適化された環境により、高い安定性と信頼性を維持しながら、言語モデルを最短時間で導入できることが保証されます。 AI の開発とテストに関しては、高性能アプリケーションサービスの事前構成された環境は、TensorFlow、PyTorch などの最も一般的な AI フレームワークとツールをサポートしているため、開発者はアルゴリズムの設計とモデルの最適化に集中できます。 AI 研究者は、ハードウェアの互換性やソフトウェア構成の問題を心配することなく、高性能アプリケーションサービスでモデルを開発、トレーニング、テスト、最適化できます。新しいアルゴリズムのプロトタイプ開発、モデルの微調整と転移学習、深層学習フレームワークのクロステストなど。データサイエンスの観点では、データサイエンティストは高性能アプリケーションサービスを使用して、データ分析とグラフ処理を迅速に実行できます。高性能アプリケーションサービスは、Notebook、Python 環境、および主流の分析ソフトウェアで事前構成されています。

3. 安定した普及モデルの構築

HAI の利点と適用シナリオについては上で説明しました。次に、HAI を使用して安定拡散モデルを構築します。 Stable Diffusion は、直訳すると安定した拡散ですが、これはもちろん画像生成モデルの動作原理も示しています。高品質の画像を生成するために使用できる生成モデルです。その原理は、実画像にノイズを追加し、ニューラルネットワークを通じてノイズを除去することです。ノイズが徐々に除去されると、実画像が徐々に復元されます。。では、HAI を使用して安定拡散モデルを構築するにはどうすればよいでしょうか?

1. 新しい HAI アプリケーションを作成する

まず、コンピューティングパワー管理ページで「新規」をクリックし、これが HAI アプリケーション構築の入り口です。

ここに画像の説明を挿入します
Stable DiffusionAI モデルでを選択

購入が完了すると、HAI アプリケーションが自動的に作成されます。作成プロセスには 3 ～ 8 分ほどかかります。

作成が完了したら、コンピューティングパワー接続をクリックし、ドロップダウンリストでstable_diffusion_webuiを選択します。

ここに画像の説明を挿入します

2、StableDifffusionWebUI

以下に示すように、メインページが表示されますStableDiffusionWebUI。
ここに画像の説明を挿入します

(1) 機能紹介

StableDiffusionWebUI は StableDiffusion オープンソースモデルに基づいて

Vincent Pictures
説明に基づいて任意の画像を生成
インテリジェントな認識:Stable Diffusion は、ユーザーがアップロードした写真をインテリジェントに識別し、写真の品質と色を自動的に調整して、より鮮明で充実したものにすることができます。
スタイル変換:Stable Diffusion ユーザーがアップロードした写真を、印象派、ポスト印象派、キュビスムなどのさまざまな芸術スタイルに変換して、写真をより芸術的にすることができます。
ポートレート修復:Stable Diffusion ポートレートを自動的に識別して修復し、しわ、シミ、その他の望ましくない痕跡を除去し、ポートレートをより美しく自然にします。
画像の融合:Stable Diffusion 複数の画像を融合してまったく新しい画像を生成できるため、ユーザーはさまざまなアイデアやデザインを試すことができます。
画像のノイズ除去:Stable Diffusion は、画像のノイズを自動的に除去して、より鮮明な画像にします。

(2) ページを中国語に変換します

まず、ページを中国語に変更します。ページの Extensions メニューで Available メニューを選択し、 localization のチェックを外して script をチェックします。、Load from をクリックすると、30 ～ 60 秒ほどかかります。
ここに画像の説明を挿入します
次に、検索ボックスで zh_CN を検索し、

をクリックして Install インストールします。

インストールが成功すると、Extensions メニューの Installed メニューにインストールされた stable-diffusion-webui-localization-zh_CN
ここに画像の説明を挿入します
が表示されます。最後に、 < /span> を選択します。、最後にをクリックすると、ページが中国語になります。をクリックし、さらにドロップダウンメニューからを選択し、 Setting メニューから User interfaceLocalization (requires restart) zh_CN
ここに画像の説明を挿入します
Apply settingReload UI

(3)AI描画

Stable Diffusion は、入力したプロンプトに基づいて想像上の絵を描くことができます。 Vincent の図に進む前に、まず StableDiffusionWebUI メインページの基本プロパティについて説明します。関連する構成プロパティについては次のように説明します。

属性	説明する
即効性のある言葉	では主に、コンテンツスタイルやその他の情報を含む画像について説明します。元の WebUI では、この場所の文字数制限があります。プラグインをインストールすると、文字数制限を破ることができます。 `简单来说就是你想要生成一副什么样的图片，包含主体、风格、色彩、质量要求等等`。
逆プロンプトの単語	`告诉模型我们不需要的风格`、望ましくないことを示します。たとえば、写真に何かを映したくない、写真の品質を低下させたくない、文字がぼやけたり、複数の文字が表示されたりしたくない。腕や足など。
プロンプトワードの関連性 (CFG スケール)	分類子はスケールを自由に調整します。画像とプロンプトの間の一貫性が低いほど、結果はよりクリエイティブになります。値が高いほど、画像は説明テキストに近づきます。通常は 7 に設定されます
サンプリング方法	`扩散算法的去噪声采样模式会影响其效果`、異なるサンプリングモードの結果は大きく異なります。
サンプリングステップ	拡散モデルを使用して画像を生成するときに実行されます`迭代步骤`。各反復の後、AI はプロンプトと現在の結果を比較し、対応する調整を行う機会が増えます。反復ステップの数が多いほど、より多くの計算時間とコストを消費しますが、必ずしもより良い結果が得られることを意味するわけではないことに注意してください。ただし、反復ステップの数が少なすぎる場合 (通常は 50 以上)、画質は確実に低下します。
ランダムシード（シード）	各画像の生成時にランダムシードが使用されます`作为确定扩散初始状态的基础`。 -1 は、描画がイメージシードに基づいていないが、プロンプトに基づいて完全に生成されることを意味します。イメージのシード値を入力すると、入力したイメージシードが参照され、それに基づいて 2 番目の描画が実行されます。この画像では。
HD復元	生成された画像を高解像度で拡大します`提升分辨率`。ビデオメモリが不十分な場合は注意して使用する必要があります
バッチを生成する	つまり、このペイントは複数のバッチに分けて実行されるため、ビデオメモリが少ない場合は、サイズを増やして時間をスペースと引き換えにすることができます。
バッチあたりの数量	各バッチで生成される画像の数を示し、ビデオメモリのサイズに基づいて設定されます。

プロンプトワードは非常に重要であり、画像を生成するための最も基本的な要件です。プロンプトワードは複数の接辞で構成されます。プロンプトワードはポジティブプロンプトワード（ポジティブプロンプト）とネガティブプロンプトワード（ネガティブプロンプト）に分けられ、何が必要で何が不必要かをAIに伝えるために使用されます。逆プロンプトという言葉は少し興味をそそられるように聞こえますが、実際には表示されたくないものの説明です。プロンプトワードとカウンタープロンプトワードは実際にはあなたの想像力に依存します。より効果的にするには、それらを英語の説明用語に変換する必要があります。個人的には、固定された公式はなく、人々の想像力を制限すると思います。想像力を自由に働かせてください。

①ポジティブな促しの言葉

モデルに追加することを検討できるポジティブなヒントの言葉をいくつか紹介します。

プロンプト	説明する
HDR、UHD、64K	(HDR、UHD、4K、8K、64K) などの品質に関する言葉は、写真の品質の向上に大きな違いをもたらします。
非常に詳細な	より詳細なディテールを描きます
スタジオ照明	スタジオライトを追加すると、画像に素敵なテクスチャを加えることができます
プロ	この単語を追加すると、画像の色のコントラストと詳細が大幅に向上します。
鮮やかな色	写真に鮮やかな色を追加すると、画像に活力が加わります
ボケ味	ボケ味は、iPhone のポートレートモードのように、背景をぼかし、被写体を強調します。
高解像度スキャン	写真を古い写真のように見せ、時代を感じさせます
スケッチ	スケッチ
絵画	絵画

②逆プロンプトワード

逆方向プロンプトの単語の一部のケースは、生成したい画像の逆方向プロンプトによって期待を満たさない画像を回避するために使用されます。

否定的なプロンプト	説明
変異した手と指	変異した手と指
変形した	奇形
悪い解剖学	貧弱な解剖学
傷ついた	傷ついた
顔の描き方が下手	顔が上手く塗れてない
変異した	変異した
余分な四肢	余分な手足
醜い	醜い
下手に描かれた手	手の描き方が下手だな
手足の欠損	欠損した手足
浮遊手足	浮いている手足
切断された手足	バラバラになった手足
奇形の手	変形した手
焦点が合っていない	焦点が合っていない
長い首	長い首
長い胴体	体が長い

③「+」「AND」「|」の使い方

「+」と「AND」: どちらの記号も短いタグやキーワードを接続するために使用されます。タグを結合するには、「+」または「AND」を使用します。なお、タグを「AND」で接続する場合は両端にスペースを入れる必要があります。さらに、「+」は「AND」とほぼ同等です。
「｜」：ループ描画記号や融合記号として使用します。このコンテキストでは、特定の要素またはラベルの描画をブレンドまたはループするために使用できる描画操作を表す場合があります。

④ 重量

括弧やさまざまな形式を使用して、単語の重みを調整します。

(PromptA:权重): 指定された重量に重量割合を調整します。
(PromptA): デフォルトの重みは 1.1 で、(PromptA:1.1) と同等です。
{PromptB}: デフォルトの重みは 1.05 で、(PromptB:1.05) に相当します。
[PromptC]: デフォルトの重みは 0.952 で、(PromptC:0.952) と同等です。
((PromptD))：权重为1.21，等于(PromptD:1.1*1.1)。
{ {PromptE}}：权重为1.1025，等于(PromptE:1.05*1.05)。
[[PromptF]]：权重为0.905504，等于(PromptF:0.952*0.952)。

また、ラベルの位置によっても重量が変わります。例えば、風景ラベルが先頭の場合は文字を縮小し、そうでない場合は文字を大きくしたり、半分の長さで表示したりすることができる。

⑤オイラーサンプリング法

画像を生成するには、使用Euler aサンプリング方法を使用します。この記事のケースでは、次の構成を使用します。

肯定的なプロンプトワード: ((スタジオジブリ))、(1 人のかわいい女の子) 通りを歩いている、半身、
逆のプロンプトワード: easynegative
サンプリング方法: オイラー a
サンプリングステップ: 65
高解像度補正 (Hires.fix): 増幅アルゴリズムと高解像度ステップに SwinIR_4x を選択は 10 、再描画振幅は 0.71 です。
キュー副相関 (CFG): 7
ランダムシード: 3472141699
バッチを生成します。 : 1
バッチあたりの数量: 8

ここに画像の説明を挿入します

すると、次のような画像が生成されます宮崎駿のアニメの夏は本当に美しいです。

オイラー a の利点
適用性: オイラーサンプリング法は、主に物理システムや動的システムの数値積分のシミュレーションに使用されるため、2 次元画像を生成する際の最初の選択肢ではない可能性があります。システムでは、芸術的なスタイルのための画像生成は主な用途ではありません。
機能:
オイラー法は、動的システムにおけるオブジェクトの動きやカメラパスのシミュレーションに適しています。必要なパラメータをすべて提供できない場合があります。芸術的な 2 次元画像。エフェクトと詳細が必要です。

⑥ DPM++ 2M Karras サンプリング方式

後で知ったのですが、DPM++ 2M Karras はディープラーニングとニューラルネットワークテクノロジーに基づいており、高品質で詳細な画像を生成できるとのことです。 Eulerサンプリング手法は主に、物理システムまたは動的システムの数値積分をシミュレートするために使用され、芸術的なスタイルの画像生成への主な用途ではありません。したがって、サンプリング方法は DPM++ 2M Karras に変更され、他の属性は次のように調整されました。

肯定的なプロンプトワード: ((スタジオジブリ))、(1 人のかわいい女の子) 通りを歩いている、半身、
逆のプロンプトワード: easynegative
サンプリング方法: DPM++ 2M Karras
サンプリングステップ: 60
高解像度補正 (Hires.fix): 増幅アルゴリズムとして SwinIR_4x を選択し、高解像度ステップは 10、再描画振幅は 0.4
プロンプト副相関 (CFG): 7
ランダムシード: 3472141699
バッチを生成: 1
バッチあたりの数量: 8

2 つのサンプリング方法で生成された画像が大きく異なることは明らかです。DPM++ 2M Karras 方法で生成された画像はよりカラフルで、文字もより鮮やかです。

DPM++ 2M Karras の利点
適用性: DPM++ 2M Karras はディープラーニングとニューラルネットワークテクノロジに基づいており、高品質を生成できるため、2 次元画像の生成に適している可能性があります。豊富な詳細画像。
特徴: この方法では、モデルの詳細をより適切に維持し、必要なイメージをより迅速に生成できます。 2 次元スタイルの画像を生成するのに適しており、特にキャラクターのモデリングや背景の詳細などの処理に適しており、良好な結果が得られます。

⑦ プロンプトワードケースを追加

引き続き上記の方法を使用しDPM++ 2M Karras、サンプリングにいくつかの順方向プロンプトワードと逆方向プロンプトワードを追加し、上で生成された画像とどのように異なるかを確認します。今回は、プロンプトを設定します。より豊富でより制限的な要件。

即効性のある言葉	説明する
プロンプト	((studio ghibli)), (1cute girl) walking in street, half body, 64K, Professional,Makoto Shinkai, Katsuhiro Otomo, Masashi Kishimoto, Kentaro Miura
否定的なプロンプト	(低品質、最悪の品質:1.4)、(bad_prompt:0.8)、(モノクロ:1.1)、(グレースケール)、ユーザー名、透かし、署名、テキスト、ロゴ、nsfw

生成された画像ではDPM++ 2M Karrasサンプリング方法が使用されていますが、新しく追加されたプロンプトワード (64K, Professional,Makoto Shinkai, Katsuhiro Otomo, Masashi Kishimoto, Kentaro Miura) の効果も非常に明白であることがわかります。画像の色のコントラストがより明確になり、画像の詳細がより詳細になります。また、画像の顔や手足は通常のキャラクターとあまり変わらず、手足が余ったり、手が変形したりする異常はありません。

4. まとめ

StableDiffusionWebUIの素晴らしさに衝撃を受けましたが、HAIはアプリケーションを構築できるだけでなく、デプロイ機能まで提供してくれるので、めんどくさがりな私にも居場所が見つかったような気がします。自分でモデルを構築するのは非常に複雑だっただろうが、HAI が私の問題を完全に解決してくれた。この経験の中で、HAI を使用したアプリケーションの構築についていくつかの意見がありました。

欠陥と最適化の提案:

1. HAI アプリケーションリージョンを構築するにはいくつかのオプションがありますが、北京のような一級都市にはオプションがないことに少し驚きました。
2. 画像生成処理中にスタッタリングが発生します。画像生成中と表示されますが、進捗が進まず、滞留時間が比較的長くなります。解決する唯一の方法は、問題はアプリケーションを再起動することですが、可能であれば、イメージ生成の問題を監視し、プロンプトを表示することをお勧めします。個人的には、計算能力が不十分で、より大きなサイズの画像や過度のサンプリングステップなどの処理には制限があると考えています。
3. 経験豊富なユーザーの場合、ターゲットイメージを生成する際のパラメータの設定に独自の焦点を当てます。ただし、初心者ユーザーにとっては、プロンプトワードの蓄積が比較的少なく、生成される画像が期待とは大きく異なる可能性があるため、いくつかのプロンプトワードのケースを提供する方がよいでしょう。

アドバンテージ：

1. HAI は、ユーザーの開発とデバッグを容易にする、シンプルで使いやすい API インターフェイスと使いやすい開発ツールを提供します。
2. 迅速な構築と展開。これは多くのユーザーにとってメリットだと思います。本当に便利です。
3. HAI は、高度なアーキテクチャとアルゴリズムを使用して、多数の同時リクエストを処理し、高スループットで低遅延のサービスを提供します。これにより、ユーザーはアプリケーションを使用する際に優れたエクスペリエンスを得ることができます。
4. 複数のアプリケーションを一緒に使用できるように一連のサービスを構築できます。これにより、コストが節約されるだけでなく、時間も節約されます。

添付資料：HAI公式アドレス：https://cloud.tencent.com/product/hai