皆さんこんにちは、今日は最近登場した2つのAI描画ツール、Midjourney (公式サイト) と Stable diffusion (公式サイト)を紹介したいと思います。
始める難易度、描く効果、描く効率、利用コストなどを比較していきます。
1、上手难易度
まず、始めるときの難易度を見てみましょう。
Midjourney は、ユーザーが各ステップを理解し、操作できるようにするフレンドリーなインターフェイスを提供します。また、ユーザーがすぐに始めてメッセージを簡単に作成して公開できるようにするシンプルなテンプレートも提供します。Midjourney は discord をベースに構築されたペイント プラットフォームです。まず discord に登録し、discord アカウントを使用して Midjourney に直接ログインします。完了後、Midjourney の対応するダイアログ ボックスに入り、さまざまなコマンドを入力してさまざまな機能を呼び出すことができます。さらに、Midjourney では既存のメディアを使用したり、写真などを簡単に追加したりすることもできます。
入場すると、ミッドジャーニーのパブリックペイントエリアが表示されます。そこでは、多くの人が写真を生成し、リアルタイムで更新します。
左側の列でチャンネルを参照できます。初心者向けエリアである初心者 110 と初心者 140 がいくつかあり、クリックして独自の画像を生成できます。
StableDiffusion は現在オープン ソースであるため、ローカルに直接展開できますが、情報を公開するために使用する前に、ユーザーは深い技術知識を持っている必要があります。すべての機能を完全に活用するには、ユーザーがコーディングとデータベースのテクニックに習熟している必要があります。さらに、StableDiffusion では、Midjourney のような既成のメディアを提供するのではなく、ユーザーが画像、ビデオ、その他のメディアを自分でインポートする必要があります。もちろんハードウェアの要件もありますが、基本的に3g以上のグラフィックカードには8gb以上のビデオメモリが必要です。同時に、StableDiffusion モデルはより多くのハードディスク、少なくとも 20 ~ 30G のスペースを占有します。もちろん、URL 経由でアクセスして使用できる Google の拍手を通じて StableDiffusion をデプロイするなど、クラウド経由でデプロイすることもできます。もちろん、よりカラフルな画像効果を得たい場合は、loray などのさまざまなモデルを組み合わせる必要があります。
StableDiffusion ラージ モデルのスイッチは最初にインターフェイスの左上隅にあり、ここでインストールしたモデルを切り替えることができます。
Vincent 図、Midjourney との違いは、StableDiffusion には逆キーワード (画面に何も表示されないという意味) があり、Vincent 図のキーワード形式は基本的に Midjourney と同じです。
次のパラメータは、解像度、サイズなど、画像のいくつかの基本パラメータを設定します。特定のパラメータについては、以下を参照してください。
他のAIペイントソフトと同様に、参考画像を配置してプロンプトワードを入力することで生成された画像も分かりやすくなっています。
SDで描いた絵の情報をここに入れると、右側にキーワードなど絵のパラメータが表示されます。
全体的に使いやすさで言うとMidjourneyの方が使いやすく、StableDiffusionの方が若干使いにくいです!
2. 2大AI描画ツールの描画効果
Midjourney の基本原理は、生成対立ネットワークと深層学習技術に基づいており、もちろん、その描画効果にはさらに注目しています。Midjourney で生成された写真がさらに精巧になっていることがわかります。現在のバージョンは v5 にアップグレードされ、実際の人物の生成がより現実的になり、詳細が適切に処理されます。ただし、指の処理にまだ不備があり、Midjourneyで生成される画像の制御性が弱く、プロンプトを継続的に調整する必要があるため、これが現状の最大のネックとなっています。
たとえば、「かわいい女の子、花を持っている、背景にバレンタインデーのバルーンの装飾がある」と入力する場合は、オンライン翻訳を使用して英語のキーワードに翻訳し、「素敵な女の子、花を持っている、背景にバレンタインデーのバルーンを持っている」と入力します。
ロボットは 1 分間に 4 枚の写真を生成します。
StableDiffusion は ldm 潜在拡散モデルを使用しますが、その目標は、一連のノイズ除去オートエンコーダーとみなすことができる、トレーニング画像へのガウス ノイズの継続的な適用を排除することです。安定した拡散はさまざまなモデルを組み合わせ、lauray はさまざまなスタイルの画像を生成でき、ポジティブ プロンプトとリバース プロンプトを通じて、目的の画像をより適切に生成できます。安定拡散は、タトゥー画像、画像-音画像、画像、声紋の機能を備えているだけでなく、埋め込まれた制御ネットにより空間的一貫性の問題も解決されます。以前は、入力画像のどの部分を制御ネットから保持するかを AI モデルに伝える効果的な方法がまったくありませんでした。これを変更するメソッドを導入するのが StableDiffusion です。これは追加の入力条件を使用してモデルに何をすべきかを正確に指示することができ、さらに 3 つの doopen ポーズを導入してキャラクターのポーズやアクションを生成し、生成する必要がある画像を正確に制御することができます。現在、AI描画において非常に認知度の高い機能です。
例:油絵
プロンプト: スカーレット・ヨハンソンとツイスターをするボブ・バーカーの肖像画、ロス・トランとトーマス・キンケードによる油絵
例えばこんなサイバーパンク風
プロンプト: サイバーパンク、8K 解像度、城、バラの海、夢
出力効果から判断すると、制御性や応用範囲の広さではStableDiffusionの方が若干優れています。
3. 描画効率
StableDiffusion には非常に遅く、開始までに 30 分かかるという欠点があります。
Midjourney は Disco Diffusion の原作者である Somnai 氏が参加した AI アート プロジェクト ラボラトリーで、Disco Diffusion を改良し、平均 1 分で絵を制作できるようになりました。
4. AI描画ツールの利用にかかる費用
(1)、midoriy 初めて入力ボックスにキーワードを入力すると、次のプロンプトが表示されます。
無料ユーザーには画像を生成する資格がなく、料金を支払う必要があることを説明します。以前のバージョンでは、新規ユーザーには無料で画像を生成できる機会が 25 回あると記載されていましたが、実際には、キーワードの入力、クリックして拡大、および微調整のすべてがカウントされます25 回の無料機会は非常に高価で、ほぼ使い切ってしまいますが、継続して使用したい場合は、メンバーシップを購入する必要があります。
現在のバージョンには、新規ユーザー向けの無料試用枠はないようです。無料使用許可は終了しており、使用するにはサブスクリプションが必要です。
現在、年払いと月払いは3段階に分かれており、ベーシックプランとスタンダードプレーンプランの主な違いは、描画枚数、高速モード時間、高速描画モード、パラレル数です。
(2)、安定拡散
StableDiffusion はオープンソースでローカルで実行できますが、ハードウェア要件が高くなります。ハードウェア パートナーとの連携を検討していない場合は、Google Collab p などのクラウド サービスを購入して展開することも検討できます。Google clap を例に挙げると、coo lab pro、co lab pro plus の 2 つのサブスクリプション プランがあります。この 2 つは計算単位が異なります。同時に、Collab Pro Plus はバックグラウンド実行もサポートしており、最終的には、より多くのコンピューティング ユニットを購入できる psugo ソリューションがあり、使用コストは人によって異なります。画像を生成するだけの場合は両方を使用でき、コストはほぼ同じです。ai 描画ツールを使用して何らかの作業を長期間支援したい場合は、高構成のグラフィックス カードから始めて、ローカルに安定した防御を展開することをお勧めします。長期投資の観点からすると、コストは最も低い選択肢になります。
(3) コスト比較表