安定拡散人工知能画像合成

AI 画像生成には多くのメリットがあります。新しくリリースされたStable Diffusionと呼ばれるオープンソースの画像合成モデルを使用すると、PC と適切な GPU を持っている人は誰でも、想像できるほぼすべての視覚的現実を想像できます。ほぼすべてのビジュアル スタイルを模倣でき、説明的なフレーズを入力すると、結果が魔法のように画面に表示されます。

この見通しに喜ぶアーティストもいるが、そうでないアーティストもおり、社会全体は Twitter、Discord、Github のコミュニティを介して起こっている急速な技術革命にほとんど気づいていないようだ。おそらく、画像合成はカメラの発明、あるいはおそらく視覚芸術そのものの発明と同じくらい大きな影響を与えてきました。出来事の展開によっては、私たちの歴史認識さえも 脅かされる可能性があります。いずれにせよ、Stable Diffusion は、ビジュアル メディアの作成に革命をもたらすディープ ラーニング クリエイティブ ツールの新しい波をリードしています。

ディープラーニング画像合成の台頭

Stable Diffusion は、ロンドンを拠点とする元ヘッジファンドマネージャーの Emad Mostaque 氏の発案です。彼は、自身の会社 Stability AI を通じてディープラーニングの新しいアプリケーションを大衆に提供することを目指しています。しかし、現代の画像合成のルーツは2014 年に遡り、安定拡散は今年話題になった最初の画像合成モデル (ISM) ではありません。

2022 年 4 月、OpenAI はDALL-E 2をリリースしました。これは、言葉で書かれたシーン (「ヒント」と呼ばれます) を、夢のようなもの、現実的なもの、さらには日常的なものまであり得る無数の視覚スタイルに変換する機能でソーシャル メディアに衝撃を与えました。閉じられたツールにアクセスできる人々は、馬に乗った宇宙飛行士、古代エジプトでパンを買ったテディベア、有名な芸術家のスタイルの斬新な彫刻などを生み出してきました。

DALL-E 2 の直後、GoogleMeta は独自のテキストから画像への AI モデルを発表しました。2022 年 3 月から Discord サーバーとして利用可能になり、その数か月後に一般公開された MidJourney はアクセスに料金を請求し、同様の効果を実現しますが、デフォルトではより絵画的でイラスト的な品質になっています

その後、着実に拡散が起こります。8月22日、Stability AIはDALL-E 2に匹敵すると言える品質のオープンソース画像生成モデルをリリースした。また、Stable Diffusion を使用して画像を生成するための計算時間を販売する、 DreamStudioと呼ばれる独自の商用 Web サイトも立ち上げましたDALL-E 2 とは異なり、誰でも使用でき、Stable Diffusion コードはオープンソースであるため、プロジェクトはほとんど制限なくビルドできます。

過去 1 週間だけでも、 Stable Diffusion をまったく新しい方向に推し進める数十のプロジェクトが登場しました。人々は、 MS-DOS ゲームアートを「アップグレード」し、 Minecraft のグラフィックをフォトリアリスティックなグラフィックに変換し、アラジンのシーンを3D に変換し、子供のような落書きを豊かなイラストに変換するなどの「img2img」と呼ばれる技術で信じられないほどの結果を達成しました画像合成は、豊富なアイデアの視覚化機能を大衆にもたらし、参入障壁を下げるとともに、1990 年代の Adob​​e Photoshop のように、このテクノロジーを採用するアーティストの能力を加速させる可能性があります。

安定拡散の仕組み

大まかに言えば、最近の ISM の波のほとんどは、潜在拡散と呼ばれる手法を使用しています基本的に、モデルは純粋なノイズのフィールドで見慣れた形状を認識することを学習し、キュー内の単語と一致する場合、それらの要素に徐々に焦点を当てます。

まず、モデルをトレーニングする個人または小グループが、Web 上の alt タグやキャプションなどのメタデータを含む画像を収集し、大規模なデータセットを形成します。Stable Diffusion の場合、Stability AI はLAION-5B 画像セットのサブセットを使用しました。これは基本的に、インターネット上で公的にアクセス可能な 50 億枚の画像の巨大な画像取得です。データセットの最近の分析により、画像の多くは Pinterest、DeviantArt、さらには Getty Images などのサイトからのものであることが明らかになりました。その結果、着実な普及が多くの現存するアーティストのスタイルを吸収しましたが、中にはこのやり方に激しく反対したアーティストもいました。詳細については以下をご覧ください。

 

おすすめ

転載: blog.csdn.net/qwer123456u/article/details/130360762