AI ペイントは非常に人気があり、Kunlun AIGC を例として、AI ペイントの背後にあるモデル アルゴリズムを明らかにします。
I.はじめに
最近、AI ペイントによって人工知能が再び注目を集めています。人工知能の開発の初期には、人工知能が達成できる機能は非常に限られていると常に考えられていました。通常、それらはチェスやクイズなどの堅苦しいものであり、創造的ではありません。AI が絵を描いたり、音楽を作曲したり、詩を作曲したりできるようになったとは、当時の人々は想像もしていなかったでしょう。かつては人間特有のものと考えられていたこれらのことも、今ではAIにも関わっています。
今日は、最近話題の AI ペイントについて説明します。AI が本当に創造性があるのか、それともただ動き続けるのかを見てみましょう。
AI ペイントを実装できるモデルは多数ありますが、今日は主に条件付き GAN と安定拡散の 2 つのモデルについて説明します。現在では対応する商用版もあり、例えばKunlun Wanwei氏のAI描画は安定拡散分岐モデルを使用しており、かなりの成果を上げている。
二、GAN
ここでは、AI を実装するための条件付き GAN (Generative Adversarial Network) の原理について説明します。条件付き GAN について話す前に、GAN とは何かを見てみましょう。
2.1 生成
生成ネットワークは、AI の創造性を強化する画期的な技術であると常に考えられてきました。生成には、テキスト生成、画像生成、オーディオ生成などが含まれます。
GAN は比較的成熟した生成ネットワークであり、通常は画像の生成に使用されます。GAN には、DCGAN、CycleGAN など、多くの亜種があります。
2.2 専門家と偽物
GAN の中国語名は「対立ネットワークを生成する」という意味で、GAN について言及するときは、2 つの相反する役割が例としてよく使用されます。1 人は偽造品の作成を担当する偽造品の専門家であり、もう 1 人は偽物の識別を担当する識別の専門家です。最初は専門家ではありませんでしたが、ぶつかりながら学び、最終的には誰にも見分けがつかない偽造品を作ることができるようになりました。最終的には、認証の専門家を放棄し、偽造の専門家にサービスを提供してもらうことになります。
前述の偽造専門家は Generator である G ネットワークであり、識別専門家は Discriminator である D ネットワークです。彼らは互いに学び合い、最終的にはそれぞれの分野の専門家になる、これが GAN の考え方です。
2.3 ジェネレーター
以下では、アニメ アバターを生成する例を使用して、GAN ネットワークのジェネレーターとディスクリミネーターについて説明します。
まず、GAN で偽造の役割を果たし、画像の生成にも使用されるジェネレーターについて説明します。ジェネレーターは、ガウス分布などの特定の単純分布を満たす確率変数を受け取ります。入力確率変数を受け取ると、ネットワークは計算によって非常に長いベクトルを生成し、このベクトルを w×h×3 のカラー画像に変形することができます。
ジェネレーターの具体的な構造はさまざまですが、通常は畳み込みベースのネットワークです。たとえば、DCGAN では、Generator は 5 つのデコンボリューション層で構成されており、そのネットワーク構造は次のとおりです。
次元 100 のベクトルを入力し、64×64×3 の画像を出力します。PyTorch の実装は次のとおりです。
class Generator(nn.Module):
def __init__(self, ngpu):
super(Generator, self).__init__()
self.ngpu = ngpu
self.main = nn.Sequential(
# input is Z, going into a convolution
nn.ConvTranspose2d( nz, ngf * 8, 4, 1, 0, bias=False),
nn.BatchNorm2d(ngf * 8),
nn.ReLU(True),
# state size. (ngf*8) x 4 x 4
nn.ConvTranspose2d(ngf * 8, ngf * 4, 4, 2, 1, bias=False),
nn.BatchNorm2d(ngf * 4),
nn.ReLU(True),
# state size. (ngf*4) x 8 x 8
nn.ConvTranspose2d( ngf * 4, ngf * 2, 4, 2, 1, bias=False),
nn.BatchNorm2d(ngf * 2),
nn.ReLU(True),
# state size. (ngf*2) x 16 x 16
nn.ConvTranspose2d( ngf * 2, ngf, 4, 2, 1, bias=False),
nn.BatchNorm2d(ngf),
nn.ReLU(True),
# state size. (ngf) x 32 x 32
nn.ConvTranspose2d( ngf, nc, 4, 2, 1, bias=False),
nn.Tanh()
# state size. (nc) x 64 x 64
)
def forward(self, input):
return self.main(input)
2.4 弁別器
Discriminator は GAN において非常に重要な役割を果たします. 画像入力を受け付けるネットワークです. 入力画像には実画像 real (収集したアニメーション画像) の一部と偽画像 fake (Generator によって生成された画像) の一部が含まれます. ) を実行し、結果を出力します。この結果は、偽物が本物の画像である確率である場合もあれば、偽物のカテゴリである場合もあります (0 は偽、1 は真を意味します)。Discriminator の目的は、ネットワーク パラメーターを調整して、偽の画像が偽であることをネットワークに知らせることです。
通常は畳み込みネットワークである Discriminator の構造には、あまり固定された制約はありません。ここでは DCGAN についても参照します。ここでは PyTorch の実装を示します。
class Discriminator(nn.Module):
def __init__(self, ngpu):
super(Discriminator, self).__init__()
self.ngpu = ngpu
self.main = nn.Sequential(
# input is (nc) x 64 x 64
nn.Conv2d(nc, ndf, 4, 2, 1, bias=False),
nn.LeakyReLU(0.2, inplace=True),
# state size. (ndf) x 32 x 32
nn.Conv2d(ndf, ndf * 2, 4, 2, 1, bias=False),
nn.BatchNorm2d(ndf * 2),
nn.LeakyReLU(0.2, inplace=True),
# state size. (ndf*2) x 16 x 16
nn.Conv2d(ndf * 2, ndf * 4, 4, 2, 1, bias=False),
nn.BatchNorm2d(ndf * 4),
nn.LeakyReLU(0.2, inplace=True),
# state size. (ndf*4) x 8 x 8
nn.Conv2d(ndf * 4, ndf * 8, 4, 2, 1, bias=False),
nn.BatchNorm2d(ndf * 8),
nn.LeakyReLU(0.2, inplace=True),
# state size. (ndf*8) x 4 x 4
nn.Conv2d(ndf * 8, 1, 4, 1, 0, bias=False),
nn.Sigmoid()
)
def forward(self, input):
return self.main(input)
ここで特別なのは、LeakyReLU の使用です。
2.5 両方
Generator と Discriminator を使用すると、GAN ネットワークを形成できます。
最初、Generator と Discriminator は 2 人の無知な子供で、Generator は生成方法を知らず、Discriminator は区別方法を知りませんでした。GAN ネットワークのトレーニングは次のステップに分かれています。
- ステップ 1: Discriminator ネットワークをトレーニングします。現時点では、Generator によって提供される写真はすべてノイズです。最初に Discriminator をトレーニングすると、Discriminator は実際の画像とノイズを区別する方法を知ることができます。
- ステップ 2: Discriminator を修正し、Generator をトレーニングして、Generator によって生成された画像が Discriminator から隠れるようにする
- ステップ 3: Generator によって生成された画像がニーズを満たすまで Discriminator-Generator をリサイクルしてトレーニングする
- ステップ 4: ジェネレーターを使用してイメージを生成する
上記のステップは、次の図のようになります。
以上がGANネットワークの学習プロセスです。実際には、Generator と Discriminator を交互にトレーニングするプロセスであり、その PyTorch 実装は次のとおりです。
# Create the generator
netG = Generator(ngpu).to(device)
if (device.type == 'cuda') and (ngpu > 1):
netG = nn.DataParallel(netG, list(range(ngpu)))
netG.apply(weights_init)
# Create the Discriminator
netD = Discriminator(ngpu).to(device)
if (device.type == 'cuda') and (ngpu > 1):
netD = nn.DataParallel(netD, list(range(ngpu)))
netD.apply(weights_init)
criterion = nn.BCELoss()
fixed_noise = torch.randn(64, nz, 1, 1, device=device)
real_label = 1.
fake_label = 0.
optimizerD = optim.Adam(netD.parameters(), lr=lr, betas=(beta1, 0.999))
optimizerG = optim.Adam(netG.parameters(), lr=lr, betas=(beta1, 0.999))
# Training Loop
# Lists to keep track of progress
img_list = []
G_losses = []
D_losses = []
iters = 0
print("Starting Training Loop...")
# For each epoch
for epoch in range(num_epochs):
# For each batch in the dataloader
for i, data in enumerate(dataloader, 0):
############################
# (1) Update D network: maximize log(D(x)) + log(1 - D(G(z)))
###########################
## Train with all-real batch
netD.zero_grad()
# Format batch
real_cpu = data[0].to(device)
b_size = real_cpu.size(0)
label = torch.full((b_size,), real_label, dtype=torch.float, device=device)
# Forward pass real batch through D
output = netD(real_cpu).view(-1)
# Calculate loss on all-real batch
errD_real = criterion(output, label)
# Calculate gradients for D in backward pass
errD_real.backward()
D_x = output.mean().item()
## Train with all-fake batch
# Generate batch of latent vectors
noise = torch.randn(b_size, nz, 1, 1, device=device)
# Generate fake image batch with G
fake = netG(noise)
label.fill_(fake_label)
# Classify all fake batch with D
output = netD(fake.detach()).view(-1)
# Calculate D's loss on the all-fake batch
errD_fake = criterion(output, label)
# Calculate the gradients for this batch, accumulated (summed) with previous gradients
errD_fake.backward()
D_G_z1 = output.mean().item()
# Compute error of D as sum over the fake and the real batches
errD = errD_real + errD_fake
# Update D
optimizerD.step()
############################
# (2) Update G network: maximize log(D(G(z)))
###########################
netG.zero_grad()
label.fill_(real_label) # fake labels are real for generator cost
# Since we just updated D, perform another forward pass of all-fake batch through D
output = netD(fake).view(-1)
# Calculate G's loss based on this output
errG = criterion(output, label)
# Calculate gradients for G
errG.backward()
D_G_z2 = output.mean().item()
# Update G
optimizerG.step()
# Output training stats
if i % 50 == 0:
print('[%d/%d][%d/%d]\tLoss_D: %.4f\tLoss_G: %.4f\tD(x): %.4f\tD(G(z)): %.4f / %.4f'
% (epoch, num_epochs, i, len(dataloader),
errD.item(), errG.item(), D_x, D_G_z1, D_G_z2))
# Save Losses for plotting later
G_losses.append(errG.item())
D_losses.append(errD.item())
# Check how the generator is doing by saving G's output on fixed_noise
if (iters % 500 == 0) or ((epoch == num_epochs-1) and (i == len(dataloader)-1)):
with torch.no_grad():
fake = netG(fixed_noise).detach().cpu()
img_list.append(vutils.make_grid(fake, padding=2, normalize=True))
iters += 1
一定期間のトレーニングの後、いくつかのアニメーション画像を生成できます。DCGAN のコード実装については、https://pytorch.org/tutorials/beginner/dcgan_faces_tutorial.html#sphx-glr-beginner-dcgan-faces-tutorial-py を参照してください。
3. 条件付き GAN
上記の GAN ネットワークを通じて、アニメーション画像を生成できます。しかし、この世代は制御不能であり、私たちはそれがアニメ画像を生成することだけを知っており、画像の内容を知ることはできません。説明どおりに画像を生成できない これが GAN ネットワークの限界です そこで、上記の問題を解決できる、Conditional GAN と呼ばれるバリアントが提案されています。
3.1 ジェネレーター
条件付き GAN は、Generator と Discriminator が受け取るパラメーターの数が異なる点で GAN とは異なります。ジェネレーターは確率変数を受け取るだけでなく、文のエンコードとなる「思考ベクトル」も受け取ります。このとき、Generator の構造は 2 つのベクトルを入力して画像を出力するネットワークになります。
たとえば、上の図では、red eye という文をベクトルに変換して Generator に渡し、赤い目のアニメ画像を生成させます。x を変更することで異なる画像を得ることができ、確率変数 z の存在により、同じ x であっても異なる画像を得ることができます。
ネットワークがテキストと説明の関係を学習するには、この組み合わせ(テキスト説明-画像)のデータセットを準備する必要があります。
3.2 識別子
Discriminator は 2 つのベクトル、つまり Generator によって生成された画像と Generator への x 入力を入力し、出力が正しいかどうかを入力する必要もあります。
Generator に与えられるトレーニング データは、カテゴリ 1 として (正しい説明 - 正しい画像)、カテゴリ 0 として (正しい説明、間違った画像)、(正しい説明、正しい画像、ただし画像と説明が一致しない) を持つ必要があります。
(正しい説明、正しい画像、しかし画像と説明の不一致) をトレーニング データとして含めないと、ネットワークは良い結果を得ることができません。
Generator ネットワークと Discriminator ネットワークを理解した後は、GAN と同様の方法をトレーニングに使用できます。最後の Generator は AI ペインターです。テキストによる説明を与えると、対応する画像が返されます。
四、安定拡散
安定拡散と条件付き GAN には多くの類似点があります。どちらもテキストから画像への問題を解決するために使用できるため、モデルは両方とも画像に影響を与えるテキストとガウス ノイズを受け取ります。使用されるネットワーク構造が異なるだけであり、Stable Diffusion では学習をよりスムーズにするために Latent Diffusion が導入されています。
Latent Diffusion は、オートエンコーダ、U-Net、およびテキストエンコーダの 3 つの部分で構成されます。
オートエンコーダは、エンコーダとデコーダの 2 つの部分で構成されます。エンコーダーの出力は、処理のために U-Net に渡されます。U-Net の出力はデコーダーに与えられます。
U-Net はエンコーダー入力を受け取り、文ベクトルも受け取ります。この文ベクトルは Text-Encoder によって与えられます。下の図はU-Netの構造です。
U-Net は低次元空間で動作するため、潜在拡散は高速かつ効果的です。安定拡散の全体的なプロセスは次のとおりです。
5. 崑崙万威・天宮橋匯体験
現在、AI ペイント用の既製のプラットフォームが多数存在しています GAN と比較して、Stable Diffusion はペイントに優れています ここではKunlun Tiangong の SkyPaint を使用して簡単に体験できます SkyPaint は世界初の多言語 Stable Diffusion ブランチ モデルを使用しています中国語と英語のバイリンガルをサポートする中国の数少ないテキストおよび画像生成モデルの 1 つです。
Kunlun Wanwei AI 絵画モデルは、モデルのトレーニング プロセス中に主に次の戦略を採用します。
- 中国語プロンプトワードの入力機能を強化しながら、独自のstable_diffusion英語プロンプトワードモデルとの互換性も備え、これまでユーザーが蓄積してきた英語プロンプトワードマニュアルもそのままモデル上で利用可能です。
- 1億5,000万レベルの対訳コーパスを使用してプロンプトワードモデルを最適化し、中国語と英語の比較を実現します。翻訳タスクコーパスだけでなく、ユーザーが頻繁に使用するプロンプトワードの中国語と英語の資料、中国語と英語の資料も含まれています。古代の詩、字幕、百科事典、絵文字など、説明コーパスなどのマルチシナリオおよびマルチタスクコーパスの膨大なコレクション。
- トレーニング中、モデル抽出スキームとバイリンガル アライメント スキームが使用され、教師モデルは生徒モデルを抽出するために使用され、モデルのトレーニングを支援するデコーダー言語アライメント タスクによって補完されます。
テキストから画像を生成する、および画像からテキストを生成する 2 つのアプリケーションにおいて、Kunlun Tiangong の SkyPaint モデルは、AI ペイントの分野で最も先進的なモデルに匹敵します。次の表は、Flickr30K-CN データセットでのさまざまなモデルのパフォーマンスを比較しています。
以下にいくつかのテスト例を示します。
- 帽子と剣をはいた猫。
当初のアイデアは、長靴をはいた猫に似た画像を取得することでした。次の結果は、長靴をはいた猫のような雰囲気を持っています。
2. ゴッホの星月夜
最初のレンダリングは元のシーンと多少似ていますが、残りの絵画は異なります。
3. 何千年も溶けなかったアラスカの雪を頂いた山々から、赤いヘリコプターが飛び立っています。
今回の描写は赤いヘリコプターの離陸などかなり細かい部分が含まれています。以下の結果から、AIがこれらの詳細を把握していることがわかり、それぞれの写真にそれほど違和感はありませんが、プロペラを見るとまだ不十分な部分がいくつかあります。
AI描画の効果をご自身でもお試しいただけます。
6. まとめと展望
Conditional GANの実現からのAIペイントは単純なコピーではなく、Conditional GANをトレーニングする際には画像の分布を学習しながら行います。64×64×3 8 ビット画像の場合、12288^256 の組み合わせがあり得ますが、必要な画像は非常に多くの組み合わせのうちごく一部だけであり、ジェネレーター ネットワークは単純な分布 (ガウス分布など) から z を変換します。 distribution )、複雑な分布 (画像の分布) をマッピングします。この分布を学習した後は、z の分布から画像に対応する点をサンプリングするだけで済みます。これがジェネレーターの動作です。
良いニュースは、人工知能技術の将来を見据えた判断に基づいて、Kunlun Wanwei が2020 年に AIGC の導入を開始し、クラスター内で 200 枚のカードをトレーニングし、数千万元を投資し、2020 年以上の研究開発チームを設立したことです。 200名、2021年4月に数百億のパラメータを持つ中国語GPT-3モデルを開発、2021年8月に独自のラージテキストモデルに基づく対話ロボットの開発を開始、2022年1月にSkyMusic音楽研究所が立ち上げられ、2022 年 4 月に人工知能の分野で最高の結果を達成し、プログラミング、画像、テキストの方向における AIGC 製品は 2022 年 9 月に発売される予定です。現在の AI 画像、AI テキスト、AI プログラミング モデルが GitHub でオープンソース化されていることは言及する価値があります。
公式ウェブサイトのリンク、体験ジャンプ: http://www.kunlun.com/Kunlun
Tiangong オープンソース アドレス:
Github: https://github.com/SkyWorkAIGCHuggingface https://huggingface.co/SkyWork
Huggingface: https://huggingface .co/SkyWork
関連 Web サイト:
SkyPaint:
https://sky-paint.singularity-ai.com
SkyCode:
https://sky-code.singularity-ai.com
SkyText:
https://openapi.singularity-ai.com
AIGC モデル アルゴリズムの技術革新と開発を通じて、オープンソース AIGC アルゴリズムとモデル コミュニティの開発はますます強力になり、さまざまな業界での AIGC テクノロジーの使用と学習の敷居も徐々に低下すると考えられます。 AIGCの新たな時代が到来します。