元のリンク:https://arxiv.org/pdf/1511.06434.pdf
前書き
コアアイデア:前のシリーズのすべてのGANはDNN構造を使用してデータを生成しますが、この記事では画像処理に畳み込み構造を紹介し始めました。
上の図に示すように、この記事のGANジェネレーターはFC(Fully Connected Layer)を使用しませんが、デコンボリューションを使用してH次元とW次元を徐々に拡大し、C次元を徐々に縮小して最終結果グラフを生成します。その中で、最初のステップは、1次元のランダムノイズを4x4x1024のフィーチャマップに投影して変形することです。具体的な方法は、FCレイヤーを使用して、出力が8192に設定されているベクトルを4x4x1024のフィーチャマップに変換することです。次に、この記事では、監視されていない学習方法でのGANの使用についても言及し、ジェネレーターによって挿入されたノイズと生成された結果との関係を調査し、ディスクリミネーターの内部特性も視覚化しました。
基本構造
アップサンプリング
コンピュータビジョンに適用される深層学習の分野では、入力画像が畳み込みニューラルネットワーク(CNN)によって抽出されるため、出力サイズが小さくなる傾向があり、さらに計算するために画像を元のサイズに復元する必要がある場合があります。画像サイズを拡大し、画像を小解像度から大解像度へのマッピングに実現するこの操作は、アップサンプルと呼ばれます。
デコンボリューション
デコンボリューションは転置コンボリューションとも呼ばれ、フォワードコンボリューションの完全な逆プロセスではありません。一文で説明されます。
デコンボリューションは特別なフォワードコンボリューションであり、最初に特定の比率に従って0で埋められます。入力画像のサイズを拡大するには、コンボリューションカーネルを回転させてから、フォワードコンボリューションを実行します。
監視されていない学習
この記事では、ラベルを必要としないGANネットワークの性質に基づいて、監視されていない学習戦略を考案します。GANネットワークのジェネレーターがより現実的なデータを生成できる場合、そのディスクリミネーターがデータ関連の表現も学習したことも証明します。弁別器の最後のFC層を削除して、データ特徴抽出器を取得します。この特徴抽出器がデータの特徴を効果的に抽出できるかどうかを検証するために、抽出された特徴を使用して分類し、実際の分類ラベルを比較して特徴抽出器のパフォーマンスを評価できます。この記事では、著者はCIFAR-10およびSVHNデータセットを使用して実験を行い、結果は次のとおりです。
視覚化
発電機の隠された状態に関する研究
著者は、入力ノイズzの数桁を変更し、制御変数法を使用して、最終的に生成された画像の形状を観察します。特定の数字が、生成された画像の特定の形態学的表現を制御できることがわかります。デジタル値のサイズの変化に応じて、生成された画像の結果は次のようになります。
入力ベクトルの場合でも、画像の「操作」は「操作」によって制御できます。
弁別器の視覚化
上の図に示すように、左側の特徴マップはトレーニングなしの弁別器の内部畳み込みの視覚化であり、右側の特徴マップは訓練後の弁別器の内部畳み込みの視覚化です。弁別器が実際にデータの特性を学習したことがはっきりとわかります。これは、GANネットワークが監視されていない学習に使用できることも確認しています。
コードと練習
参照リンク(https://github.com/eriklindernoren/PyTorch-GAN/blob/master/implementations/dcgan/dcgan.py)
import argparse
import os
import numpy as np
import math
import torchvision.transforms as transforms
from torchvision.utils import save_image
from torch.utils.data import DataLoader
from torchvision import datasets
from torch.autograd import Variable
import torch.nn as nn
import torch.nn.functional as F
import torch
os.makedirs("images", exist_ok=True)
parser = argparse.ArgumentParser()
parser.add_argument("--n_epochs", type=int, default=200, help="number of epochs of training")
parser.add_argument("--batch_size", type=int, default=64, help="size of the batches")
parser.add_argument("--lr", type=float, default=0.0002, help="adam: learning rate")
parser.add_argument("--b1", type=float, default=0.5, help="adam: decay of first order momentum of gradient")
parser.add_argument("--b2", type=float, default=0.999, help="adam: decay of first order momentum of gradient")
parser.add_argument("--n_cpu", type=int, default=8, help="number of cpu threads to use during batch generation")
parser.add_argument("--latent_dim", type=int, default=100, help="dimensionality of the latent space")
parser.add_argument("--img_size", type=int, default=32, help="size of each image dimension")
parser.add_argument("--channels", type=int, default=1, help="number of image channels")
parser.add_argument("--sample_interval", type=int, default=400, help="interval between image sampling")
opt = parser.parse_args()
print(opt)
cuda = True if torch.cuda.is_available() else False
def weights_init_normal(m):
classname = m.__class__.__name__
if classname.find("Conv") != -1:
torch.nn.init.normal_(m.weight.data, 0.0, 0.02)
elif classname.find("BatchNorm2d") != -1:
torch.nn.init.normal_(m.weight.data, 1.0, 0.02)
torch.nn.init.constant_(m.bias.data, 0.0)
class Generator(nn.Module):
def __init__(self):
super(Generator, self).__init__()
self.init_size = opt.img_size // 4
self.l1 = nn.Sequential(nn.Linear(opt.latent_dim, 128 * self.init_size ** 2))
self.conv_blocks = nn.Sequential(
nn.BatchNorm2d(128),
nn.Upsample(scale_factor=2),
nn.Conv2d(128, 128, 3, stride=1, padding=1),
nn.BatchNorm2d(128, 0.8),
nn.LeakyReLU(0.2, inplace=True),
nn.Upsample(scale_factor=2),
nn.Conv2d(128, 64, 3, stride=1, padding=1),
nn.BatchNorm2d(64, 0.8),
nn.LeakyReLU(0.2, inplace=True),
nn.Conv2d(64, opt.channels, 3, stride=1, padding=1),
nn.Tanh(),
)
def forward(self, z):
out = self.l1(z)
out = out.view(out.shape[0], 128, self.init_size, self.init_size)
img = self.conv_blocks(out)
return img
class Discriminator(nn.Module):
def __init__(self):
super(Discriminator, self).__init__()
def discriminator_block(in_filters, out_filters, bn=True):
block = [nn.Conv2d(in_filters, out_filters, 3, 2, 1), nn.LeakyReLU(0.2, inplace=True), nn.Dropout2d(0.25)]
if bn:
block.append(nn.BatchNorm2d(out_filters, 0.8))
return block
self.model = nn.Sequential(
*discriminator_block(opt.channels, 16, bn=False),
*discriminator_block(16, 32),
*discriminator_block(32, 64),
*discriminator_block(64, 128),
)
# The height and width of downsampled image
ds_size = opt.img_size // 2 ** 4
self.adv_layer = nn.Sequential(nn.Linear(128 * ds_size ** 2, 1), nn.Sigmoid())
def forward(self, img):
out = self.model(img)
out = out.view(out.shape[0], -1)
validity = self.adv_layer(out)
return validity
# Loss function
adversarial_loss = torch.nn.BCELoss()
# Initialize generator and discriminator
generator = Generator()
discriminator = Discriminator()
if cuda:
generator.cuda()
discriminator.cuda()
adversarial_loss.cuda()
# Initialize weights
generator.apply(weights_init_normal)
discriminator.apply(weights_init_normal)
# Configure data loader
os.makedirs("../../data/mnist", exist_ok=True)
dataloader = torch.utils.data.DataLoader(
datasets.MNIST(
"../../data/mnist",
train=True,
download=True,
transform=transforms.Compose(
[transforms.Resize(opt.img_size), transforms.ToTensor(), transforms.Normalize([0.5], [0.5])]
),
),
batch_size=opt.batch_size,
shuffle=True,
)
# Optimizers
optimizer_G = torch.optim.Adam(generator.parameters(), lr=opt.lr, betas=(opt.b1, opt.b2))
optimizer_D = torch.optim.Adam(discriminator.parameters(), lr=opt.lr, betas=(opt.b1, opt.b2))
Tensor = torch.cuda.FloatTensor if cuda else torch.FloatTensor
# ----------
# Training
# ----------
for epoch in range(opt.n_epochs):
for i, (imgs, _) in enumerate(dataloader):
# Adversarial ground truths
valid = Variable(Tensor(imgs.shape[0], 1).fill_(1.0), requires_grad=False)
fake = Variable(Tensor(imgs.shape[0], 1).fill_(0.0), requires_grad=False)
# Configure input
real_imgs = Variable(imgs.type(Tensor))
# -----------------
# Train Generator
# -----------------
optimizer_G.zero_grad()
# Sample noise as generator input
z = Variable(Tensor(np.random.normal(0, 1, (imgs.shape[0], opt.latent_dim))))
# Generate a batch of images
gen_imgs = generator(z)
# Loss measures generator's ability to fool the discriminator
g_loss = adversarial_loss(discriminator(gen_imgs), valid)
g_loss.backward()
optimizer_G.step()
# ---------------------
# Train Discriminator
# ---------------------
optimizer_D.zero_grad()
# Measure discriminator's ability to classify real from generated samples
real_loss = adversarial_loss(discriminator(real_imgs), valid)
fake_loss = adversarial_loss(discriminator(gen_imgs.detach()), fake)
d_loss = (real_loss + fake_loss) / 2
d_loss.backward()
optimizer_D.step()
print(
"[Epoch %d/%d] [Batch %d/%d] [D loss: %f] [G loss: %f]"
% (epoch, opt.n_epochs, i, len(dataloader), d_loss.item(), g_loss.item())
)
batches_done = epoch * len(dataloader) + i
if batches_done % opt.sample_interval == 0:
save_image(gen_imgs.data[:25], "images/%d.png" % batches_done, nrow=5, normalize=True)
ミニストテスト
畳み込み構造を使用した後、ジェネレーターによって生成された画像がより速く収束し、画像コンテンツの構造がより明確になり、元のGANのLOSS機能が使用されていることがわかります。「w発散」が導入されている場合、それは強力な組み合わせですそれがより良い結果を生み出すことができるかどうか。