论文阅读——《Generative Adversarial Nets》

论文阅读之 Generative Adversarial Nets

Introduction

Goodfellow 的这篇paper发布于2014年,提出了一种新的模型——生成对抗模型。这个模型其实就是训练两个相互对抗的网络,一个是训练一个生成器(Generator),另一个是训练一个判别器(Descriminator)。

这两个网络是相互对抗的,生成器的目的是尽量产生接近真实图片的生成图片,其衡量标准就是判别器,生成器要让判别器无法判断一张图片是来自真实图像的分布还是是由生成器学习到的分布。

用数学语言描述整个博弈过程的话,就是:假设我们的生成模型是 G ( z θ g ) G(z|\theta_g) ,其中 z z 是一个随机噪声,而 G G 将这个随机噪声转化为数据类型 x x ,仍拿图片问题举例,这里 G G 的输出就是一张图片。 D D 是一个判别模型,对任何输入 x x D ( x θ d ) D(x|\theta_d) 的输出是0-1范围内的一个实数,用来判断这个图片是一个真实图片的概率是多大。令 p r p_r p g p_g 分别代表真实图像的分布与生成图像的分布,我们判别模型的目标函数如下:
max D V ( D , G ) = E x p d a t a ( x ) [ l o g D ( x ) ] + E z p z ( z ) [ l o g ( 1 D ( G ( z ) ) ) ] \max_DV(D,G) = \mathbb{E}_{x∼p_{data}(x)}[logD(x)]+\mathbb{E}_{z∼p_z(z)}[log(1−D(G(z)))]

类似的生成模型的目标是让判别模型无法区分真实图片与生成图片,生成模型的目标函数如下:
min G E z p z ( z ) [ l o g ( 1 D ( G ( z ) ) ) ] \min_G\mathbb{E}_{z∼p_z(z)}[log(1−D(G(z)))]

那么整个的优化目标函数如下:
min G max D V ( D , G ) = E x p d a t a ( x ) [ l o g D ( x ) ] + E z p z ( z ) [ l o g ( 1 D ( G ( z ) ) ) ] \min_G\max_DV(D,G) = \mathbb{E}_{x∼p_{data}(x)}[logD(x)]+\mathbb{E}_{z∼p_z(z)}[log(1−D(G(z)))]

这个最大最小化目标函数如何进行优化呢?最直观的处理办法就是分别对 D D G G 进行交互迭代,固定 G G ,优化 D D ,一段时间后,固定 D D 再优化 G G ,直到过程收敛。

一个简单的例子如下图所示:假设在训练开始时,真实样本分布、生成样本分布以及判别模型分别是图中的黑线、绿线和蓝线。可以看出,在训练开始时,判别模型是无法很好地区分真实样本和生成样本的。接下来当我们固定生成模型,而优化判别模型时,优化结果如第二幅图所示,可以看出,这个时候判别模型已经可以较好的区分生成数据和真实数据了。第三步是固定判别模型,改进生成模型,试图让判别模型无法区分生成图片与真实图片,在这个过程中,可以看出由模型生成的图片分布与真实图片分布更加接近,这样的迭代不断进行,直到最终收敛,生成分布和真实分布重合。
fig1

Theoretical Results

生成器 G G 隐式的定义了一个概率分布 p g p_g ,下面说明优化这个目标函数能够使 p g p_g 收敛为 p d a t a p_{data} 一个很好的估计。

我们首先考虑对于任意的 G G , 最佳的 D D .

  1. 对于一个给定的 G G , 最佳的判别器 D D 是:
    D G ( x ) = p d a t a ( x ) p d a t a ( x ) + p g ( x ) D^*_G(x)=\frac{p_{data}(x)}{p_{data}(x)+p_g(x)}
    证明:
    判别器 D D 的训练标准是,对于任意的生成器 G G , 最大化下面式子 V ( G , D ) V(G, D)
    V ( G , D ) = x p d a t a ( x ) l o g ( D ( x ) ) d x + x p z ( z ) l o g ( 1 D ( g ( z ) ) ) d z = x p d a t a l o g ( D ( x ) ) + p g ( x ) l o g ( 1 D ( x ) ) d x V(G,D)=\int_xp_{data}(x)log(D(x))dx+\int_xp_z(z)log(1-D(g(z)))dz\\ =\int_xp_{data}log(D(x))+p_g(x)log(1-D(x))dx
    对任意的 ( a , b ) R 2 { 0 , 0 } (a,b)\in\mathbb{R^2}\setminus{\{0,0\}} ,函数 y a l o g ( y ) + b l o g ( 1 y ) y\rightarrow alog(y)+blog(1-y) [ 0 , 1 ] [0, 1] 之间取得最大值 a a + b \frac{a}{a+b}
    这样, 损失函数就可写为:
    C ( G ) = max D V ( G , D ) = E x p d a t a [ l o g D G ( x ) ] + E z p z [ l o g ( 1 D G ( z ) ) ] = E x p d a t a [ l o g D G ( x ) ] + E x p g [ l o g ( 1 D G ( z ) ) ] = E x p d a t a [ l o g p d a t a ( x ) p d a t a ( x ) + p g ( x ) ] + E z p z [ l o g p g ( x ) p d a t a ( x ) + p g ( x ) ] C(G)=\max_DV(G, D)\\ =\mathbb{E}_{x\sim p_{data}}[logD^*_G(x)]+\mathbb{E}_{z\sim p_z}[log(1-D^*_G(z))]\\ =\mathbb{E}_{x\sim p_{data}}[logD^*_G(x)]+\mathbb{E}_{x\sim p_g}[log(1-D^*_G(z))]\\ =\mathbb{E}_{x\sim p_{data}}[log\frac{p_{data}(x)}{p_{data}(x)+p_g(x)}]+\mathbb{E}_{z\sim p_z}[log\frac{p_g(x)}{p_{data}(x)+p_g(x)}]

  2. 可以证明 C ( G ) C(G) p g = p d a t a p_g=p_{data} 的时候达到最小值 l o g 4 -log4 .
    证明: 对于 p g = p d a t a p_g=p_{data} , 我们可以得到 D G ( x ) = 1 2 D^*_G(x)=\frac{1}{2} , 由此可以得到 C ( G ) = l o g 1 2 + l o g 1 2 = l o g 4 C(G)=log\frac{1}{2}+log\frac{1}{2}=-log4 . 下面证明这个值只能在 p g = p d a t a p_g=p_{data} 的时候得到. 注意到:
    E x p d a t a [ l o g 2 ] + E x p g [ l o g 2 ] = l o g 4 \mathbb{E}_{x\sim p{data}}[-log2]+\mathbb{E}_{x\sim p_g}[-log2]=-log4
    上式减去 C ( G ) = V ( D G , G ) C(G)=V(D^*_G,G) , 得到:
    C ( G ) = l o g 4 + K L ( p d a t a p d a t a + p g 2 ) + K L ( p g p d a t a + p g 2 ) = l o g 4 + 2 J S D ( p d a t a p g ) C(G)=-log4+KL(p_{data}||\frac{p_{data}+p_g}{2})+KL(p_{g}||\frac{p_{data}+p_g}{2})\\ =-log4+2\cdot JSD(p_{data}||p_g)

    KL表示KL-散度, K L ( P Q ) = i = 1 n P ( i ) l o g P ( i ) Q ( i ) KL(P||Q)=\sum_{i=1}^nP(i)log\frac{P(i)}{Q(i)} , 连续型随机变量的KL散度为 K L ( p q ) = + p ( x ) l o g p ( x ) q ( x ) d x KL(p||q)=\int_{-\infty}^{+\infty}p(x)log\frac{p(x)}{q(x)}dx
    JSD表示JS散度(Jensen-Shannon divergence, J S D ( P 1 P 2 ) = 1 2 K L ( P 1 P 1 + P 2 2 ) + 1 2 K L ( P 2 P 1 + P 2 2 ) JSD(P_1||P_2)=\frac{1}{2}KL(P_1||\frac{P_1+P_2}{2})+\frac{1}{2}KL(P_2||\frac{P_1+P_2}{2})
    KL散度或者JS距离来度量两个概率分布之间的相似性.

    由于两个分布间的JS散度是非零的, 而零只能在两个分布相同的时候取得. 因此 C ( G ) = l o g 4 C^*(G)=-log4 C ( G ) C(G) 的全局最小值, 而且只能在 p g = p d a t a p_g=p_{data} 的时候取得.

Code

  • Generator
def generator(z):
    G_A1 = tf.nn.relu(tf.matmul(z, G_W1) + G_b1)
    G_A2 = tf.nn.sigmoid(tf.matmul(G_A1, G_W2) + G_b2)
    return G_A2
  • Discriminator
def discriminator(x):
    D_A1 = tf.nn.relu(tf.matmul(x, D_W1) + D_b1)
    D_logit = tf.matmul(D_A1, D_W2) + D_b2
    D_A2 = tf.nn.sigmoid(D_logit)
    return D_A2, D_logit
  • Loss Function

损失函数使用了单侧标签平滑(One-sided label smoothing),没有使用的时候发现在训练过程中出现了nan,上网搜索了一番发现使用单侧标签平滑能够很好的解决这个问题。

G_sample = generator(Z)
D_real, D_real_logit = discriminator(X)
D_fake, D_fake_logit = discriminator(G_sample)

D_loss_real = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(
    logits=D_real_logit,
    labels=0.9 * tf.ones_like(D_real_logit)
))

D_loss_fake = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(
    logits=D_fake_logit,
    labels=tf.zeros_like(D_fake_logit)
))
D_loss = D_loss_real + D_loss_fake
# 注意此处使用了单侧标签平滑
# 即使用一个目标值1−α为真样本, 并且使用目标值0+β为伪样本
G_loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(
    logits=D_fake_logit,
    labels=0.9 * tf.ones_like(D_fake_logit)
))

完整代码

Reference

到底什么是生成式对抗网络GAN?
【tensorflow学习】最简单的GAN 实现

发布了11 篇原创文章 · 获赞 7 · 访问量 8934

猜你喜欢

转载自blog.csdn.net/zh20166666/article/details/82937467