深度学习-->GAN-->original GAN

本博文主要讲解和总结生成对抗神经网络，也即是耳熟能详的GAN神经网络原理，将从数学层面详细的进行总结和分析。

GAN神经网络大致原理

整体learn过程

这里写图片描述

我们可以这样理解上图：首先随机初始化第一代的 $generator\ v1$ ，利用 $generator\ v1$ 生成的 $sample$ 作为负样本，真实的 $sample$ 作为正样本，训练出第一代的 $Discriminator\ v1$ ，这里可以将所有的 $Discriminator$ 视为 $Binary\ classif ier$ ，这样第一代的分类器就能辨别出第一代的生成器所生成的样本；随之我们可以由第一代的分类器，使得 $generator\ v1$ 能够演化成 $generator\ v2$ ，也就是第二代的生成器，第二代生成器生成的样本能够够顺利的骗过 $Discriminator\ v1$ ，也就是 $Discriminator\ v1$ 可能会将 $generator\ v2$ 生成的sample错误的判别为正类，由此我们再以 $generator\ v2$ 生成的sample作为负样本，真实样本作为正样本，再训练出第二代的分类器 $Discriminator\ v2$ ；由此一直进行下去，我们可以不断的迭代更新分类器，生成器。

GAN - Discriminator

上面简单的总结了下整个的 $learn$ 的过程，这里稍微详细的讲下 $Discriminator$ 是如何 $learn$ 的。
这里写图片描述

初代生成器 $generator\ v1$ 通过 $Randomly\ sample\ a\ vector$ 生成一些样本标记为0，将 $real\ sample$ 标记为1，由此构建出了正负样本数据集，可以训练出第一代的生成器 $Discriminator\ v1$ ，以后每代的生成器都是如此 $learn$ 出来的。

GAN - Generator

那么 $generator$ 具体是如何 $learn$ 迭代更新的呢？
这里写图片描述

第一代的生成器 $generator\ v1$ 生成的样本，肯定比较 $fake$ ，与真实样本差距较大，那么第一代的 $Discriminator\ v1$ 就会 $output$ 出一个比较低的分数来反映该生成样本的真实程度，接下来要做的就是 $update$ $generator\ v1$ 的参数，得到第二代 $generator\ v2$ ，这个新的生成器产生的样本要很 $realistic$ ，就是要能骗过第一代生成器，那么该 $generator\ v2$ 是如何 $learn$ 生成呢？

G e n e r a t o r + D i s c r i m i n a t o r = a n e t w o r k

$Generator\ +\ Discriminator\ =\ a\ network$
我们将上一代的

Generator $Generator$ 和

Discriminator $Discriminator$ 看做一个

network $network$ ，并且固定住

Discriminator $Discriminator$ ，利用

gradientdescent $gradient descent$ 更新

Generator $Generator$ 参数，使之

Discriminator $Discriminator$ 的

output $output$ 越接近

1 $1$ 越好。

GAN数学原理

上面只是大致的讲了下其原理，下面将从数学层面详细的进行总结分析。

最大似然估计

给出真实样本集的分布： ${P}_{data}(x)$
由生成器生成的样本集分布： ${P}_{G}(x; \theta)\ parameterized\ by\ \theta$
如果 ${P}_{G}(x; \theta)$ 是 $Gaussian\ Mixture\ Model$ ，则 $\theta$ 表示均值和方差。
我们希望 ${P}_{G}(x; \theta)$ 与 ${P}_{data}(x)$ 越相像越好。

我们可以从 ${P}_{data}(x)$ 中随机 $sample$ 出几个样本 $\{{x}^{1}, {x}^{2},...,{x}^{m} \}$ ，假定 $\theta$ 已经给定，那么我们可以计算出上面 $sample$ 出的 ${x}^{i}$ 在生成样本集中的机率。

那么我们可以有最大似然函数得到从 ${P}_{data}(x)$ 中随机 $sample$ 出的这几个样本 $\{{x}^{1}, {x}^{2},...,{x}^{m} \}$ 在生成样本集中的概率：

L = \prod i = 1 m P G (x i; θ)

$L\ =\ \prod_{i=1}^{m} {P}_{G}({x}^{i};\theta )$
并且计算

θ∗ ${\theta}^{*}$ 使得上式子取最大。

可以对上式进行简单的推导如下：
这里写图片描述

KL散度

这里需要稍微讲下 $KL$ 散度相关知识。

相对熵，又称KL散度( Kullback–Leibler divergence)，是描述两个概率分布P和Q差异的一种方法。它是非对称的，这意味着D(P||Q) ≠ D(Q||P)。特别的，在信息论中，D(P||Q)表示当用概率分布Q来拟合真实分布P时，产生的信息损耗，其中P表示真实分布，Q表示P的拟合分布，相对熵越小表示拟合的越好。

设 $P(X)$ 和 $Q(X)$ 是 $X$ 取值的两个离散概率分布，则 $P(X)$ 对 $Q(X)$ 的相对熵为：

D (P | | Q) = \sum x ϵ X P (x) l o g P ( x ) Q ( x ) = \int P (x) l o g P ( x ) Q ( x )

$D(P||Q) = \sum_{x\epsilon X}^{} P(x)log\frac{P(x)}{Q(x)}=\int P(x)log\frac{P(x)}{Q(x)}$

在最开始时，大家把 $Gaussian\ Mixture\ Model$ 当做 ${P}_{G}({x};\theta)$ ，可能由于模型过于简单，或者又是 $Gaussian\ Mixture\ Model$ 与 ${P}_{data}(x)$ 差太多，没有办法真正的模拟 ${P}_{data}(x)$ ，生成的样本与真实样本差距太大。

那么 ${P}_{G}({x};\theta)$ 可以很复杂，所以现在广泛用 $nerual\ network$ 当做 ${P}_{G}({x};\theta)$ ， $\theta$ 就是 $nerual\ network$ 的参数。理论上说单隐层神经网络可以逼近任何连续函数。但是因为 $nerual\ network$ 很复杂，所以对从 ${P}_{data}(x)$ 中随机 $sample$ 出几个样本 $\{{x}^{1}, {x}^{2},...,{x}^{m} \}$ ，比较难的求出其概率，则 $difficult\ to\ compute\ the\ likelihood$ 。

那么问题来了，怎么样更新G的参数，使其能拟合 ${P}_{data}(x)$ 呢？

Basic Idea of GAN

Generator G （Hard to learn by maximum likelihood）

G是一种任意的函数，输入Z，输出X
计算 ${P}_{G}({x};\theta)$

Discriminator D

D是一种函数，输入X，输出标量
$Evaluate$ ${P}_{G}({x};\theta)$ 与 ${P}_{data}(x)$ 的 $difference$

那么 $D$ 是如何检测 $G$ 与 ${P}_{data}(x)$ ，定义一个函数 $V(G,D)$ ，

G * = a r g m i n G m a x D V (G, D)

${G}^{*} = arg {min}_{G}{max}_{D}V(G,D)$

那么 $V$ 是如何定义呢？

V = E x \sim P d a t a [l o g D (x)] + E x \sim P G [l o g (1 - D (x))]

$V\ =\ {E}_{x\sim {P}_{data}}[logD(x)]\ +\ {E}_{x\sim {P}_{G}}[log(1-D(x))]$

x∼Pdata ${x\sim {P}_{data}}$ ：表示从

Pdata ${P}_{data}$ 的分布中随机抽取样本

x $x$ 。

x∼PG ${x\sim {P}_{G}}$ ：表示从

PG ${P}_{G}$ 的分布中随机抽取样本

x $x$ 。

在给定 $G$ 时， $maxV(G,D)$ 可以表示 ${P}_{G}$ 和 ${P}_{D}$ 之间的差异程度（原因看下面），那么要找出 ${D}^{*}$ ，使得 $V(G,D)$ 最大：

这里写图片描述

继续推导：

这里写图片描述

由此可见，求得的 ${D}^{*}$ 能衡量 ${P}_{data}$ 与 ${P}_{G}$ 相似程度。再将 ${D}^{*}$ 代入到 $V$ 中得：

这里写图片描述

需要注意的是KL散度是非对称的，这里需要介绍下 $Jensen-Shannon\ divergence$ （对称性）：

由此可见， $maxV(D,G)$ 可以表示 PG和PD之间的差异程度，在求得 ${D}^{*}$ 和 $V(G,{D}^{*})$ 后，剩下的问题就是求 ${G}^{*}$ 了。

这里写图片描述

也就是求下式：

我们可以 $user\ gradient\ descent$ 求 ${G}^{*}$ ：

这里写图片描述

G、D更新流程

算法整体目标就是：

给定 ${G}_{0}$
求出 ${D}_{1}^{*}$ ，使得 $V({G}_{0},D)$ 最大。
$V({G}_{0},D)\ is\ the\ JS\ divergence\ between\ {P}_{G}\ and\ {P}_{data}$
在给定 ${D}_{1}^{*}$ 情况下，求 ${\theta}_{G}\leftarrow {\theta}_{G}-\eta\ \partial V(G,{D}_{1}^{*})$ ，求得 ${G}_{1}$
这一步需要注意：在固定 ${D}^{*}$ 时，在 $use\ gradient\ descent$ 更新 $G$ 时，其V不一定在减小啊，甚至可能会比之前的 $V({G}_{0},D)$ 还要大？

上图中，横坐标表示 $D$ ，纵坐标表示 $V$ ，故在 $update\ G$ 时，步伐不能太大。
在给定 ${G}_{1}$ 情况下，求得 ${D}_{1}^{*}$ ，使得 $V({G}_{1},D)$ 最大
以此类推，不断迭代更新 $G,D$