GAN的Loss的比较研究（4）——Wasserstein Loss理解（2）

关于Wasserstein Distance的计算，似乎还有一个简单一点的推导方法，在《BEGAN: Boundary Equilibrium Generative Adversarial Networks》中给出了一个推导的过程：
Wasserstein Distance的定义式如下：

W (P_{r}, P_{g}) = inf_{γ \in Π (P_{r}, P_{g})} E_{(x, y) \sim γ} [‖ x - y ‖] (1)

$W(\mathbb P_r, \mathbb P_g)=\inf_{\gamma \in \Pi(\mathbb P_r, \mathbb P_g)} \mathbf E_{(x,y) \sim \gamma} [\Vert x-y \Vert] \qquad(1)$
根据Jensen不等式有：

inf E [| x_{1} - x_{2} |] \geq inf | E [x_{1} - x_{2}] | = | E (x_{1}) - E (x_{2}) | (2)

$\inf \mathbf E[\vert x_1 - x_2 \vert] \ge \inf \mathbf \vert \mathbf E[ x_1- x_2] \vert =\vert \mathbf E( x_1) - \mathbf E( x_2) \vert \qquad(2)$
于是代入（1）有：

W (P_{r}, P_{g}) \geq | E_{x \sim P_{r}} (f_{θ} (x)) - E_{x \sim P_{g}} (f_{θ} (x)) | = | m_{1} - m_{2} | (3)

$W(\mathbb P_r, \mathbb P_g) \ge \vert \mathbf E_{\mathbf x \sim \mathbb P_r}\left(f_{\theta}(\mathbf x)\right) - \mathbf E_{\mathbf x \sim \mathbb P_g} \left(f_{\theta}(\mathbf x)\right) \vert = \vert m_1-m_2 \vert \qquad(3)$

f_{θ} (x)

$f_{\theta}(\mathbf x)$ 表示由判别器（Discriminator）决定的映射，不同分布的随机变量（

x \sim P_{r}

$\mathbf x \sim \mathbb P_r$ 和

x \sim P_{g}

$\mathbf x \sim \mathbb P_g$ ）经过

f_{θ} (x)

$f_{\theta}(\mathbf x)$ 映射后，就可得到要比较的分布。通过求这两个变换随机分布的均值差的绝对值（1次范数），定义这两个变换分布的距离。对于判别器而言，我们希望（3）越大越好，在判别器达到最优时，若真图判别都比假图判别大，这样可以去掉绝对值符号，就有（4）：

W (P_{r}, P_{g}) \geq E_{x \sim P_{r}} (f_{θ} (x)) - E_{x \sim P_{g}} (f_{θ} (x)) (4)

$W(\mathbb P_r, \mathbb P_g) \ge \mathbf E_{\mathbf x \sim \mathbb P_r}\left(f_{\theta}(\mathbf x)\right) - \mathbf E_{\mathbf x \sim \mathbb P_g} \left(f_{\theta}(\mathbf x)\right) \qquad(4)$
最大化（4）可定义Loss_D（取反，求最小值），生成器的Loss_G与此作用相反，取反号，并去掉无关项，有如下（5）~(8）：

L o s s_D = - E_{x \sim P_{r}} (f_{θ} (x)) + E_{x \sim P_{g}} (f_{θ} (x)) (5) θ^{*} = \arg min_{θ} L o s s_D (6)

$Loss\_D = -\mathbf E_{\mathbf x \sim \mathbb P_r}\left(f_{\theta}(\mathbf x)\right) + \mathbf E_{\mathbf x \sim \mathbb P_g} \left(f_{\theta}(\mathbf x)\right) \qquad(5)\\ \theta^*=\arg \min_{\theta} Loss\_D \qquad(6)$

L o s s_G = - E_{x \sim P_{g}} (f_{θ} (x)) = - E_{z \sim Z} (f_{θ} (g_{ω} (x)) (7) ω^{*} = \arg min_{ω} L o s s_G (8)

$Loss\_G=-\mathbf E_{\mathbf x \sim \mathbb P_g} \left(f_{\theta}(\mathbf x) \right)=-\mathbf E_{\mathbf z \sim \mathbb Z} \left(f_{\theta}(g_{\omega}( \mathbf x) \right) \qquad(7)\\ \omega^*=\arg \min_{\omega} Loss\_G \qquad(8)$
以上计算过程与上一篇文章《GAN的Loss的比较研究（3）——Wasserstein Loss理解（1）》的（5）、（6）是相同，但注意在这个推导过程中，没有对

f_{θ} (x)

$f_{\theta}(\mathbf x)$ 有任何要求。

以上过程可以小结如下：
真图的概率分布是 $\mathbb P_r$ ，假图的概率分布是 $\mathbb P_g$ ，用判别器（Discriminator）将其映射到另一个概率分布空间，然后用两个分布的重心之间的距离来衡量距离。如下图：
这里写图片描述
上图的解释如下： $\mathbb P_r$ 抽样得到 $\mathbf x_r$ ，它经过映射 $f_{\theta}(\cdot)$ 变换到[0,1]上，然后计算这部分样本映射后的均值，也就是分布2的重心 $m_2$ ，同理，对于假图亦如此处理。

这个过程推导没问题，也简单许多，但实际训练时，生成器（Generator）却无法收敛。因为， $\mathbb P_r$ 和 $\mathbb P_g$ 流型根本可能是不连通的，即Discriminator可以很早就训练成了最优判别器，无法给Generator提供后向的梯度信息，与前述的KL距离不能收敛的问题原因是一致的。仔细比较本文的公式(5)与上一篇（《Wasserstein Loss理解（1）》）的公式（6），差异仅仅在对 $f_{\theta}(\mathbf x)$ 有没有约束，前文是有约束的： $f_{\theta}(\mathbf x)$ 必须满足Lipschitz条件，而本文中（5）并无要求，这个要求就是是否收敛的关键。
解决了这个问题，又出现了新问题：为什么《BEGAN: Boundary Equilibrium Generative Adversarial Networks》就可以收敛呢？
BEGAN与一般的GAN的结构不同，如下图：
这里写图片描述
它的判别器（Discriminator）由Auto-Encoder实现，编码得到的Embedding (h)与生成器（Generator）的输入随机变量是同维度的，是不是由于Auto-Encoder压缩了两个随机分布（ $\mathbb P_r$ 和 $\mathbb P_g$ ）的维度，将两个随机分布(即：由真图经过判别器的Encoder生成的真图Code的分布 $\mathbb P_{Real Code}$ ，以及由假图经过Encoder生成的假图Code的分布 $\mathbb P_{Fake Code}$ )的流型变成了有重叠的部分，从而使简单的两分布概率重心距离可以作为分布差异的度量？判别器的Auto-Encoder就像是生成器的引导器，将生成器生成空间的流型引导到真实图像空间流型上去，而且再进一步压缩维度，使两者的Code的流型进一步接近，为它们有部分重合提供了有力的支持，如下：
这里写图片描述
上图中红框内C表示的就是图像经过Encoder后得到的Code，真图Code与假图Code的流型若是重叠的，则可能可以完成分布的迁移。
另外，能令BEGAN收敛，以及多样性的还有一条措施，就是反馈比例控制，如下：

L (x) = | x - D (x) | (9) L_{D} = L (x) - k_{t} \cdot L (G (z_{D})) (10) L_{G} = L (G (z_{G})) (11) k_{t + 1} = k_{t} + λ_{k} (γ L (x) - L (G (z_{G}))) (12)

$\mathcal L(\mathbf x)=\vert \mathbf x-D(\mathbf x) \vert \qquad(9)\\ \mathcal L_D= \mathcal L(\mathbf x)-k_t \cdot \mathcal L(G(\mathbf z_D))\qquad(10)\\\mathcal L_G= \mathcal L(G(\mathbf z_G))\qquad(11)\\k_{t+1}=k_t + \lambda_k(\gamma \mathcal L(\mathbf x)-\mathcal L(G(\mathbf z_G)))\qquad(12)$
因为判别器是Auto-Encoder，其输出是与输入相同维度的图像，（9）表示Auto-Encoder的输入与输出的差的范数，

L_{D}

$\mathcal L_D$ 表示判别器的Loss，

L_{G}

$\mathcal L_G$ 表示生成器的Loss，

z_{G} 和 z_{D}

$\mathbf z_G\text{和} \mathbf z_D$ 都是生成器的噪声输入，前者是求

L_{G}

$\mathcal L_G$ 时的抽样，后者是求

L_{D}

$\mathcal L_D$ 的抽样。
（10）和（12）中

L (x)

$\mathcal L(\mathbf x)$ 表示从真图中采样，Auto-Encoder输入与输出的差，而

L (G (z))

$\mathcal L(G(\mathbf z))$ 表示生成器根据噪声激励产生的假图送人Auto-Encoder，输入和输出的差异。（12）反映的是输入是真图和假图条件下，Auto-Encoder范数的差异，即原图恢复的好坏程度。如果没有什么差异，则要增强判别器作为Auto-Encoder对真图的恢复能力，如果差异大，则要增加判别器的区分真假的判别功能。通过

k_{t}

$k_t$ 的反馈比例控制，实现了上述的均衡的目的。

GAN的Loss的比较研究（4）——Wasserstein Loss理解（2）

猜你喜欢