GAN的Loss的比较研究（2）——传统GAN的Loss的理解2

判别器（Discriminator）输入一个图片 $\mathbf x$ ，输出y表示分类（仅有0和1两个分类）的概率，该模型可以很直观地用条件概率来描述—— $P_D(y|\mathbf x)$ ，于是展开有：

P_{D} (y | x) = {\begin{cases} P_{D} (y = 1 | x \in X_{r}) \\ P_{D} (y = 0 | x \in X_{r}) \\ P_{D} (y = 1 | x \in X_{f}) \\ P_{D} (y = 0 | x \in X_{f}) \end{cases} (1)

$P_{D}(y|\mathbf x) = \begin{cases} P_{D}(y=1|\mathbf x \in X_r) \\ P_{D}(y=0|\mathbf x \in X_r) \\ P_{D}(y=1|\mathbf x \in X_f) \\ P_{D}(y=0|\mathbf x \in X_f) \\ \end{cases} \qquad(1)$
上式中“

x \in X_{f}

$\mathbf x \in X_f$ ”表示：样本

x

$\mathbf x$ 来自假图（Fake Images）集合

X_{f}

$X_f$ ，同理，“

x \in X_{r}

$\mathbf x \in X_r$ ”表示：样本

x

$\mathbf x$ 来自真图（real Images）集合

X_{r}

$X_r$ 。

P_{D} (y | x)

$P_{D}(y|\mathbf x)$ 表示给定输入

x

$\mathbf x$ 的条件概率，而

P_{D} (y | x)

$P_{D}(y|\mathbf x)$ 恰好是判别器（Discriminator）的输出。
同理，Ground Truth也可以用这样的描述方式，并且有：

P_{g t} (y | x) = {\begin{cases} P_{g t} (y = 1 | x \in X_{r}) = 1 \\ P_{g t} (y = 0 | x \in X_{r}) = 0 \\ P_{g t} (y = 1 | x \in X_{f}) = 0 \\ P_{g t} (y = 0 | x \in X_{f}) = 1 \end{cases} (2)

$P_{gt}(y|\mathbf x) = \begin{cases} P_{gt}(y=1|\mathbf x \in X_r)=1 \\ P_{gt}(y=0|\mathbf x \in X_r)=0 \\ P_{gt}(y=1|\mathbf x \in X_f)=0 \\ P_{gt}(y=0|\mathbf x \in X_f)=1 \\ \end{cases} \qquad(2)$
上式中“

P_{g t} (y = 1 | x \in X_{r}) = 1

$P_{gt}(y=1|\mathbf x \in X_r)=1$ ”表示：样本

x

$\mathbf x$ 来自真图（Real Images）集合

X_{r}

$X_r$ ，而标签y取1的条件概率

P_{g t} (y = 1 | x \in X_{r})

$P_{gt}(y=1|\mathbf x \in X_r)$ 等于1。
假设：真图（real Images）集合

X_{r}

$X_r$ 的样本数量是

| X_{r} |

$|X_r|$ ，假图（Fake Images）集合

X_{f}

$X_f$ 的样本数量是

| X_{f} |

$|X_f|$ ，总样本数为N，且样本在整个由真图和假图构成的空间（

X = X_{r} \cup X_{f}

$X=X_r \cup X_f$ ）中均匀分布，则有：

P (x) = \frac{1}{| X_{r} | + | X_{f} |} = \frac{1}{N} (3) P_{g t} (y, x) = P_{g t} (y | x) P (x) = \frac{1}{N} \cdot P_{g t} (y | x) (4) P_{D} (y, x) = P_{D} (y | x) P (x) = \frac{1}{N} \cdot P_{D} (y | x) (5)

$P(\mathbf x)=\frac {1}{|X_r|+|X_f|}=\frac {1}{N}\qquad(3)\\ P_{gt}(y,\mathbf x)= P_{gt}(y|\mathbf x)P(\mathbf x)=\frac {1}{N} \cdot P_{gt}(y|\mathbf x) \qquad(4)\\ P_{D}(y,\mathbf x)= P_{D}(y|\mathbf x)P(\mathbf x)=\frac {1}{N} \cdot P_{D}(y|\mathbf x) \qquad(5)$
我们前面将Discriminator的输出看作

P_{D} (y | x)

$P_D(y|\mathbf x)$ ，它与联合概率

P_{D} (y, x)

$P_{D}(y,\mathbf x)$ 仅仅相差一个常系数，单调性一致，最值位置一致，因此，我们可以将Discriminator的输出的角色转变一下，将它看作是联合概率

P_{D} (y, x)

$P_{D}(y,\mathbf x)$ ，现在考察的就是两个联合概率之间的差异。
Discriminator的输出

P_{D} (y, x)

$P_{D}(y,\mathbf x)$ 与Ground Truth的联合概率

P_{g t} (y, x)

$P_{gt}(y,\mathbf x)$ 之间的差异可以用交叉熵来衡量，如下：

- H (P_{g t} | P_{D}) = \sum_{x_{i} \in X_{f} \cup X_{r}} P_{g t} (y = 1, x_{i}) \cdot \log P_{D} (y = 1, x_{i}) + \sum_{x_{i} \in X_{f} \cup X_{r}} P_{g t} (y = 0, x_{i}) \cdot \log P_{D} (y = 0, x_{i}) = \sum_{x_{i} \in X_{r}} P_{g t} (y = 1, x_{i}) \cdot \log P_{D} (y = 1, x_{i}) + \sum_{x_{i} \in X_{f}} P_{g t} (y = 0, x_{i}) \cdot \log P_{D} (y = 0, x_{i}) (6)

$-H(P_{gt}|P_{D}) =\sum_{\mathbf {x_i \in X_f \cup X_r}} P_{gt}(y=1,\mathbf {x_i})\cdot \log P_{D}(y=1,\mathbf {x_i}) \ +\ \sum_{x_i \in X_f \cup X_r} P_{gt}(y=0,\mathbf {x_i})\cdot \log P_{D}(y=0,\mathbf {x_i}) \\ = \sum_{\mathbf {x_i \in X_r}} P_{gt}(y=1,\mathbf {x_i})\cdot \log P_{D}(y=1,\mathbf {x_i}) \ + \ \sum_{\mathbf {x_i \in X_f}} P_{gt}(y=0,\mathbf {x_i})\cdot \log P_{D}(y=0,\mathbf {x_i}) \qquad(6)$
上式中其他项因为

P_{g t} (y = 1 | x_{i} \in X_{f}) = P_{g t} (y = 0 | x_{i} \in X_{r}) = 0

$P_{gt}(y=1\vert \mathbf {x_i} \in X_f) = P_{gt}(y=0\vert \mathbf {x_i} \in X_r) = 0$ ，而消去，只剩下（6）式末两项。更进一步，根据（4）有

P_{g t} (y = 0, x_{i} \in X_{f}) = P_{g t} (y = 1, x_{i} \in X_{r}) = \frac{1}{N}

$P_{gt}(y=0,\mathbf {x_i} \in X_f) = P_{gt}(y=1,\mathbf {x_i} \in X_r) = \frac {1}{N}$ 。另外，Discriminator输出被定义为概率

P_{D} (y, x)

$P_{D}(y,\mathbf x)$ ，由此定义：

D (x) = P_{D} (y = 1, x) (7)

$D(\mathbf {x})= P_{D}(y=1,\mathbf {x}) \qquad(7)$
则

P_{D} (y = 0, x) = 1 - D (x)

$P_{D}(y=0,\mathbf {x})=1-D(\mathbf {x})$ ，于是（6）可变换为：

- H (P_{g t} | P_{D}) = \frac{1}{N} (\sum_{x_{i} \in X_{r}} \log P_{D} (y = 1, x_{i}) + \sum_{x_{i} \in X_{f}} \log P_{D} (y = 0, x_{i})) = \frac{1}{N} (\sum_{x_{i} \in X_{r}} \log D (x_{i}) + \sum_{x_{i} \in X_{f}} \log (1 - D (x_{i}))) (8)

$-H(P_{gt}|P_{D})= \frac {1}{N} \left( \sum_{\mathbf {x_i \in X_r}} \log P_{D}(y=1,\mathbf {x_i}) \ + \ \sum_{\mathbf {x_i \in X_f}} \log P_{D}(y=0,\mathbf {x_i}) \qquad \right)\\ = \frac {1}{N} \left( \sum_{\mathbf {x_i \in X_r}} \log D(\mathbf {x}_i ) \ + \ \sum_{\mathbf {x_i \in X_f}} \log (1-D(\mathbf {x}_i ))\right) \qquad(8)$
若real样本与fake样本数量相等，则有：

- H (P_{g t} | P_{D}) = \frac{1}{2} (E_{x_{i} \in X_{r}} (\log D (x_{i})) + E_{x_{i} \in X_{f}} (1 - \log D (x_{i}))) (9)

$-H(P_{gt}|P_{D}) = \frac {1}{2} \left( \mathbf {E}_{x_i \in X_r}( \log D(\mathbf x_i)) \ + \ \mathbf {E}_{x_i \in X_f} (1-\log D(\mathbf x_i)) \right)\qquad(9)$
在训练时，我们一般取real样本与fake样本数量相等，于是Discriminator的Loss_D可以定义为：

L o s s_D = E_{x_{i} \in X_{r}} (\log D (x_{i})) + E_{x_{i} \in X_{f}} (1 - \log D (x_{i})) (10)

$Loss\_D = \mathbf {E}_{x_i \in X_r}( \log D(\mathbf x_i)) \ + \ \mathbf {E}_{x_i \in X_f} (1-\log D(\mathbf x_i)) \qquad(10)$
这与上一篇（ GAN的Loss的比较研究（1）——传统GAN的Loss的理解1）从二进制交叉熵（Binary Cross Entropy，简称BCE）推导的结果一致。但我觉得似乎这个角度的推导更顺畅一些，上一篇直接是从每个样本的BCE开始推导，其实是假设了每个样本服从均匀分布的先决条件。

GAN的Loss的比较研究（2）——传统GAN的Loss的理解2

猜你喜欢