GAN网络：JS散度与Wasserstein距离

1 生成模型与判别模型的区别

2 各种距离&散度的度量

2.1 香农熵

1 生成模型与判别模型的区别

生成模型：对数据的联合分布 $\large p\left ( x,y \right )$ 建模，从统计角度表示数据分布与数据生成方式，收敛速度快

判别模型：对 条件分布 $\large p\left ( y|x \right )$ 建模，不关心数据生成方式，主要寻找不同类别间的最优分类面

2 各种距离&散度的度量

2.1 香农熵

1）设P为连续随机变量X的概率分布，则 $\large P\left ( X=x \right )= P\left ( x \right )$ ,在 X=x 处香农信息量定义为 $\large -logP\left ( x \right )$

（当对数以2为底时，信息量的单位为比特；以e为底时，单位为奈特）

2）用于刻画消除X=x 处的不确定性所需的信息量大小

2.2 信息熵

信息熵 $\large H\left ( P \right )$ 是香农信息量 $\large -logP\left ( x \right )$ 的数学期望，

$\large H\left ( P \right ) =H\left ( x\right ) =E_{x\sim p\left ( x \right )}\left [ -logP\left ( x \right ) \right ]= - \int P\left ( x \right ) logP\left ( x \right )\mathrm{d}x$

2.3 交叉熵

假设 $\large q\left ( x \right )$ 用于拟合 $\large p\left ( x \right )$ 的概率分布， $\large x$ 属于 $\large p$ 的样本空间；

交叉熵用于衡量 $\large q$ 在拟合 $\large p$ 时，用于消除不确定性而充分使用的信息量的大小。

$\large H\left ( p,q \right )=E_{x\sim p\left ( x \right )}\left [- logq\left ( x \right ) \right ] = - \int p\left (x \right )logp\left ( x \right ) \mathrm{d}x$

2.4 KL散度（相对熵）

假设 $\large q\left ( x \right )$ 用于拟合 $\large p\left ( x \right )$ 的概率分布， $\large x$ 属于 $\large p$ 的样本空间； $\large D_{KL}\left ( p\, ||\, q \right )= \sum_{x\in X}p\left ( x \right )log \frac{p\left ( x \right )}{q\left ( x \right )}$ , KL散度具有非负性。

在GAN中，p为真实数据的分布q为随机噪声生成数据的概率分布，对抗的目的就是让q充分拟合p；若q完全拟合p，则有 $\large H\left ( p,q \right )=H\left ( p \right )$ ,若q拟合p不充分则有:（p和q的KL散度） $\large H\left ( p \right )-H\left ( p,q \right )=-\int p\left (x \right )logp\left ( x \right ) \mathrm{d}x -\left (- \int p\left (x \right )logq\left ( x \right ) \mathrm{d}x \right )$

因此 $\large D_{KL}\left ( p\, ||\, q \right )$ 为信息熵 $\large H\left ( p \right )$ 与交叉熵 $\large H\left ( p,q \right )$ 的差，衡量q拟合p的过程中产生的信息损耗。

KL散度不对称， $\large D_{KL}\left ( p\, ||\, q \right ) \neq D_{KL}\left ( q\, ||\, p \right )$ , 它并不是q和p的距离

2.5 JS散度

JS散度是对称的，可用于衡量两种不同分布之间的差异。

$\large JSD\left ( p\, ||\, q \right )=\frac{1}{2}D\left ( p\, ||\, m \right ) + \frac{1}{2}D\left ( q\, ||\, m \right ),\: m= \frac{1}{2}\left ( p+q \right )$

2.6 Wasserstein距离

度量两个概率分布之间的距离，又叫Earth-Mover距离；

$\large W\left ( p_{1} ,p_{2}\right ) = \inf_{r\sim \pi \left ( p_{1} ,p_{2} \right )} E_{\left ( x,y \right )\sim \gamma }\left [\: \left \| x-y \right \|\: \right ]$ ,

其中 $\large \pi \left ( p_{1} ,p_{2}\right )$ 表示 $\large p_{1}$ 与 $\large p_{2}$ 组合所得的所有可能的联合分布的集合。

对于每一个可能的联合分布 $\large \gamma$ ，可从中采样 $\large \left ( x,y \right )\sim \gamma$ 得到一个样本 $\large \left ( x,y \right )$ ， $\large \left \| x-y \right \|$ 为这对样本之间的距离，可计算出该联合分布 $\large \gamma$ 下，样本对距离的期望值 $\large E\left ( x,y \right ) \sim \gamma \left [ \:\left \| x-y \right \| \: \right ]$ , 在所有可能的联合分布中，能对这个期望值取到下界 inf, 即为Wasserstein距离。

Wasserstein距离相对于JS散度和KL散度的优势在于：即使两个分布的支撑集没有重叠或重叠非常少，仍然能反映两个分布的远近，而JS散度在此情况下是常量，KL散度可能无意义。