生成器G(x)
鉴别器D(x)
r是真实的数据
z是噪声
g是生成器的分布
鉴别器损失函数
设为公式(1)
生成器损失函数
第一种
设为公式(2)
第二种
设为公式(3)
最优鉴别器
对 求导,令其=0
对于公式2,加上一个与g无关的项
代入最优鉴别器
等价于
所以越训练鉴别器他就越接近最优鉴别器
最小化生成器,G的分布就越接近真实分布
但是如果G的分布和真实分布几乎没有重叠的部分
生成器的损失就会趋于一个常数
证明:
因为几乎没有重叠,所以,对于x,时, ,时,
进而JS散度为0生成器损失为常数,梯度为0,就无法训练了
对于公式3
所以
后面两项训练生成器时相当于常数
所以就等价于前两项
最小化KL散度时JS散度就会变大
这个就矛盾了,又要让他们相似,又要拉远
参考