信息量
p为概率
信息熵
log的底数一般是2或者e
性质:非负
相对熵(KL散度)
用量衡量P分布(真实分布)和Q分布(训练出来的) 的距离(不是真正意义的距离)
更像是衡量一个分布相比另一个分布的信息损失
越小越相似
性质
1.非负
证明:
当且仅当x=1时取等 (log的底数大于1)
当且仅当P=Q时取等
也可以用Jensen不等式
2.非对称
很显然
3.值域
交叉熵
由于H(x)是训练集的,所以可以看作常数,所以训练的时候用交叉熵和KL散度几乎是一样的
JS散度
性质
1.对称性
很显然
2.值域
当log以2为底时值域[0,1],当以e为底时值域
证明
因为
所以
当P=Q时
当P=0,或者Q=0
以P=0为例
下界
因为KL散度非负
上界
(因为p和q是概率,值域[0,1], 取值最大为1,所以 )