自信息
《深度学习》P47
自信息:描述一个所含有的信息量,
概率越小的事件所有包含的信息量(也叫自信息)越大,概率越大的事件发生了所包含的自信息越小。自信息的数学定义:
I(x)=−logP(x)
机器学习中log的底一般为为自然对数
e
自信息只是处理单个的输出,使用香农熵来表示对整个概率分布中的不确定性的总量的量化
H(x)=Ex∼P=−Ex∼P[logP(x)]
一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量.
KL散度(相对熵)
维基百科:https://en.wikipedia.org/wiki/Kullback–Leibler_divergence
计算使Q(x)分布变成P(x)分布,所需要的额外的P(x)信息, 可以使用KL散度量衡量P(x)和Q(x)分布的差异性Q:
DKL(P∣∣Q)=Ex∼P[logQ(x)P(x)]=Ex∼P[logP(x)−logQ(x)
交叉熵
维基百科:https://en.wikipedia.org/wiki/Cross_entropy
使用Q(x)变成P(x)所以需要的额外的P(x)信息 加上 P(x)本身所具有的香农熵, 等于把Q(x)变成P(x)所需要的总的信息量.
H(P,Q)=H(P)−DKL(P∣∣Q)
进过变化得到
H(P,Q)=−Ex∼PlogQ(x)
当针对Q最小化交叉熵的时候,交叉熵等价于KL散度, 因为H§并没有Q项.