自信息,KL散度(相对熵),交叉熵

自信息

《深度学习》P47

自信息:描述一个所含有的信息量,
概率越小的事件所有包含的信息量(也叫自信息)越大,概率越大的事件发生了所包含的自信息越小。自信息的数学定义:
I ( x ) = l o g P ( x ) \Huge I(x) = -logP(x)

机器学习中log的底一般为为自然对数 e e
自信息只是处理单个的输出,使用香农熵来表示对整个概率分布中的不确定性的总量的量化
H ( x ) = E x P = E x P [ l o g P ( x ) ] \Huge H(x)=\mathbb{E}_{x\sim P}=-\mathbb{E}_{x\sim P}[logP(x)]
一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量.

KL散度(相对熵)

维基百科:https://en.wikipedia.org/wiki/Kullback–Leibler_divergence

计算使Q(x)分布变成P(x)分布,所需要的额外的P(x)信息, 可以使用KL散度量衡量P(x)和Q(x)分布的差异性Q:
D K L ( P Q ) = E x P [ l o g P ( x ) Q ( x ) ] = E x P [ l o g P ( x ) l o g Q ( x ) \Huge D_{KL}(P||Q)=\mathbb{E}_{x\sim P}[log\frac{P(x)}{Q(x)}]=\mathbb{E}_{x\sim P}[logP(x)-logQ(x)

交叉熵

维基百科:https://en.wikipedia.org/wiki/Cross_entropy

使用Q(x)变成P(x)所以需要的额外的P(x)信息 加上 P(x)本身所具有的香农熵, 等于把Q(x)变成P(x)所需要的总的信息量.
H ( P , Q ) = H ( P ) D K L ( P Q ) \huge H(P,Q)=H(P) - D_{KL}(P||Q)
进过变化得到
H ( P , Q ) = E x P l o g Q ( x ) \huge H(P,Q)=-\mathbb{E}_{x\sim P}logQ(x)
当针对Q最小化交叉熵的时候,交叉熵等价于KL散度, 因为H§并没有Q项.

猜你喜欢

转载自blog.csdn.net/qq_39124762/article/details/82895345