熵的相关概念及相互关系(信息熵,条件熵,相对熵,交叉熵,最大似然估计)

:系统混乱程度的度量,系统越混乱,熵越大。

信息熵:信息量的大小的度量,用于描述随机变量的不确定度。事件的不确定性越大,则信息量越大,信息熵越大。定义如下:

H(X)=-\sum_{i=1}^n p(x_i)logp(x_i)

条件熵:表示在已知随机变量X的条件下随机变量Y的不确定性。定义如下:

H(Y|X)=\sum_x p(x)H(Y|X=x) =-\sum_xp(x)\sum_yp(y|x)logp(y|x) =-\sum_{x} \sum_{y} p(x,y)logp(y|x)

另外,H(Y|X)=H(X,Y) -H(X),说明描述X和Y所需的信息(H(X,Y) )是描述X自己所需的信息,加上给定X的条件下具体化Y所需的额外信息。

相对熵:又称为KL散度,用来衡量两个概率分布p,q之间的差异。定义如下:

D(p,q)=\sum _{p}p(x_i)log(p(x_i)/q(x_i))=\sum _{p}p(x_i)log(p(x_i)-\sum _{p}p(x_i)log(q(x_i)

交叉熵:现在有关于样本集的两个概率分布p(x)和q(x),其中p(x)为真实分布,q(x)为非真实分布。如果用真实分布 p(x)计算信息熵,则有:

H(p)=-\sum_{i=1}^n p(x_i)logp(x_i)

如果使用非真实分布q(x)来表示来自真实分布p(x)的信息熵,则有

H(p,q)=-\sum_{i=1}^n p(x_i)logq(x_i)

此时就将H(p,q) 称之为交叉熵,可以看出根据非真实分布q(x)得到的信息熵大于根据真实分布p(x)得到的信息熵。

由上述相对熵和信息熵的公式,可以得到

D(p,q)=H(p,q)-H(p)

当 H(p)为常量时(注:在机器学习中,训练数据分布是固定的),最小化相对熵 D(p,q)等价于最小化交叉熵H(p,q)也等价于最大化似然估计。找到一个与p最接近的q。

最大似然和相对熵的关系:相对熵,交叉熵和最大似然的loss function是一致的(前提是样本所属分类是唯一的,及真实分布是确定的)

在机器学习中,我们希望在训练数据上模型学到的分布 P(model) 和真实数据的分布  P(real)P(real) 越接近越好,所以我们可以使其相对熵最小。但是我们没有真实数据的分布,所以只能希望模型学到的分布 P(model)和训练数据的分布 P(train)尽量相同。

最大似然估计:目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。样本所展现的状态便是所有可能状态中出现概率最大的状态。

一个试验有若干个可能结果A1,A2,A3,…,An,若一次实验的结果是Ai发生,则自然认为Ai在所有可能结果中发生的概率最大,当总体X的未知参数θ待估时,应用这一原理,对X的样本(X1,X2,…,Xn)做一次观测实验,得到样本观察值(x1,x2,…,xn)为此一次试验结果,那么参数θ的估计值应该取为使得这一结果发生的概率为最大才合理,这就是极大似然估计法的基本思想。

猜你喜欢

转载自blog.csdn.net/u012991043/article/details/81676179