熵的相关概念及相互关系（信息熵，条件熵，相对熵，交叉熵，最大似然估计）

熵：系统混乱程度的度量，系统越混乱，熵越大。

信息熵：信息量的大小的度量，用于描述随机变量的不确定度。事件的不确定性越大，则信息量越大，信息熵越大。定义如下：

$H(X)=-\sum_{i=1}^n p(x_i)logp(x_i)$

条件熵：表示在已知随机变量X的条件下随机变量Y的不确定性。定义如下：

$H(Y|X)=\sum_x p(x)H(Y|X=x) =-\sum_xp(x)\sum_yp(y|x)logp(y|x) =-\sum_{x} \sum_{y} p(x,y)logp(y|x)$

另外， $H(Y|X)=H(X,Y) -H(X)$ ，说明描述X和Y所需的信息（H(X,Y) ）是描述X自己所需的信息,加上给定X的条件下具体化Y所需的额外信息。

相对熵：又称为KL散度，用来衡量两个概率分布p，q之间的差异。定义如下：

$D(p,q)=\sum _{p}p(x_i)log(p(x_i)/q(x_i))=\sum _{p}p(x_i)log(p(x_i)-\sum _{p}p(x_i)log(q(x_i)$

交叉熵：现在有关于样本集的两个概率分布p(x)和q(x)，其中p(x)为真实分布，q(x)为非真实分布。如果用真实分布 p(x)计算信息熵，则有：

$H(p)=-\sum_{i=1}^n p(x_i)logp(x_i)$

如果使用非真实分布q(x)来表示来自真实分布p(x)的信息熵，则有

$H(p,q)=-\sum_{i=1}^n p(x_i)logq(x_i)$

此时就将H(p,q) 称之为交叉熵，可以看出根据非真实分布q(x)得到的信息熵大于根据真实分布p(x)得到的信息熵。

由上述相对熵和信息熵的公式，可以得到

D(p,q)=H(p,q)-H(p)

当 H(p)为常量时（注：在机器学习中，训练数据分布是固定的），最小化相对熵 D(p,q)等价于最小化交叉熵H(p,q)也等价于最大化似然估计。找到一个与p最接近的q。

最大似然和相对熵的关系：相对熵，交叉熵和最大似然的loss function是一致的（前提是样本所属分类是唯一的，及真实分布是确定的）

在机器学习中，我们希望在训练数据上模型学到的分布 P(model) 和真实数据的分布 P(real)P(real) 越接近越好，所以我们可以使其相对熵最小。但是我们没有真实数据的分布，所以只能希望模型学到的分布 P(model)和训练数据的分布 P(train)尽量相同。

最大似然估计：目的就是：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。样本所展现的状态便是所有可能状态中出现概率最大的状态。

一个试验有若干个可能结果A1，A2，A3，…，An，若一次实验的结果是Ai发生，则自然认为Ai在所有可能结果中发生的概率最大，当总体X的未知参数θ待估时，应用这一原理，对X的样本（X1，X2，…，Xn）做一次观测实验，得到样本观察值（x1，x2，…，xn）为此一次试验结果，那么参数θ的估计值应该取为使得这一结果发生的概率为最大才合理，这就是极大似然估计法的基本思想。

熵的相关概念及相互关系（信息熵，条件熵，相对熵，交叉熵，最大似然估计）

猜你喜欢