熵:系统混乱程度的度量,系统越混乱,熵越大。
信息熵:信息量的大小的度量,用于描述随机变量的不确定度。事件的不确定性越大,则信息量越大,信息熵越大。定义如下:
条件熵:表示在已知随机变量X的条件下随机变量Y的不确定性。定义如下:
另外,,说明描述X和Y所需的信息(H(X,Y) )是描述X自己所需的信息,加上给定X的条件下具体化Y所需的额外信息。
相对熵:又称为KL散度,用来衡量两个概率分布p,q之间的差异。定义如下:
交叉熵:现在有关于样本集的两个概率分布p(x)和q(x),其中p(x)为真实分布,q(x)为非真实分布。如果用真实分布 p(x)计算信息熵,则有:
如果使用非真实分布q(x)来表示来自真实分布p(x)的信息熵,则有
此时就将H(p,q) 称之为交叉熵,可以看出根据非真实分布q(x)得到的信息熵大于根据真实分布p(x)得到的信息熵。
由上述相对熵和信息熵的公式,可以得到
D(p,q)=H(p,q)-H(p)
当 H(p)为常量时(注:在机器学习中,训练数据分布是固定的),最小化相对熵 D(p,q)等价于最小化交叉熵H(p,q)也等价于最大化似然估计。找到一个与p最接近的q。
最大似然和相对熵的关系:相对熵,交叉熵和最大似然的loss function是一致的(前提是样本所属分类是唯一的,及真实分布是确定的)
在机器学习中,我们希望在训练数据上模型学到的分布 P(model) 和真实数据的分布 P(real)P(real) 越接近越好,所以我们可以使其相对熵最小。但是我们没有真实数据的分布,所以只能希望模型学到的分布 P(model)和训练数据的分布 P(train)尽量相同。
最大似然估计:目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。样本所展现的状态便是所有可能状态中出现概率最大的状态。
一个试验有若干个可能结果A1,A2,A3,…,An,若一次实验的结果是Ai发生,则自然认为Ai在所有可能结果中发生的概率最大,当总体X的未知参数θ待估时,应用这一原理,对X的样本(X1,X2,…,Xn)做一次观测实验,得到样本观察值(x1,x2,…,xn)为此一次试验结果,那么参数θ的估计值应该取为使得这一结果发生的概率为最大才合理,这就是极大似然估计法的基本思想。