机器学习之相对熵

1.熵(信息熵)的定义:不妨把信息熵理解成某种特定信息的出现概率(离散随机事件的出现概率)。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。信息熵也可以说是系统有序化程度的一个度量。如果一个随机变量的可能取值为,对应的概率为,则随机变量的熵定义为:

2.相对熵:又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(KL散度)等。设取值的两个概率概率分布,则的相对熵为:

 

在一定程度上,熵可以度量两个随机变量的距离。KL散度是两个概率分布P和Q差别的非对称性的度量,所以相对熵有非对称性。典型情况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布,或P的近似分布。

3.相对熵的性质:

a.非对称性:相对熵直观上理解是个距离度量或距离函数,但它并不是一个真正的度量或者距离,因为它不具有对称性,即

;

b.非负性:即

可以通过吉布斯不等式来证明,

                    

4.相对熵的应用:相对熵是比较两个概率分布的距离(相似度),因此可以用于文本相似度的计算;还可以用于权重指标的分配。

猜你喜欢

转载自blog.csdn.net/qq_36955294/article/details/82781076