机器学习_互信息/条件熵/交叉熵/相对熵

我们在之前研究过两个随机变量的独立性,我们定义若两个随机变量X,YX,Y满足

P(X,Y)=P(X)P(Y)P(X,Y)=P(X)P(Y)
      则我们说随机变量 X,YX,Y独立。下面来直观地理解这个公式,可以发现,如果 X,YX,Y独立,那么已知 XX,将不会对 YY的分布产生任何影响,即是说 P(Y)=P(Y|X)P(Y)=P(Y|X),这个结果的证明也很简单,由贝叶斯公式:
P(Y|X)=P(X,Y)P(X)=P(X)P(Y)P(X)=P(Y)P(Y|X)=P(X,Y)P(X)=P(X)P(Y)P(X)=P(Y)
即证。

        由此可以看出,独立性反应了已知XX的情况下,YY的分布是否会改变,或者说,在给定随机变量XX之后,能否为YY带来额外的信息。然而独立性只能表示出两个随机变量之间是否会有关系,但是却不能刻画他们的关系大小。下面我们引入互信息,它不仅能说明两个随机变量之间是否有关系,也能反应他们之间关系的强弱。我们定义互信息I(X,Y)I(X,Y)

          I(X;Y)=XYP(X,Y)logP(X,Y)P(X)P(Y)        I(X;Y)=∫X∫YP(X,Y)log⁡P(X,Y)P(X)P(Y)

     我们来稍微理解一下,log里面就是X,YX,Y的联合分布和边际分布的比值,如果对所有X,YX,Y,该值等于1,即是说他们独立的情况下,互信息I(X;Y)=0I(X;Y)=0,即是说这两个随机变量引入其中一个,并不能对另一个带来任何信息,下面我们来稍稍对该式做一个变形

I(X;Y)=XYP(X,Y)logP(X,Y)P(X)P(Y)=XYP(X,Y)logP(X,Y)P(X)XYP(X,Y)logP(Y)=XYP(X)P(Y|X)logP(Y|X)YlogP(Y)XP(X,Y)=XP(X)YP(Y|X)logP(Y|X)YlogP(Y)P(Y)=XP(X)H(Y|X=x)+H(Y)=H(Y)H(Y|X)I(X;Y)=∫X∫YP(X,Y)log⁡P(X,Y)P(X)P(Y)=∫X∫YP(X,Y)log⁡P(X,Y)P(X)−∫X∫YP(X,Y)log⁡P(Y)=∫X∫YP(X)P(Y|X)log⁡P(Y|X)−∫Ylog⁡P(Y)∫XP(X,Y)=∫XP(X)∫YP(Y|X)log⁡P(Y|X)−∫Ylog⁡P(Y)P(Y)=−∫XP(X)H(Y|X=x)+H(Y)=H(Y)−H(Y|X)

其中,H(Y)H(Y)YY的熵,定义为

H(Y)=YP(Y)logP(Y)H(Y)=−∫YP(Y)log⁡P(Y)
      衡量的是 YY的不确定度,即使说, YY分布得越离散, H(Y)H(Y)的值越高,而 H(Y|X)H(Y|X)则表示在已知 XX的情况下, YY的不确定度,而 I(X;Y)I(X;Y)则表示由 XX引入而使 YY的不确定度减小的量,因而如果 X,YX,Y关系越密切, I(X;Y)I(X;Y)越大, I(X;Y)I(X;Y)最大的取值是 H(Y)H(Y),也就是说, X,YX,Y完全相关,由于X的引入, YY的熵由原来的 H(Y)H(Y)减小了 I(X;Y)=H(Y)I(X;Y)=H(Y),变成了0,也就是说如果 XX确定,那么 YY就完全确定了。而当 X,YX,Y独立时, I(X;Y)=0I(X;Y)=0引入 XX,并未给 YY的确定带来任何好处。

【1】来源:http://www.fuzihao.org/blog/2015/01/17/%E4%BA%92%E4%BF%A1%E6%81%AF%E7%9A%84%E7%90%86%E8%A7%A3/

【2】条件熵:https://blog.csdn.net/xwd18280820053/article/details/70739368

【3】交叉熵/相对熵:https://blog.csdn.net/u012177034/article/details/61205473

猜你喜欢

转载自blog.csdn.net/m0_38034312/article/details/79970620