机器学习中的距离/散度/熵

一、信息量

  1. 定义:用一个信息的编码长度。
  2. 性质:编码长度与出现的概率成负相关。(如:哈夫曼编码)
  3. 公式(0/1编码)
    I = log 2 ( 1 p ( x ) ) = log 2 ( p ( x ) ) I=\log_2(\frac{1}{p(x)})=-\log_2(p(x))

二、信息熵

  1. 定义:一个分布的信息量。(编码的平均长度/信息量的均值)
  2. 公式
    H ( p ) = x p ( x ) l o g 2 ( 1 p ( x ) ) = x p ( x ) log 2 ( p ( x ) ) H(p)=\sum_x{p(x)log_2(\frac{1}{p(x)})}=-\sum_x{p(x)\log_2(p(x))}

三、交叉熵 cross-entropy

  1. 定义:用猜测的分布 ( p ) (p) 的编码方式 编码 真实的分布 ( q ) (q) ,得到的平均编码长度/信息量均值。
    p q \color{red}{因为参考的博客公式推导有冲突,有人认为p为真实分布,我暂且认为q为真实分布。}
  2. 公式
    H p ( q ) = x q ( x ) log 2 ( 1 p ( x ) ) H_p(q)=\sum_x{q(x)\log_2(\frac{1}{p(x)})}
  3. 意义:不同分布之间的距离度量。
  4. 应用:最后的损失函数。(交叉熵 本质上相当于衡量两个编码方式之间的差值,只有当猜测的分布约接近于真实分布,其值越小)
    具体说明,详见 信息量,信息熵,交叉熵,KL散度和互信息(信息增益) \color{red}{没太懂,以后遇到再细看}

四、KL散度(相对熵)

  1. 别名:KL距离、相对熵。( D ( q p ) D q ( p ) : q p D(q||p)、D_q(p):q对p的相对熵
  2. 公式(相对熵=交叉熵-信息熵)
    D q ( p ) = H q ( p ) H ( p ) = x p ( x ) log 2 ( p ( x ) q ( x ) ) D_q(p)=H_q(p)-H(p)=\sum_x{p(x)\log_2(\frac{p(x)}{q(x)})}
  3. 意义:同一随机事件+不同分布 间的距离度量。
  4. 图示
    在这里插入图片描述
  5. 性质(非负性): D q ( p ) 0 D_q(p)\geq0

四、联合信息熵和条件信息熵

  1. 公式
    a. 联合信息熵
    H ( X , Y ) = x , y p ( x , y ) log 2 ( 1 p ( x , y ) ) H(X,Y)=\sum_{x,y}p(x,y)\log_2(\frac{1}{p(x,y)})
    b. 条件信息熵
    H ( Y X ) = H ( X , Y ) H ( X ) H(Y|X)=H(X,Y)-H(X)
    = x p ( x ) y p ( y x ) log 2 ( 1 p ( y x ) ) =\sum_xp(x)\sum_yp(y|x)\log_2(\frac{1}{p(y|x)})
    = x , y p ( x , y ) log 2 ( 1 p ( y x ) ) =\sum_{x,y}p(x,y)\log_2(\frac{1}{p(y|x)})

  2. 意义:联合分布是 同一个分布中 两变量相互影响的关系。

  3. 图示
    在这里插入图片描述

五、互信息(信息增益)

  1. 定义:一个联合分布中 两个信息的纠缠程度/相互影响那部分的信息量
  2. 公式
    I ( X , Y ) = H ( X ) + H ( Y ) H ( X , Y ) I(X,Y)=H(X)+H(Y)-H(X,Y)
    = H ( Y ) H ( Y X ) =H(Y)-H(Y|X)
  3. 性质(非负性): I ( X , Y ) 0 I(X,Y)\geq0
  4. 图示
    在这里插入图片描述
  5. 应用:决策树。

六、variation of information

  1. 定义:联合分布(即同一个分布)两个变量相互影响的关系 。
  2. 公式
    V ( X , Y ) = H ( X , Y ) I ( X , Y ) V(X,Y)=H(X,Y)-I(X,Y)
  3. 意义:度量 不同随机变量间的差别。
    V ( X , Y ) = 0 V(X,Y)=0 :说明这两个变量完全一致。
    V ( X , Y ) V(X,Y) 值越大 说明两个变量越独立。
参考:

信息量,信息熵,交叉熵,KL散度和互信息(信息增益)
KL散度、JS散度、Wasserstein距离
一文搞懂散度(KL,MMD距离、Wasserstein距离)

发布了37 篇原创文章 · 获赞 0 · 访问量 773

猜你喜欢

转载自blog.csdn.net/weixin_40680322/article/details/103492728