熵——导读

整理自:https://mp.weixin.qq.com/s/LGyNq3fRlsRSatu1lpFnnw

问题:熵是什么?熵存在的意义是啥?为什么叫熵?

答案:在机器学习中熵是表征随机变量分布的混乱程度,分布越混乱,则熵越大,在物理学上表征物质状态的参量之一,也是体系混乱程度的度量;

   熵存在的意义是度量信息量的多少,人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少,这时熵的意义就体现出来了;

   熵词的由来是1923年胡刚复教授根据热温商之意翻译而来,此次不深究。

  • 自信息
  • 信息熵
  • 条件熵
  • 交叉熵
  • 相对熵
  • 互信息
  • 信息增益
  • 信息增益率
  • 基尼系数

总结 

自信息是衡量随机变量中的某个事件发生时所带来的信息量的多少,越是不可能发生的事情发生了,那么自信息就越大;

信息熵是衡量随机变量分布的混乱程度,是随机分布各事件发生的自信息的期望值,随机分布越宽广,则熵越大,越混乱;信息熵推广到多维领域,则可得到联合信息熵;

在某些先验条件下,自然引出条件熵,其表示在X给定条件下,Y的条件概率分布熵对X的数学期望,没有啥特别的含义,是一个非常自然的概念;

前面的熵都是针对一个随机变量的,而交叉熵、相对熵和互信息可以衡量两个随机变量之间的关系,三者作用几乎相同,只是应用范围和领域不同。交叉熵一般用在神经网络和逻辑回归中作为损失函数,相对熵一般用在生成模型中用于评估生成的分布和真实分布的差距,而互信息是纯数学的概念,作为一种评估两个分布之间相似性的数学工具,其三者的关系是:最大化似然函数,等价于最小化负对数似然,等价于最小化交叉熵,等价于最小化KL散度,互信息相对于相对熵区别就是互信息满足对称性;

作为熵的典型机器学习算法-决策树,广泛应用了熵进行特征划分,常用的有信息增益、信息增益率和基尼系数

扫描二维码关注公众号,回复: 906402 查看本文章

猜你喜欢

转载自www.cnblogs.com/helloworld0604/p/9045721.html