最简单的信息熵

信息熵的公式

$H(X) = -\sum p(x_i)log(p(x_i))$

其中X表示随机变量，随机变量的取值为 $(x_1,x_2,...,x_n)$ ， $p(x_i)$ 表示事件 $x_i$ 发生的概率，且有 $\sum p(x_i)=1$ . 信息熵的单位为bit.
令 $l(x_i) = -log((p(x_i))$
$l(x_i)$ 为时间 $x_i$ 的信息量发生概率对数的负数
由此可以知道H(x)为随机变量X的平均信息量（也就是期望，期望等于试验中每次可能的结果乘以其结果概率的总和）

信息熵会用在一部分机器学习算法里做特征选择的依据

信息量的概念

所谓的信息量就是衡量一个信息包含了多少内容，我们接受到的信息量跟具体发生的事件有关。
信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大，越大概率的事情发生了产生的信息量越小。

举个例子。小明学习不好，爱玩，上课也不认真听讲，每次考试都考倒数几名，然而这一次考试考了班级前几名，大家都非常震惊。而小张同学，每次考试都是第一名，这次也不意外，也是第一。

这个例子，我们就可以很容易理解信息量这一概念。小明同学考试好的概率非常之低，但是这次考的非常好，就是说概率小的事情发生了，大家心里非常震惊，觉得这里面包含了很多事情，也许是小明突然发愤图强，在家彻夜读书等等事情，所以这里面包含的信息量非常大，也就是概率小的事情具有的信息量大。但是反观小张同学，每次都很好，这次也不意外，理所当然，所以概率大的事情所包含的信息量反而很小。

信息熵

信息量度量的是一个具体事件发生了所带来的信息，而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望。

信息熵还可以作为一个系统复杂程度的度量，如果系统越复杂，出现不同情况的种类越多，那么他的信息熵是比较大的。如果一个系统越简单，出现情况种类很少（极端情况为1种情况，那么对应概率为1，那么对应的信息熵为0），此时的信息熵较小。

信息增益

信息熵表示的是不确定度。均匀分布时，不确定度最大，此时熵就最大。当选择某个特征对数据集进行分类时，分类后的数据集信息熵会比分类前的小，其差值表示为信息增益。信息增益可以衡量某个特征对分类结果的影响大小。

信息熵的公式

信息量的概念

信息熵

信息增益

猜你喜欢