最简单的信息熵

信息熵的公式

H ( X ) = p ( x i ) l o g ( p ( x i ) )

其中X表示随机变量,随机变量的取值为 ( x 1 , x 2 , . . . , x n ) p ( x i ) 表示事件 x i 发生的概率,且有 p ( x i ) = 1 . 信息熵的单位为bit.
l ( x i ) = l o g ( ( p ( x i ) )
l ( x i ) 为时间 x i 的信息量发生概率对数的负数
由此可以知道H(x)为随机变量X的平均信息量(也就是期望,期望等于试验中每次可能的结果乘以其结果概率的总和)


信息熵会用在一部分机器学习算法里做特征选择的依据

信息量的概念

所谓的信息量就是衡量一个信息包含了多少内容,我们接受到的信息量跟具体发生的事件有关。
信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大,越大概率的事情发生了产生的信息量越小。

举个例子。小明学习不好,爱玩,上课也不认真听讲,每次考试都考倒数几名, 然而这一次考试考了班级前几名,大家都非常震惊。而小张同学,每次考试都是第一名,这次也不意外,也是第一。

这个例子,我们就可以很容易理解信息量这一概念。小明同学考试好的概率非常之低,但是这次考的非常好,就是说概率小的事情发生了,大家心里非常震惊,觉得这里面包含了很多事情,也许是小明突然发愤图强,在家彻夜读书等等事情,所以这里面包含的信息量非常大,也就是概率小的事情具有的信息量大。但是反观小张同学,每次都很好,这次也不意外,理所当然,所以概率大的事情所包含的信息量反而很小

信息熵

信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。

信息熵还可以作为一个系统复杂程度的度量,如果系统越复杂,出现不同情况的种类越多,那么他的信息熵是比较大的。如果一个系统越简单,出现情况种类很少(极端情况为1种情况,那么对应概率为1,那么对应的信息熵为0),此时的信息熵较小。

信息增益

信息熵表示的是不确定度。均匀分布时,不确定度最大,此时熵就最大。当选择某个特征对数据集进行分类时,分类后的数据集信息熵会比分类前的小,其差值表示为信息增益。信息增益可以衡量某个特征对分类结果的影响大小。

猜你喜欢

转载自blog.csdn.net/blank_tj/article/details/82056413