信息熵、条件熵、信息增益、信息增益率、基尼指数简述

在机器学习、信息论与统计学中信息熵、条件熵、信息增益、信息增益率(比)、基尼系数这五个概念相当基础也非常重要。

today,博主也捋一捋这基本的概念,由于个人水平所限,还请各位看官多多指教!

信息熵

概念:用来表示随机变量不确定性程度的量,设X是一个取值范围有限的离散随机变量,其概率分布可以表示为:

                                                          \begin{center}$$P(X=x_i)=p_i, i=1,2,...,n$$ \end{center}

           则随机变量X的信息熵为:

                                                          $$H(X)=-\sum_{i=1}^{n}p_i\log p_i$$

即信息熵就是用来度量随机变量的不确定程度,如果随机变量是唯一确定值(X是常量,只有一个取值情况:x=125)则H(X)=0。信息熵随着变量的不确定程度的增加而增加。

举一个不恰当的例子:信息熵随着变量的取值个数的增加而变大。

条件熵

概念:H(Y|X)表示在随机变量X的条件下随机变量Y的不确定性。公示为:

                                                          $$H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X=x_i)$$

可以认为是某一事件Y有多个变量影响,其中一个变量X被确定下来了,然后计算Y的信息熵。其实就是在所有情况中筛选出X=xi的事件子集合,在此集合内求信息熵。

信息增益(也称为互信息)

概念:特征A对数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的条件熵H(D|A)之差,即

                                                          $$g(D,A)=H(X)-H(X|A)$$

本质上就是求解,特征A对于确定X取值所做出的的贡献大小(程度)。

信息增益比

概念:特征A对训练数据集D的信息增益比g_R(D,A)定义为其信息增益g(D,A)与数据集D的信息熵H(D)之比:

                                                          $$g_R(D,A)=\frac{g(D,A)}{H(X)}$$

基尼指数

概念:分类问题中,假设有K个类,样本点属于第看、类的概率为pk,则概率分布的基尼指数定义为:

                                                          Gini(p)=\sum_{k=1}^{K}p_k(1-p_k)=1-\sum_{k=1}^Kp_k^2

猜你喜欢

转载自blog.csdn.net/qq_19672707/article/details/84401348