【机器学习】信息、信息熵、信息增益、增益率及基尼系数的概念总结

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ARPOSPF/article/details/84876426

信息、信息熵、信息增益、增益率及基尼系数的概念总结


信息

信息是用来消除随机不确定性的东西。对于机器学习中的决策树而言,如果待分类的事物集合可以划分为多个类别当中,则第k类的信息可以定义如下:

I(k)=-log_2({p_k})

信息熵

信息熵是用来度量不确定性,当熵越大,k的不确定性越大,反之越小

假定当前样本集合D中第k类样本所占的比例为p_k (k=1,2,...,|y|),则D的信息熵定义为:

Ent(D)=-\sum_{k=1}^{|y|}{p_klog_2 {p_k}}

信息增益

信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好。

同上,计算特征a对样本集D进行划分所获得的信息增益为:

Gain(D,a)=Ent(D)-\sum_{v=1}^{V}{\frac{|D^v|}{|D|}}Ent(D^v)

事实上,信息增益准则对可取值数目较多的特征有所偏好,为了减少这种偏好可能带来的不利影响,C4.5决策树算法使用了“增益率”:

Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}

其中IV(a)称为属性a的“固有值”:

IV(a)=-\sum_{v=1}^{V}{\frac{|D^v|}{|D|}}log_2{\frac{|D^v|}{|D|}}

需要注意的是,增益率准则对可取值数目较少的属性所有偏好,因此,C4.5算法并不是直接选择增益率最大的候选划分属性,而是使用了一个启发式:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。

基尼系数

CART据册数使用了“基尼系数”来选择划分属性,它反映了从数据集D中随机抽取两个样本,与其类别标记不一致的概率。因此在候选属性集合A中,选择基尼系数最小的属性作为最优划分属性:

Gini\_index(D,a)=\sum_{v=1}^{V}{\frac{|D^v|}{|D|}}Gini(D^v)

 

参考内容:周志华《机器学习》

猜你喜欢

转载自blog.csdn.net/ARPOSPF/article/details/84876426