版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ARPOSPF/article/details/84876426
信息、信息熵、信息增益、增益率及基尼系数的概念总结
信息
信息是用来消除随机不确定性的东西。对于机器学习中的决策树而言,如果待分类的事物集合可以划分为多个类别当中,则第k类的信息可以定义如下:
信息熵
信息熵是用来度量不确定性,当熵越大,k的不确定性越大,反之越小
假定当前样本集合D中第k类样本所占的比例为,则D的信息熵定义为:
信息增益
信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好。
同上,计算特征a对样本集D进行划分所获得的信息增益为:
事实上,信息增益准则对可取值数目较多的特征有所偏好,为了减少这种偏好可能带来的不利影响,C4.5决策树算法使用了“增益率”:
其中IV(a)称为属性a的“固有值”:
需要注意的是,增益率准则对可取值数目较少的属性所有偏好,因此,C4.5算法并不是直接选择增益率最大的候选划分属性,而是使用了一个启发式:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。
基尼系数
CART据册数使用了“基尼系数”来选择划分属性,它反映了从数据集D中随机抽取两个样本,与其类别标记不一致的概率。因此在候选属性集合A中,选择基尼系数最小的属性作为最优划分属性:
参考内容:周志华《机器学习》