熵、信息增益、gini(未完成)

整理一下这几个量的计算公式,便于记忆:

采用信息增益率可以解决ID3算法中存在的问题,因此将采用信息增益率作为判定划分属性好坏的方法称为C4.5。需要注意的是,增益率准则对属性取值较少的时候会有偏好,为了解决这个问题,C4.5并不是直接选择增益率最大的属性作为划分属性,而是之前先通过一遍筛选,先把信息增益低于平均水平的属性剔除掉,之后从剩下的属性中选择信息增益率最高的,这样的话,相当于两方面都得到了兼顾。
参考资料:信息熵、信息增益、信息增益率

                  woe和iv的计算

猜你喜欢

转载自www.cnblogs.com/ironan-liu/p/11769229.html