第四章:决策树

1.基本概念

一棵决策树包括一个根节点、若干个内部节点和若干个叶节点,根节点表示整个样本集,叶节点表示对应的决策结果,其基本算法如下

决策树递归完成的三种情况:(1)当前结点包含的样本全属于一个类别;(2)当前属性集为空,或所有样本在所有属性上取值相同;(3)当前结点包含的样本集为空。

2.划分选择

信息熵:排除冗余后的平均信息量,也就是代价。若当前样本集合D中第k类样本所占的比例为(),信息量的表达式 为:,则信息熵的计算式为:,Ent(D)的值越小,D的纯度越高。

信息增益:用于描述两个概率分布之间的差异。用属性a对样本集D进行划分所得到的信息增益为:,其中表示第v个分支节点包含的了D中所在属性a上取值为的样本。信息增益越大,表示用属性a来进行划分所获得的纯度提升越大。ID3决策树在划分属性的时候选择以信息增益为准则,但其对可取数值多的属性会有所偏好。

增益率:,其中,称为属性a的“固有值”。C4.5决策树算法在划分属性的时候选择以增益率作为准则,但其对可取数目较少的属性有所偏好。

基尼指数:,其中基尼值为:,一般Gini(D)越小,D的纯度越高。CART决策树在划分属性时选择以基尼指数作为准则。

剪枝操作:通过减少一些叶节点的产生从而得到更好的效果,有预剪枝和后剪枝两种。前者是在决策树生成过程中对于不能提高决策树泛化性的节点不进行进一步叶节点划分,后者则是在决策树生成后对非叶节点进行考察,若叶节点替换子树可以提高决策树的泛化性则替换。预剪枝降低了过拟合的风险,同时还显著减少了决策树的训练时间开销和测试时间开销,不过可能带来欠拟合。后剪枝的欠拟合风险较小,同时泛化性能也优于预剪枝。

4.缺失值处理

在处理缺失值样本的时候我们一般近似的看作剔除缺失样本。

给定训练集D和属性a,是D中无缺失值的样本子集,表示中在属性a上取值为的样本子集,表示中属于第k类的样本子集我们定义以下三个变量:

无缺失值样本比例:

第k类样本所占比例:

无缺失样本中在a上取值为所占比例:

此时信息增益推广为,其中

猜你喜欢

转载自blog.csdn.net/qq_24852439/article/details/80638856