深入浅出回归树算法

回归树

之前的博客 介绍了决策树算法在分类问题上面的应用,有提到ID3算法,C4.5算法和CART算法,其中CART(Classification And Regression Tree)分类回归树既可以用于分类,也可以用于回归,当用于分类的时候,CART树中每个叶子结点代表一个类别,在回归问题中,CART树中每个叶子结点代表一个预测值,其是连续的。这里针对CART在回归问题上面的应用,进行简单介绍。

CART分类和回归的异同点

相同点:

1、构造的树均为二叉树。2、所有落在同一叶子结点上面的输入具有同样的输出。

不同点:

1、在进行划分属性选择时使用的判别标准不同:在分类问题中,CART算法使用基尼系数(Gini index)作为选择特征(feature)和划分 (split)的依据;在回归问题中,CART算法使用MSE(均方误差)或者MAE(平均绝对误差)作为选择特征(feature)和划分 (split)的依据。

2、在分类问题中,CART算法得到的树结构,每个叶子结点是一个类别;在回归问题中,CART算法得到的树结构,每个叶子结点是一个连续值。

CART回归树的理论解释

CART回归树的流程

 CART回归树剪枝

之前在决策树构建过程中,为了防止决策树过拟合,使用到了剪枝的方法,在回归树中同样可以使用剪枝的方法来防止过拟合。我们知道,如果让回归树无限制地生长,最终可能出现的结果是每个叶子结点只有一个训练样本,导致其在训练集过分拟合,从而在测试集上面效果很差,因此我们这里对回归树的叶子结点数量进行限制,也就是增加上面的正则化项。\alpha是一个超参,\left | T \right |代表回归树中的叶子结点的数量,最小化上面的损失函数,不希望叶子结点的数量过大。其中,\alpha可以通过交叉验证来确定,当\alpha的值确定之后,我们就可以选择\alpha对应的使得上面损失函数最小的回归树。

ID3和C4.5是否可以用于回归树

参考资料:

1.https://www.cnblogs.com/wuliytTaotao/p/10724118.html

猜你喜欢

转载自blog.csdn.net/ProQianXiao/article/details/106334454