回归树

之前的博客介绍了决策树算法在分类问题上面的应用，有提到ID3算法，C4.5算法和CART算法，其中CART（Classification And Regression Tree）分类回归树既可以用于分类，也可以用于回归，当用于分类的时候，CART树中每个叶子结点代表一个类别，在回归问题中，CART树中每个叶子结点代表一个预测值，其是连续的。这里针对CART在回归问题上面的应用，进行简单介绍。

CART分类和回归的异同点

相同点：

1、构造的树均为二叉树。2、所有落在同一叶子结点上面的输入具有同样的输出。

不同点：

1、在进行划分属性选择时使用的判别标准不同：在分类问题中，CART算法使用基尼系数（Gini index）作为选择特征（feature）和划分（split）的依据；在回归问题中，CART算法使用MSE（均方误差）或者MAE（平均绝对误差）作为选择特征（feature）和划分（split）的依据。

2、在分类问题中，CART算法得到的树结构，每个叶子结点是一个类别；在回归问题中，CART算法得到的树结构，每个叶子结点是一个连续值。

CART回归树的理论解释

CART回归树的流程

CART回归树剪枝

之前在决策树构建过程中，为了防止决策树过拟合，使用到了剪枝的方法，在回归树中同样可以使用剪枝的方法来防止过拟合。我们知道，如果让回归树无限制地生长，最终可能出现的结果是每个叶子结点只有一个训练样本，导致其在训练集过分拟合，从而在测试集上面效果很差，因此我们这里对回归树的叶子结点数量进行限制，也就是增加上面的正则化项。 $\alpha$ 是一个超参， $\left | T \right |$ 代表回归树中的叶子结点的数量，最小化上面的损失函数，不希望叶子结点的数量过大。其中， $\alpha$ 可以通过交叉验证来确定，当 $\alpha$ 的值确定之后，我们就可以选择 $\alpha$ 对应的使得上面损失函数最小的回归树。

ID3和C4.5是否可以用于回归树

参考资料：

1.https://www.cnblogs.com/wuliytTaotao/p/10724118.html

深入浅出回归树算法

回归树

CART分类和回归的异同点

CART回归树的理论解释

CART回归树的流程

CART回归树剪枝

ID3和C4.5是否可以用于回归树

猜你喜欢