Python3机器学习实践：集成学习之GBDT

1、GBDT说明

GBDT是Gradient Boosting Decison Tree的简称，其中Gradient是梯度，是这个方法的核心；Boosting是提升树，是这个方法的框架；Decision Tree是决策树，是实现这个方法用到的模型。
GBDT可以解决回归问题，经过一些处理也可以解决分类(二类、多类)问题，但是用到的树都是回归树，这一点需要牢记。
首先通过简单的回归例子说明一下提升树(Boosting)：

如果样本1的输出真实值为10，树T1针对样本1的预测值为18，
然后我们让树T2去拟合样本1的值为10-18=-8(残差)。如果树T2的输出值为-10，
我们再让树T3去拟合-8-(-10)=2(残差)，结果树T3的预测值为1。
如果到此迭代结束，在最终对样本1的预测值为：18+(-10)+1=9。

到这里，提升回归树的流程就大致清楚了。也就是通过多轮迭代，每轮迭代产生一个弱模型，每个模型都是在上一个模型的残差基础上进行训练的，最后将所有树的结果求和得出最终的结果。
GBDT就是在提升树的基础上，利用了梯度提升的方法，也就是用损失函数的负梯度在当前模型下的值来作为提升树中残差的近似值。对于GBDT用于回归问题而言，如果损失函数定义为MSE，则其负梯度就是残差。因此残差是损失函数负梯度的一种特殊情况。负梯度是残差这种思想的一般化。残差只可以用于回归问题，但是这种负梯度的思想也可用于分类问题。