梯度提升树(GBDT)理解

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_34886403/article/details/82704940

GBDT是集成学习方法Boosting中的一种,所以其中每个弱分类器都有先后顺序,同时每个弱分类器都有其的权重。

GBDT的思想
在GBDT的迭代过程中,假如前一轮迭代得到的强分类器是 F m 1 ( x ) ,而其的损失函数为 L ( y , F m 1 ( x ) ) ,这是本轮的的迭代就是找一个CART回归树模型(弱分类器) T ( x ; θ m ) ,让本轮的损失 L y , F m 1 + ρ m T ( x ; θ m ) 最小。简单说,就是本轮要找个决策树,使得已有的强分类器的损失变小。

“GBDT的核心”
Freidman提出用损失函数的负梯度来表示本轮损失的近似值,进而确定CART树。

假如迭代到第M轮,这时损失函数的负梯度就可以表示为如下:

g m i = [ L ( y i , F m ( x i ) ) F ( x i ) ] F ( x ) = F m 1   ( x )

其中i=1,2···N表示样本数。

这个负梯度就是本轮迭代的损失值,也就是我们优化CART树的标签。即有:

θ m = a r g m i n α , β i = 1 N [ g m i β T m ( x i ; θ ) ] 2

这里用 T m ( x ; θ ) 去拟合上面提到的“标签”,而且使用了最小二乘法的拟合方法。

同时每个弱分类器都有其的权重,这里我们可以理解成“步长”:

ρ m = a r g m i n ρ i = 1 N L ( y i , F m 1 ( x i ) + ρ T ( x i , θ m ) )

最后迭代完这轮后,得到的强分类器 F m ( x ) = F m 1 ( x ) + ρ m T ( x ; θ m )

猜你喜欢

转载自blog.csdn.net/qq_34886403/article/details/82704940