提升树（实例）

原始数据
已知训练数据如上表所示，x的取值范围为区间[0.5,10.5]，y的取值范围为区间[5.0,10.0]，学习这个回归问题的提升树模型，考虑只用树桩作为基函数。

解
既然是一个提升树, $f_M (x)=\sum_{m=1}^{M}T(x;θ_m )$ ,那么第一步需要求 $f_1 (x)$ ,即回归树 $T_1 (x)$ ,首先通过以下优化问题,
$\min_{s}⁡[\min_{e_1} ⁡\sum_{x_i∈R_1}(y_i-c_1 )^2+\min_{e_2}\sum_{x_i∈R_2}(y_i-c_2 )^2 ]$
然后求解训练数据的的切分点S， $R_1=\{x|x≤s\} ,R_2=\{x|x>s\}$ ,容易求得在 $R_1$ 和 $R_2$ 内部使平方损失误差达到最小值的 $c_1$ 和 $c_2$ ,分别为 $c_1=\frac{1}{N_1}\sum_{x_i∈R_1}y_i$ , $c_2=\frac{1}{N_2}\sum_{x_i∈R_2}y_i$ ,这里 $N_1$ ， $N_2$ 是样本个数。
$m(s)=\min_{e_1}\sum_{x_i∈R_1}(y_i-c_1 )^2+\min_{e_2}⁡\sum_{x_i∈R_2}(y_i-c_2 )^2$
将上面的想法应用到数据上，考虑切分点：1.5，2.5，3.5，4.5，5.5，6.5，7.5，8.5，9.5。
当s=1.5, $R_1$ ={1}, $R_2$ ={2,3,4,5,6,7,8,9,10}, $c_1$ =5.56, $c_2$ =7.50, m(s)=0+15.72=15.72；将s和m(s) 计算结果记录。
一次决策分裂数据
由上表可知，当s=6.5时， m(s)达到最小值，此时 $R_1$ ={1,2,3,4,5,6}, $R_2$ ={7,8,9,10}, $c_1$ =6.24, $c_2$ =8.91,所以回归树 $T_1 (x)=\begin{cases} 6.24，&x\lt6.5 \\ 8.91，&x\ge6.5 \end{cases}$ ,而 $f_1 (2)=T_1 (x)$ , $f_1 (x_i)$ 拟合训练数据的残差 $r_{2i}=y_i-f_1 (x_i)$ ,结果如下，
在这里插入图片描述
使用 $f_1 (x_i)$ 拟合训练数据的平方损失误差： $L(y,f_1 (x))= \sum_{i=1}^{10}(y_i-f_1 (x_i))^2=1.93$ ,以此类推,拟合数据为表中残差。
以上表残差作为初始数据，重复进行计算，可得 $T_2 (x)=\begin{cases} -0.52，&x\lt3.5\\ 0.22，&x\ge3.5 \end{cases}$ , $f_2 (x)= f_1 (x_i )+T_2 (x)=\begin{cases} 5.72，&x\lt3.5\\ 6.46，&3.5\le x\lt6.5\\ 9.13，&x\ge6.5 \end{cases}$ ,使用 $f_2 (x_i)$ 拟合训练数据的平方损失误差： $L(y,f_2 (x))= \sum_{i=1}^{10}(y_i-f_2 (x_i))^2=0.79$

GBDT梯度提升树（一）

提升树（实例）

猜你喜欢