统计学习方法笔记（十二）提升方法（二）

提升树

提升树是以分类树或回归树为基本分类器的提升方法
1、提升树模型
以决策树为基函数的提升方法称为提升树，对分类问题决策树是二叉分类树，对回归问题决策树是二叉回归树。提升树模型可以表示为决策树的加法模型：
${f_M}(x) = \sum\limits_{m = 1}^M {T(x;{\Theta _m})}$
其中， ${T(x;{\Theta _m})}$ 表示决策树； ${{\Theta _m}}$ 为决策树的参数； $M$ 为树的个数。
2、提升树算法
首先确定初始提升树 $f_0(x)=0$ ，第m步的模型是：
${f_m}(x) = {f_{m - 1}}(x) + T(x;{\Theta _m})$
通过经验风险极小化来确定下一棵决策树的参数：
${\widehat \Theta _m} = \arg \mathop {\min }\limits_{{\Theta _m}} \sum\limits_{i = 1}^N {L({y_i},{f_{m - 1}}({x_i}) + T({x_i};{\Theta _m})} )$
（1）回归问题的提升树
回归树的模型为：
$T(x;{\Theta _m}) = \sum\limits_{j = 1}^J {{c_j}I(x \in {R_j})}$
参数更新同上，只不过，采用了平方误差损失函数，其损失为：
$\begin{array}{l} L(y,{f_{m - 1}}(x) + T(x;{\Theta _m}))\ = {[y - {f_{m - 1}}(x) - T(x;{\Theta _m})]^2}\ = {[r - T(x;{\Theta _m})]^2} \end{array}$
此时， $y - {f_{m - 1}}(x)$ 是模型拟合数据的残差，对于回归问题来说，拟合这个残差是相当简单的。
3、梯度提升
其关键在于利用损失函数的负梯度在当前模型的值 $- {\left[ {\frac{{\partial L(y,f({x_i}))}}{{\partial f({x_i})}}} \right]_{f(x) = {f_{m - 1}}(x)}}$ 作为回归问题提升树算法中的残差的近似值，拟合一个回归树
步骤：
（1）初始化： ${f_0}(x) = \arg \mathop {\min }\limits_c \sum\limits_{i = 1}^N {L({y_i},c)}$
（2）计算残差： ${r_{mi}} = - {\left[ {\frac{{\partial L(y,f({x_i}))}}{{\partial f({x_i})}}} \right]_{f(x) = {f_{m - 1}}(x)}}$
（3）对残差拟合回归树
（4）计算： ${c_{mj}} = \arg \mathop {\min }\limits_c \sum\limits_{{x_i} \in {R_{mj}}} {L({y_i},{f_{m - 1}}({x_i}) + c)}$
（5）更新 ${f_m}(x) = {f_{m - 1}}(x) + \sum\limits_{j = 1}^J {{c_{mj}}I(x \in {R_{mj}})}$
（6）得到回归树 $\widehat f(x) = {f_M}(x) = \sum\limits_{m = 1}^M {\sum\limits_{j = 1}^J {{c_{mj}}I(x \in {R_{mj}})} }$

统计学习方法笔记（十二）提升方法（二）

提升树

猜你喜欢