XGBoost（集成学习)一文入门

以前对机器学习只有很基本粗糙的了解，因为最近有用到xgboost，所以在实践的过程中顺便加深了对机器学习的一些基本概念以及集成学习的理解，本文并没有很深入，因为很多其他博文写的比我要好，所以本文相当于一个综述，一些链接和补充的机器学习基本概念在附录。

集成学习是把个体学习器（分类器）组合成一个强学习器，组合的方式有两类，一类是个体学习器之间不存在强依赖关系，比如bagging和随机森林（Random Forest）算法（随机选择样本和特征，通过投票获取最好的结果）。另一类是将多个弱学习器组合成一个强学习器，比如boosting系列算法，本文介绍的XGBoost(eXtreme Gradient Boosting)极端梯度提升，就是用加法模型将CART（回归分类）树组合起来，联合决策，下一棵树的输入样本与之前决策树的训练和预测相关。

以下确定频率派统计机器学习的三个要素：模型+策略+方法

模型：

对于xgboost，预测结果为每棵树对于输入 $x_{i}$ 的输出得分（即叶子节点得分值 $\omega$ ，这个值是在下面目标函数求解中优化得到的，而不是简单的取节点内样本均值）相加之和，k表示第k棵树。每次加入一棵树都期望可以降低损失函数的值（但是循环迭代停止的条件除了损失函数不再下降还有树的深度max_depth达到最大,样本权重和min_child_weight，树的个数n_estimators等）。