机器学习集成学习

集成学习：构建一组基学习器（base learner），将多个基学习器的结果综合起来得到集成后的模型。

集成学习要优于单个学习器必须满足两个必要条件：

（1）多个个体学习器/基学习器之间相互独立

（2）每个个体学习器/基学习器的性能要优于随机分类器，这种个体学习器通常被称为弱学习器：弱学习器指的是性能优于随机猜测（random guess）分类器/学习器的学习器。

bagging和boosting对于基学习器的要求很低，只要基学习器的性能优于随机猜测分类器即可。

集成学习的关键步骤：

（1）如何构造不同的基学习器

（2）如何将不同的基学习器联合起来

boosting：每个分类器都将基于上次分类器的性能所决定。不同的分类器是通过串行训练得到的，当第k个分类器的分类结果得到后，同时评估分类器在数据集上的准确率，在训练第k+1个分类器时将在第k个分类器上分类错误的样本权重增大。以此类推，boosting方法通过在上一次分类器中分类错误的数据样本以获得/训练新的分类器。在将多个分类器集成时，bagging方法中的多个分类器的权重不同，取决于当前分类器在上一轮采用的数据集上的成功率。

bagging：S个分类器并行（parallel ensemble model，不同的分类器是通过并行训练得到的），对训练数据集进行S次的采样，得到S个与原始数据及规模相同的新数据集，每次采样都是bootstrap的有放回采样（这意味着对于一次采样的数据集，可以包含有原始数据集中重复的样本，而原始数据集中的某些样本则可能在采样后的数据集不再出现）。然后用S个分类器独立地训练S个数据集，得到S个训练好的分类器之后，将S个分类器投票的结果作为集成模型的预测结果。bagging方法的典型应用就是随机森林（构建多个独立的决策树）。在将多个分类器集成时，bagging方法中的多个分类器的权重相同。

机器学习 集成学习

猜你喜欢

机器学习集成学习