机器学习 集成学习

集成学习:构建一组基学习器(base learner),将多个基学习器的结果综合起来得到集成后的模型。

集成学习要优于单个学习器必须满足两个必要条件:

(1)多个个体学习器/基学习器之间相互独立

(2)每个个体学习器/基学习器的性能要优于随机分类器,这种个体学习器通常被称为弱学习器:弱学习器指的是性能优于随机猜测(random guess)分类器/学习器的学习器。

bagging和boosting对于基学习器的要求很低,只要基学习器的性能优于随机猜测分类器即可。

集成学习的关键步骤:

(1)如何构造不同的基学习器

(2)如何将不同的基学习器联合起来

boosting:每个分类器都将基于上次分类器的性能所决定。不同的分类器是通过串行训练得到的,当第k个分类器的分类结果得到后,同时评估分类器在数据集上的准确率,在训练第k+1个分类器时将在第k个分类器上分类错误的样本权重增大。以此类推,boosting方法通过在上一次分类器中分类错误的数据样本以获得/训练新的分类器。在将多个分类器集成时,bagging方法中的多个分类器的权重不同,取决于当前分类器在上一轮采用的数据集上的成功率。

bagging:S个分类器并行(parallel ensemble model,不同的分类器是通过并行训练得到的),对训练数据集进行S次的采样,得到S个与原始数据及规模相同的新数据集,每次采样都是bootstrap的有放回采样(这意味着对于一次采样的数据集,可以包含有原始数据集中重复的样本,而原始数据集中的某些样本则可能在采样后的数据集不再出现)。然后用S个分类器独立地训练S个数据集,得到S个训练好的分类器之后,将S个分类器投票的结果作为集成模型的预测结果。bagging方法的典型应用就是随机森林(构建多个独立的决策树)。在将多个分类器集成时,bagging方法中的多个分类器的权重相同。

猜你喜欢

转载自blog.csdn.net/WYXHAHAHA123/article/details/89553997
今日推荐