吃瓜教程笔记—Task 07(集成学习)

集成学习

集成学习原理

 集成学习:通过构建并结合多个学习器来完成学习任务,并提升预测结果的准确性和泛化能力。在这里插入图片描述
例子说明:
在这里插入图片描述

 集成学习中的个体学习器必须满足两个条件:1、泛化误差要小于50%,即预测性能要比随机猜想强。2、预测的结果是有差异性的。

Adaboost算法

 Boosting是一族可将弱学习器提升为强学习器的算法,这族算法的工作机制类似于:先从初始训练集训练出一个基学习器,在根据集学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多的关注,然后基于调整后的样本分布来训练下一个基学习器,如此重复学习,直至基学习器数目达到事先指定的值T,最终将这T个基学习器进行加权结合。而Adaboost算法是作为Boosting的代表。

在这里插入图片描述
在这里插入图片描述

Gradient Boosting

在这里插入图片描述
 把H(X)和f(x)的条件放宽后,就可应用于二分类、多分类和回归种种机器问题学习上。在这里插入图片描述
在这里插入图片描述

GBDT

 Adaboost用于处理二分类问题,而GBDT是用于处理多分类回归问题。
在这里插入图片描述

Bagging

 boosting是一种串行的集成学习方法,而Bagging是并行式集成学习的代表在这里插入图片描述
 自助采样法:给定包含m个样本的数据集,我们先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中,这样经过m个样本的采样集,初始训练集中有的样本在采样集里多次出现,有的则未出现,初始训练集中约有63.2%的样本出现在采样集中。

随机森林(Random Forest)

 随机森林是Bagging的一个扩展变体,在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入属性的随机选择。
 假设样本包含d个属性对基决策树的每个节点,先从该节点的属性结合中随机选择包含k(k<=d)个属性的子集用来进行最优划分。
 随机森林训练效率通常由于Bagging,因为每个节点的划分只需要部分属性参与,而随机森林的泛化误差通常要低于Bagging,因为属性的扰动为每个基决策树提供了更高的鲁棒性。

参考:西瓜书、南瓜书视频

猜你喜欢

转载自blog.csdn.net/weixin_44195690/article/details/129527937
今日推荐