《机器学习》周志华集成学习

8.1个体集成

个体学习器可以由 C4.5决策树算法 BP神经网络等来训练。

个体学习器(同质)---->基学习器(弱学习器---指泛化性能略优于随机猜测的学习器，如二分类问题上精度略高于50%的分类器) 相应的算法叫做基学习算法。

个体学习器(异质)----->组件学习器或者直接称为个体学习器。

(理论上来说)对“弱学习器”，将多个学习器结合，常可获得比单一学习器显著优越的泛化性能。

(实践中来说)常用的学习器“好而不同“，即个体学习器要有一定的”准确性“，学习器不能太坏，并且要有”多样性“，学习器之间要有差异。

而且基于分类器的错误率相互独立的假设，由Hoeffding不等式，我们推断出了随着集成中个体分类器的数目T的增大，集成的错误率将指数级下降，最终趋于0。但这是基于个体分类器相互独立的前提下做出的判断，实际中的个体学习器是为解决一个问题训练出来的，他们显然不可能相互独立！事实上，个体学习器的”准确性“和”多样性“本来就存在冲突。 如何产生并结合”好而不同“的学习器是集成学习研究的核心。

集成学习的分类(按照个体学习器的生成方式)可分为

{1.个体学习器间存在强依赖关系、必须串行生成的序列化方法。------>Boosting

2.个体学习器间不存在强依赖关系、可同时生成的并行化方法。------>Bagging和”随机森林“}

8.2Boosting

基本思想：1.先从初始训练集训练出一个基学习器。

2.再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注。

3.然后基于调整后的样本分布来训练下一个基学习器。

4.重复上边2，3步，直到基学习器的数目达到事先指定的值T。

5.最后将T个基学习器进行加权结合。

《机器学习》周志华 集成学习

猜你喜欢

《机器学习》周志华集成学习