《机器学习》周志华 集成学习

8.1个体集成

        个体学习器可以由  C4.5决策树算法  BP神经网络等  来训练。

        个体学习器(同质)---->基学习器(弱学习器---指泛化性能略优于随机猜测的学习器,如二分类问题上精度略高于50%的分类器)  相应的算法叫做  基学习算法。

        个体学习器(异质)----->组件学习器或者直接称为个体学习器。

        (理论上来说)对“弱学习器”,将多个学习器结合,常可获得比单一学习器显著优越的泛化性能 。

        (实践中来说)常用的学习器“好而不同“,即个体学习器要有一定的”准确性“,学习器不能太坏,并且要有”多样性“,学习器之间要有差异。

        而且基于分类器的错误率相互独立的假设,由Hoeffding不等式,我们推断出了随着集成中个体分类器的数目T的增大,集成的错误率将指数级下降,最终趋于0。但这是基于个体分类器相互独立的前提下做出的判断,实际中的个体学习器是为解决一个问题训练出来的,他们显然不可能相互独立!事实上,个体学习器的”准确性“和”多样性“本来就存在冲突。    如何产生并结合”好而不同“的学习器是集成学习研究的核心

        集成学习的分类(按照个体学习器的生成方式)可分为

        {1.个体学习器间存在强依赖关系、必须串行生成的序列化方法。------>Boosting

        2.个体学习器间不存在强依赖关系、可同时生成的并行化方法。------>Bagging和”随机森林“}

8.2Boosting

        基本思想:1.先从初始训练集训练出一个基学习器。

                         2.再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受                             到更多关注。

                         3.然后基于调整后的样本分布来训练下一个基学习器。

                         4.重复上边2,3步,直到基学习器的数目达到事先指定的值T。

                         5.最后将T个基学习器进行加权结合。

           

        





猜你喜欢

转载自blog.csdn.net/qq_42242132/article/details/80780950