041.(10.23)集成学习之学习策略与多样性

常见学习策略

回归问题

  1. 平均法

  2. 加权平均

    由于数据中样本不充分或噪声的影响,学出的权重有可能不靠谱,这时该方法未必优于普通平均法。

分类问题

  1. 绝对多数投票法

    标记过半,则预测为该标记。

  2. 相对多数投票法

    预测为得票最多的标记。若存在得票数目相同的标记,则随机选择一个。

  3. 加权投票法

注意,不同类型的输出值不能混用(如基学习器异质),可以看看是否有相应的转换技术。

在这里插入图片描述

学习法

当训练数据很多时,可通过另一个学习器进行结合,stacking是其中的代表。这里把用于结合的学习器称为次学习器或元学习器。

在这里插入图片描述
注意,在次级学习阶段,如果直接用初级学习器的训练集产生次级训练集,过拟合风险较大。因此,可以考虑交叉验证(如每一折中的训练集-初级,测试集-次级)、留一法等方式选取。

多样性

分歧(以回归为例)

在这里插入图片描述
集成的分歧可以体现个体学习器的差异。

误差

在这里插入图片描述

误差-分歧分解

在这里插入图片描述

(E为集成的泛化误差)

由上述公式可以看出,个体学习器准确性越高、多样性越大,集成越好。

详细推导可见:
Vincent__Lai:西瓜书集成学习的误差-分歧分解公式推导

多样性度量(一般指分类问题)

常见的多样性度量:不和度量、相关系数、Q-统计量、k-统计量

多样性增强

常见的增强方式有数据样本扰动、输入属性扰动、输出表示扰动、算法参数扰动。前两者在前面有提到过。

  • 输出表示扰动:对输出操纵,如翻转部分分类结果,随机改变一些样本标记、对输出表示进行转化,可以是类别转化为回归,等等。

  • 算法参数扰动:
    在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/u013598957/article/details/109280408