西瓜书读书笔记(八)-集成学习

全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴

一、个体与集成

集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统(multi-classifier system)、基于委员会的学习(committee-based learning)等。

先组织一组“个体学习器”,再用某种策略将他们结合起来。

  • Boosting:个体学习器间存在强依赖关系、必须串行生成的序列化方法
  • Bagging 和 “随机森林” (Random Forest):个体学习器间不存在强依赖关系、可同时生成的并行化方法

二、Boosting

先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直至基学习器数目达到事先指定的值 T T T,最终将这 T T T个基学习器进行加权结合。

三、Bagging与随机森林

(一)Bagging

我们先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中,这样,经过 m m m次随机采样操作,我们得到含m个样本的采样集,初始训练集中有的样本在采 样集里多次出现,有的则从未出现。然后基于每个采样 集训练出一个基学习器,再将这些基学习器进行结合。

(二)随机森林

传统决策树在选择划分属性时是在当前结点的属性集合(假定有 d d d个属性)中选择一个最优属性;而在 RF中,对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含 k k k属性的子集,然后再从这个子集中选择一个最优属性用于划分.这里的参数k控制了随机性的引入程度:若令 k = d k= d k=d,则基决策树的构建与传统决策树相同; 若令 k = 1 k= 1 k=1,则是随机选择一个属性用于划分;一般情况下,推荐值 k = log ⁡ 2 d k= \log_2 d k=log2d

随机森林简单、 容易实现、 计算开销小,令人惊奇的是,它在很多现实任务中展现出强大的性能,被誉为 “代表集成学习技术水平的方法” 。

四、结合策略

有几个好处:

  1. 从统计 的方面来看,由于学习任务的假设空间往往很大,可能有多个假设在训练集上达到同等性能,此时若使用单学习器可能因误选而导致泛化性能不佳,结合多个学习器则会减小这一风险;
  2. 从计算的方面来看,学习算法往往会陷入局部极小,有的局部极小点所对应的泛化性能可能很糟糕,而通过多次运行之后进行结合,可降低陷入糟糕局部极小点的风险;
  3. 从表示的方面来看,某些学习任务的真实假设可能不在当前学习算法所考虑的假设空间中,此时若使用 单学习器则肯定无效,而通过结合多个学习器,由于相应的假设空间有所扩大,有可能学得更好的近似。
  • 平均法:简单平均法、加权平均法
  • 投票法:绝对多数投票法、相对多数投票法、加权投票法

五、多样性

  • 误差-分歧分解
  • 多样性度量
  • 多样性增强

下一章传送门:西瓜书读书笔记(九)-聚类

猜你喜欢

转载自blog.csdn.net/qq_41485273/article/details/112998947
今日推荐