集成学习基本概念

个体与集成

集成学习( e n s e m b l e   l e a r n i n g )通过构建并结合多个学习器来完成学习任务,有时候也被称为多分类器系统( m u l t i c l a s s i f i e r   s y s t e m )、基于委员会的学习( c o m m i t t e e b a s e d   l e a r n i n g )等。

通过聚集多个分类器的预测来提高分类准确率,这些技术成为组合(或者分类器组合)
组合方法由训练数据构建一组基分类器,然后对每个基分类器的预测进行投票来分类。

基本流程:

这里写图片描述

构建组合分类器的基本方法

通过处理训练数据集

样例:
装袋(bagging)和提升(boosting)
做法:
根据某种抽样分布,通过对原始数据进行再抽样来得到多个训练集。抽样分布决定了一个样本作为训练的可能性的大小,并且可能因为试验而异,然后使用特定的学习算法为每个训练集合建立一个分类器。

通过处理输入特征

样例:
随机森林(Random Forest)
做法:
通过选择输入特征的子集来形成每个训练集合。子集可以随机选择,也可以根据领域专家的建议选择。一些研究表明,对于那些含有大量冗余特征的数据集,这种方法的性能非常好。

通过处理类标号

样例: E C O C
做法:
适用于类足够多的情况,通过将类的标号随机划分为两个不相交的子集 A 0 A 1 ,把训练数据变化为二类问题。类标号属于子集 A 0 的训练样本指派到类 0 而那些类标号属于子集 A 1 的被指派到类 1 ,然后使用重新标记过的数据来训练一个基分类器。重复重新标记类和构建模型步骤多次,就得到一组基分类器。当遇到一个检验样本的时候,使用每个基分类器 C i 预测他的类标号。如果检测样本被预测为类 0 ,则所有属于 A 0 的类都的到一票。相反如果它被预测为类 1 则所有属于 A 1 的类都得到一票。最后统计选票,将检测结果指派到的得票最高的类。

通过处理学习算法

同一个训练数据集上多次执行算法可能得到不同的模型。

组合方法的一般过程:

这里写图片描述

投票方法

V o t e

平均法

简单平均法

H ( x ) = 1 T i = 1 T h i ( x )

加权平均法

H ( x ) = i = 1 T w i h i ( x )
其中 w i 是个体学习器 h i 的权重,通常要求 w i 0 , i = 1 T w i = 1

投票法

绝对多数投票法

H ( x ) = { c j , i f i = 1 T h i j ( x ) > 0.5 k = 1 N i = 1 T h i k ( x ) r e j e c t , o t h e r w i s e

若某个标记的票过半,则预测结果是该标记,否则拒绝预测。

相对多数投票法

H ( x ) = c arg max j i = 1 T h i j ( x )

加权投票法

H ( x ) = c arg max j i = 1 T w i h i j ( x )

其中 w i 是个体学习器 h i 的权重,通常要求 w i 0 , i = 1 T w i = 1

猜你喜欢

转载自blog.csdn.net/uncle_gy/article/details/80023374
今日推荐