ML-提升方法和决策树学习笔记

集成学习

集成学习通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统，基于委员会的学习。

同质集成：只包含同种类型的个体学习器。

异质集成：包含不同类型的个体学习器。

根据个体学习器的生成方式，目前的集成学习方法大致可分为两大类，即个体学习器间存在强依赖关系，必须串行生成的序列化方法，以及个体学习器间不存在强依赖关系，可同时生成的并行化方法；前者的代表是Boosting，后者的代表是Bagging（Boostrap AGGregatING）和随机森林。

为了保证尽量的独立，bagging的做法是：给定一个训练数据集，一种可能的做法是对训练样本进行采样，产生若干个不同的子集，再从每个数据子集中训练出一个基学习器。基于自助采样法，给定包含m个样本的数据集，我们随机取出一个样本放入采样集中，再把该样本放回数据集，使得下次采样时该样本仍有可能被选中。

Bagging通常对分类任务采用简单投票法，对回归任务使用简单平均法。

标准AdaBoost只适用于二分类任务，Bagging能不经修改地用于多分类，回归等任务。

随机森林（Random Forest）以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入随机属性选择。传统决策树在选择划分属性是在当前结点的属性集合中选择一个最优属性；在RF中，对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含k个属性的子集，然后再从这个子集中选择一个最优属性用于划分。带来属性扰动和样本扰动。通常随着个体学习器数目的增加，随机森林通常会收敛到更低的泛化误差。

扫描二维码关注公众号，回复： 4366978 查看本文章

提升方法

此为《统计学习方法》的读书笔记，摘录自己认为重要的概念。

提升方法就是从弱学习算法出发，反复学习，得到一系列弱分类器（又称基本分类器），然后组合这些弱分类器，组合成一个强分类器。大多数的提升方法都是改变训练数据的概率分布，针对不同的训练数据分布调用弱学习算法学习一系列弱分类器。

这样，对于提升方法来说，有两个问题需要回答：一是在每一轮如何改变训练数据的权值或概率分布;第二是如何将弱分类器组合成为一个强分类器。

AdaBoosting 的做法是对于第一个问题：提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。导致那些没有得到正确分类的数据，由于其权值的加大而受到后一轮的弱分类器的更大关注。第二个问题：加大分类错误误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差率大的弱分类器的权值，使其在表决中起较小的作用。

决策树由特征选择，树的生成以及剪枝组成。

ID3算法的核心是在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树

C4.5算法在生成的过程中，用信息增益比来选择特征。

决策树过拟合的原因在于学习时过多地考虑如何提高对训练数据的正确分类，从而构建出过于复杂的决策树。解决这个问题的办法是考虑决策树的复杂度，对已生成的决策树进行简化，这个过程叫做剪枝。从已经生成的树上裁掉一些子树或叶结点，并将其根结点或者父结点作为新的叶结点，从而简化分类树模型。

决策树的剪枝往往通过极小化决策树整体的损失函数或代价函数来实现。

决策树生成只考虑了通过提高信息增益（或者信息增益比）对训练数据进行更好的拟合。而决策树剪枝通过优化损失函数还考虑了减小模型复杂度。决策树生成学习局部的模型，而决策树剪枝学习整体的模型。

损失函数的极小化等价于正则化的极大似然估计。因此，利用损失函数最小原则进行剪枝就是用正则化的极大似然估计进行模型选择。

决策树的剪枝算法可以由一种动态规划的算法实现。

分类与回归树（Classification And Regression Tree, CART）既可以用于分类也可以用于回归。

生成：对回归树用平方误差最小化准则，对于分类树用基尼指数最小化准则。

一个回归树对应着输入空间（即特征空间）的一个划分以及在划分上的单元上的输出值。当输入空间的划分确定时，可以用平均误差来表示回归树对于训练数据的预测误差，用平方误差最小的准则求解每个单元上的最优输出值。

基尼指数表示集合的不确定性，与熵类似。

剪枝算法从完全生长的决策树的底端剪去一些子树，使决策树变小（模型变简单），从而能够对未知数据有更准确的预测，CART剪枝算法由两步组成：首先从生成算法产生的决策树底端开始不断剪枝，直到根结点，形成一个子树序列；然后通过交叉验证法在独立的验证数据集上对子树序列进行测试，从中选择最优子树。

ML-提升方法和决策树学习笔记

猜你喜欢