040.(10.20)初识随机森林


决策树的难点在于如何设计每一步的问题。

过拟合其实正是决策树的一般属性——决策树非常容易陷得很深,因此往往会拟合局部数据(易受噪声影响),而没有对整个数据分布的大局观。
在这里插入图片描述

随机森林(Random Forest)

而随机森林作为bagging算法的一个拓展变体,利用集成学习,以多颗决策树为基学习器,最后结合。每个学习器采用自主采样法以保证学习前之间一定的独立性,同时留下样本可用于“包外估计”(这个过程也叫bootstrap)。结合时,一般对于分类任务采取投票法,对于回归任务采取平均法。分类预测若出现同样票数的情况,解决方法可以是随机选择或考察学习器投票的置信度。

在这里插入图片描述
(自主采样法,包外估计:Out-Of-Bag Estimate)

此外,随机森林的“”多样性” 还在一方面突出于bagging——在决策树的训练过程中引入随机属性选择,即从结点的属性集合中随机选取包含K个属性的子集,再从中选出一个最优属性进行划分。个体树中结点属性的随机性,进一步提高森林的随机性,也使最终集成的泛化性能进一步提升。

除了随机抽取属性,还可以将**现有的特征x,通过数组p进行线性组合,来保持多样性。这种方法使每次分支得到的不再是单一的子特征集合,而是子特征的线性组合(权重不为1。不同分支i下的是不同的,而且向量中大部分元素为零,因为我们选择的只是一部分特征,这是一种低维映射)好比在二维平面上不止得到水平线和垂直线,也能得到各种斜线。这种做法同样使子特征选择更加多样性。
在这里插入图片描述

加入属性扰动后,基学习器的性能可能会降低,但随着基学习器规模的增大,随机森林通常会收敛到更低的泛化误差。

相比 boosting 算法,bagging 主要关注降低方差,因此它在一些易受样本扰动的学习器上作用更为明显。

随机森林的 feature_selection原理

如果样本资料特征过多,这时候就需要舍弃部分特征。

Random Forest中,特征选择的核心思想是random test。做法是对于某个特征,如果用另外一个随机值替代它之后的表现比之前更差,则表明该特征比较重要,所占的权重应该较大,不能用一个随机值替代。相反,如果随机值替代后的表现没有太大差别,则表明该特征不那么重要。因此,通过比较某特征被随机值替代前后的表现,就能推断出该特征的权重和重要性。

  • 如何选择随机值:

    1.使用uniform或者gaussian抽取随机值替换原特征;

    2.permutation test(随机排序测试):将原来的所有N个样本的第i个特征值重新打乱分布。

    比较而言,第二种方法更加科学,保证了特征替代值与原特征的分布是近似的(只是重新洗牌而已)。

    在这里插入图片描述

  • 随机值替换后 performance 衡量的优化:

    N个样本的第i个特征值重新洗牌重置后,如果选择对样本D’重新训练,而且每个特征都要重复训练,然后再与原D表现比较,过程非常繁琐。

    一种常见的简化方法是,在训练的时候仍然使用D,但是在包外(OOB)验证的时候,将所有的包外样本的第i个特征重新洗牌,验证G的表现。相比前者,这种做法大大简化了计算复杂度。
    在这里插入图片描述

随机森林回归

其实随机森林也可以用作回归(处理连续变量,而不是离散变量)。随机森林回归的评估器是 RandomForestRegressor,其语法与我们之前看到的非常类似。
在这里插入图片描述

简单对比AdaBoost

如果将Bagging替换成AdaBoost,处理方式有些不同。首先每轮bootstrap得到的D’中每个样本会赋予不同的权重;然后在每个decision tree中,利用这些权重训练得到最好的;最后得出每个所占的权重,线性组合得到G。这种模型称为AdaBoost-D Tree。

推荐阅读:机器学习技法11:Gradient Boosted Decision Tree(包括对ABDT的介绍和各类集成方法的总结)

小结

随机森林是一种强大的机器学习方法,它的优势在于以下几点:

• 因为决策树的原理很简单,所以它的训练和预测速度都非常快。另外,多任务可以直接并行计算,因为每棵树都是完全独立的。

• 多棵树可以进行概率分类:多个评估器之间的多数投票可以给出概率的估计值(使用Scikit-Learn 的 predict_proba() 方法)。

• 相比标准 Adaboost 算法,能处理多分类问题。

• 在其他评估器都欠拟合的任务中表现突出。

随机森林的主要缺点在于其结果不太容易解释,也就是说,如果想要总结分类模型的意义,随机森林可能不是最佳选择。

猜你喜欢

转载自blog.csdn.net/u013598957/article/details/107845842