什么是随机森林

随机森林概述******

在我们学习随机森林前,要对决策树有一定了解,尤其对其中决策树生成算法要做理解,详见博客。

森林顾名思义,由很多棵树组成,这一颗颗树就是我们需要构造的决策树,由这些树组成的森林就是随机森林,

当我们输入一个要预测分类的数据时,每个决策树都会接收数据并产生一个分类结果,然后采用‘投票机制’,认为哪个结果出现次数最多就归为哪一类。

随机森林构造过程*

随机森林构造过程分为四步:随机样本的选取,随机选择特征,构建决策树,随机森林投票分类

1.随机样本的选取

我们采用bootstrap自助法进行样本选择,假设有训练数据有N个,我们有放回的采取N个样本,构成新的训练集。简单来说,就是取样N次,每次随机选取一个样本后,再放回,直至选取够N个样本。每次构造决策树时都要进行一次随机样本的选取。

2.随机选择特征

对于每颗要生成的决策树,我们要从p维的特征中选取m个特征来进行构造,m的取值关系到决策树之间的关联性,m大关联性就大,误差就大,所以m选取一般要比p小,一般都选在p的平方根

3.构建决策树

这一步我们可以参考博客中的决策树算法,可以采用信息熵或者GINI系数作为分裂特征的选择,关于构建多少颗树,一般选择在100左右,有关详见http://www.docin.com/p-1188586178.html,注意我们得到的决策树可以不进行剪枝,因为前面两个随机选择,使得树在一定程度上能减轻过拟合,但不能完全消除过拟合,过拟合和样本质量,样本数量,样本特征数量和特征相关性都有关系。

4.随机森林投票

当所有决策树构造完成时,我们的随机森林就形成了,现在就可以对要预测的数据进行分类,采用专家投票机制,选定出现次数最多的类别作为预测的类别

随机森林的优缺点*********

优点:

它能够处理很高维度(feature很多)的数据,并且不用做特征选择;
由于随机选择样本导致的每次学习决策树使用不同训练集,所以可以一定程度上避免过拟合;

缺点:

随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合;
对于有不同级别的属性的数据,级别划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的

猜你喜欢

转载自blog.csdn.net/a_2435542821/article/details/83589760