scikit-learn 集成学习ensemble methods参数使用总结

sklearn.ensemble模块里面包含的集成学习方法可以用于分类、回归以及异常检测

ensemble.AdaBoostClassfier

ensemble.AdaBoostRegressor

AdaBoost重要参数包括两部分：一个是对AdaBoost框架进行调参，一个是对弱分类器进行调参

AdaBoost框架参数

base_estimator:基学习器，默认是决策树

algorithm:只有分类adaboost有

loss:只有回归adaboost有，损失函数类型

n_estimators:学习器最大迭代次数

learning_rate:学习器的权重缩减系数

学习器的参数

max_features:划分时考虑的最大特征数

max_depth:决策树的最大深度

min_samples_split:限制子树继续划分的条件，如果某结点的样本数少于它，就不会再继续划分

min_samples_leaf:限制叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟结点一起被减掉

max_laef_nodes:最大叶子结点数，防止过拟合

ensemble.GradientBoostClassifier

ensemble.GradientBoostRegressor

GBDT重要的参数包括两个部分，一个时boosting框架的参数，一个是CART回归树的参数

boosting框架参数

n_estimators:学习器的最大迭代次数

learning_rate:每个学习器的权重缩减系数

subsample:(0,1],子采样。随机森林是有放回的采样，这里是不放回的采样

init:初始化弱学习器

loss:GBDT的损失函数，分类模型和回归模型的损失函数不一样的

CART回归树学习器的参数

max_features:划分时考虑的最大特征数

max_depth:决策树的最大深度

min_samples_split:限制子树继续划分的条件，如果某结点的样本数少于它，就不会再继续划分

min_samples_leaf:限制叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟结点一起被减掉

max_laef_nodes:最大叶子结点数，防止过拟合

ensemble.RandomForestClassifier

ensemble.RandomForestRegressor

RF随机森林需要调参的参数包括两部分，一个是Bagging框架的参数，一个是CART决策树的参数

Bagging框架的参数：

n_estimator:学习器的最大迭代初始（弱学习器的个数），

oob_score:是否采用袋外样本来评估模型的好坏，默认为False.设置为True，袋外分树可以反映模型拟合后的泛化能力。

criterion:特征划分时的评价标准

RF决策树参数

max_features:划分时考虑的最大特征数

max_depth:决策树的最大深度

min_samples_split:限制子树继续划分的条件，如果某结点的样本数少于它，就不会再继续划分

min_samples_leaf:限制叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟结点一起被减掉

max_laef_nodes:最大叶子结点数，防止过拟合