scikit-learn 集成学习ensemble methods参数使用总结

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/weixin_40042143/article/details/88233962

sklearn.ensemble模块里面包含的集成学习方法可以用于分类、回归以及异常检测

ensemble.AdaBoostClassfier

ensemble.AdaBoostRegressor

AdaBoost重要参数包括两部分:一个是对AdaBoost框架进行调参,一个是对弱分类器进行调参

AdaBoost框架参数

base_estimator:基学习器,默认是决策树

algorithm:只有分类adaboost有

loss:只有回归adaboost有,损失函数类型

n_estimators:学习器最大迭代次数

learning_rate:学习器的权重缩减系数

学习器的参数

max_features:划分时考虑的最大特征数

max_depth:决策树的最大深度

min_samples_split:限制子树继续划分的条件,如果某结点的样本数少于它,就不会再继续划分

min_samples_leaf:限制叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟结点一起被减掉

max_laef_nodes:最大叶子结点数,防止过拟合


ensemble.GradientBoostClassifier

ensemble.GradientBoostRegressor

GBDT重要的参数包括两个部分,一个时boosting框架的参数,一个是CART回归树的参数

boosting框架参数

n_estimators:学习器的最大迭代次数

learning_rate:每个学习器的权重缩减系数

subsample:(0,1],子采样。随机森林是有放回的采样,这里是不放回的采样

init:初始化弱学习器

loss:GBDT的损失函数,分类模型和回归模型的损失函数不一样的

CART回归树学习器的参数

max_features:划分时考虑的最大特征数

max_depth:决策树的最大深度

min_samples_split:限制子树继续划分的条件,如果某结点的样本数少于它,就不会再继续划分

min_samples_leaf:限制叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟结点一起被减掉

max_laef_nodes:最大叶子结点数,防止过拟合


ensemble.RandomForestClassifier

ensemble.RandomForestRegressor

RF随机森林需要调参的参数包括两部分,一个是Bagging框架的参数,一个是CART决策树的参数

Bagging框架的参数:

n_estimator:学习器的最大迭代初始(弱学习器的个数),

oob_score:是否采用袋外样本来评估模型的好坏,默认为False.设置为True,袋外分树可以反映模型拟合后的泛化能力。

criterion:特征划分时的评价标准

RF决策树参数

max_features:划分时考虑的最大特征数

max_depth:决策树的最大深度

min_samples_split:限制子树继续划分的条件,如果某结点的样本数少于它,就不会再继续划分

min_samples_leaf:限制叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟结点一起被减掉

max_laef_nodes:最大叶子结点数,防止过拟合

猜你喜欢

转载自blog.csdn.net/weixin_40042143/article/details/88233962