aprendió
Descripción general
1. Algoritmo integrado
Los resultados del modelado de múltiples estimadores se agregan para obtener un mejor rendimiento de regresión o clasificación que un solo modelo.
Hay tres tipos de modelos que componen el evaluador integrado: embolsado, impulsado y apilado.
El modelo representativo del método de impulso:
el clasificador base del bosque aleatorio adaboost es el árbol de decisión.
- Cómo ramificar:
la impureza del árbol de clasificación: coeficiente de Gini o entropía de información,
la impureza del árbol de regresión: error cuadrático medio de MSE
1. Proceso básico de modelado de números aleatorios.
from sklearn.tree import RandomForestClassifier as rf
tree=rf()
tree=tree.fit(x_train,y_train)
score=tree.score(x_test,y_test)
2.Parámetros importantes
- criterio
- máxima profundidad
- min_samples_leaf
- min_samples_split
- características_max
- min_impurity_decrease: las ramas con una ganancia de información menor que el valor establecido no volverán a ocurrir
- n_estimators: el número de evaluaciones base, cuanto mayor sea el número, mejor será el efecto del modelo, pero la cantidad de cálculo y memoria también será mayor. Valor predeterminado 100 en la versión 0.22
3.Modelado
Bosques aleatorios y árboles de decisión:
Interfaz:
- .estimadores_
- .oob_score_: precisión fuera de la bolsa
- predecir: probabilidad de predicción
Ajustar parámetros:
- Generalmente se basa en la experiencia: al buscar el punto más bajo de error de generalización, el modelo general de bosque aleatorio es más complejo.
- Generalmente, los estimadores tienen un mayor impacto en el rendimiento, seguidos de max_profundidad, min_samples_leaf y min_samples_split, max_features, criterios. Si la capacidad de generalización es pobre, concéntrese en max_profundidad, min_samples_leaf y min_samples_split.