Capítulo 2: Bosque aleatorio: 1. Algoritmo de conjunto 1. Proceso básico de modelado de números aleatorios 2. Parámetros importantes 3. Modelado

Descripción general

1. Algoritmo integrado

Los resultados del modelado de múltiples estimadores se agregan para obtener un mejor rendimiento de regresión o clasificación que un solo modelo.
Hay tres tipos de modelos que componen el evaluador integrado: embolsado, impulsado y apilado.
Insertar descripción de la imagen aquí
El modelo representativo del método de impulso:
el clasificador base del bosque aleatorio adaboost es el árbol de decisión.

  • Cómo ramificar:
    la impureza del árbol de clasificación: coeficiente de Gini o entropía de información,
    la impureza del árbol de regresión: error cuadrático medio de MSE

1. Proceso básico de modelado de números aleatorios.

from sklearn.tree import RandomForestClassifier as rf

tree=rf()
tree=tree.fit(x_train,y_train)
score=tree.score(x_test,y_test)

2.Parámetros importantes

  • criterio
  • máxima profundidad
  • min_samples_leaf
  • min_samples_split
  • características_max
  • min_impurity_decrease: las ramas con una ganancia de información menor que el valor establecido no volverán a ocurrir
  • n_estimators: el número de evaluaciones base, cuanto mayor sea el número, mejor será el efecto del modelo, pero la cantidad de cálculo y memoria también será mayor. Valor predeterminado 100 en la versión 0.22

3.Modelado

Bosques aleatorios y árboles de decisión:
Insertar descripción de la imagen aquí
Interfaz:

  • .estimadores_
  • .oob_score_: precisión fuera de la bolsa
  • predecir: probabilidad de predicción

Ajustar parámetros:

  • Generalmente se basa en la experiencia: al buscar el punto más bajo de error de generalización, el modelo general de bosque aleatorio es más complejo.
  • Generalmente, los estimadores tienen un mayor impacto en el rendimiento, seguidos de max_profundidad, min_samples_leaf y min_samples_split, max_features, criterios. Si la capacidad de generalización es pobre, concéntrese en max_profundidad, min_samples_leaf y min_samples_split.

Supongo que te gusta

Origin blog.csdn.net/qq_53982314/article/details/131186128
Recomendado
Clasificación