Ocho, árbol de decisiones y el bosque al azar

URL de referencia:

https://jakevdp.github.io/PythonDataScienceHandbook/05.08-random-forests.html

No Parámetro Random Bosque algoritmo, es un método integrado para formar el efecto acumulativo de la relativamente simple integración de una pluralidad de evaluador, es decir, el resultado final de la mayoría de votos de varios evaluador (voto de la mayoría) tienden a funcionar mejor que un solo voto evaluador.

1, incentivos bosque aleatorio: Árbol  

  Random Forests árbol de decisión se construye sobre la base del alumno integrado.

  Árbol con una manera muy intuitiva de las cosas clasificar o etiqueta de juego: sólo pide una serie de preguntas puede ser clasificado.

  Ramas de los árboles binarios se pueden método muy eficaz para clasificar: una estructura racional en el árbol de decisión, cada problema es básicamente el tipo de posibilidades puede ser reducido a la mitad, cuando un gran número de especies de tomar decisiones, aunque también es posible reducir rápidamente sus opciones gama.

  La dificultad es cómo diseñar un árbol de decisión para cada paso del problema, en el árbol de decisión algoritmo de aprendizaje automático, por lo general debido a problemas en la forma de límites de clasificación característica es paralelo al eje de los datos divididos causado, es decir, cada nodo del árbol de decisión de acuerdo con una una característica de umbral de los datos en dos grupos.

  1, crear un árbol de decisión

    

 

 

    Un árbol de decisión simple construido sobre este conjunto de datos será una característica continua o otra de las características de los datos se dividen de acuerdo a una determinada condición de determinación.

    Cada tiempo de división, se distribuirá voto de la mayoría dentro de los puntos de etiqueta a la nueva área de la región.

    

 

 

    Después de dividir un arma blanca, en las ramas superiores de la mitad de todos los puntos de datos no se cambian, por lo que la rama no tiene por qué seguir dividiendo. A menos que un nodo comprende solamente un color, entonces cada necesidad de ser dividida para dividir cada región en una de las dos características.

    

 

 

     

 

 

 

  2, árboles de decisión y sobreajuste

    Es más ajustado y las propiedades generales de árbol - el árbol es muy fácil caer muy profundo, y por lo tanto tienden a ajustar los datos locales, pero el panorama no es toda la distribución de los datos, que la formación modelo es diferente subconjunto de los datos.

2, el algoritmo de evaluación integrada: Random Bosques

  Al combinar múltiples exceso de ajuste evaluador para reducir la extensión de la idea de exceso de ajuste es en realidad un enfoque de aprendizaje integrado, llamado algoritmo de ensacado.

  Embolsado algoritmo utiliza los datos se evaluaron en paralelo con una retroextracción integrado, cada evaluador están sobre-ajuste de los datos, los resultados de la clasificación pueden ser obtenidos por mejor promedio.

  algoritmo de árbol de decisión integrado al azar es al azar forestal.

  

 

 

    Si se determina cómo los datos se divide por un método aleatorio (estocasticidad), árboles de decisión encajan aleatoriedad sería más eficaz, al hacerlo permite que todos los datos a ser instalado en cada entrenamiento, pero el resultado todavía estaba en condiciones de ser al azar .

   integración aleatoria del algoritmo de árbol de decisión optimización se lleva a cabo por RandomForestClassifier evaluador, automáticamente se asignaron al azar en la toma scikit-learn, es decir, sólo tiene que seleccionar un evaluador de grupo, que se puede completar muy rápidamente (si es necesaria la computación paralela ) por árbol adaptarse a la tarea.

  

 

 

 

3, la regresión bosque aleatorio

  Azar bosques también se puede utilizar como un retorno (manejar variable continua en lugar de las variables discretas).

  Evaluador de regresión aleatoria forestal es RandomForestRegressor.

  

 

 

   

 

 

  Modelo de verdad es una curva suave, y líneas en zigzag modelo Random Forest.

  Como puede verse en la figura, sin parámetros modelo Random Forest es muy adecuado para el manejo de datos multi-ciclo, no es necesario configurar un modelo de múltiples ciclos.

4, caso: el reconocimiento de números escritos a mano con el bosque al azar

  

 

   

 

   

 

 

5, Resumen Random Forests

  Los bosques aleatorios es un poderoso método de aprendizaje de máquina, sus ventajas:

  (1) porque el principio es muy simple árbol de decisiones, por lo que es la formación y la previsión de la velocidad es muy rápido. Además, la computación paralela puede multi-tarea directamente, ya que cada árbol es completamente independiente.

  (2) varios árboles pueden ser clasificación probabilística: un voto de la mayoría entre la pluralidad de evaluación de la estimación de probabilidad se puede dar (usando método predict_proba () la scikit-learn)

  modelo (3) no paramétrico es muy flexible, un rendimiento excepcional en otro evaluador debe montar tareas.

  La principal desventaja de Random Bosque se encuentra en sus resultados no es fácil de explicar, que desea resumir el significado del modelo de clasificación, bosques aleatorios pueden no ser la mejor opción.

Supongo que te gusta

Origin www.cnblogs.com/nuochengze/p/12532880.html
Recomendado
Clasificación