Comparación de modelos de clasificación

1. Árbol de decisión - árbol de decisión

1. Definición

Métodos de clasificación y predicción, algoritmos de aprendizaje supervisado, basados ​​en dendrogramas, los resultados de salida son reglas simples y prácticas. es una serie de declaraciones si-entonces.

2. Resuelve el problema

clasificación, regresión.

3. Principio

Es un algoritmo codicioso, es decir, realiza una segmentación binaria recursiva en el espacio de características y el árbol de decisión está compuesto por nodos y aristas dirigidas.

  • Nodo Interno: Una característica o atributo.
  • Nodo hoja: una categoría.

4. Ventajas

  • Legible, fácil de entender y explicar. (la estructura del árbol tiene visualización);
  • Los datos requeridos para el entrenamiento son pequeños, el costo de uso se distribuye exponencialmente y la velocidad de clasificación es rápida;
  • Facilidad de evaluación de modelos a través de pruebas estáticas;
  • Puede manejar múltiples problemas de salida.

5. Desventajas

  • Es fácil producir modelos demasiado complejos y sobreajustados;
  • No es bueno para predecir resultados numéricos, es difícil lidiar con datos faltantes;
  • Inestable (alcanzable mediante un conjunto de árboles de decisión);
  • Pueden surgir problemas de sobreajuste.

6. Adoptar el principio

Principio de minimización de la función de pérdida.

2. Modelo de perceptrón

1. Definición

Sea el espacio de características X\subconjunto R^{2}y el espacio de salida y = {+1,-1}.

La salida \vec{x}\subconjunto Xes un punto en el espacio de características; la salida y\subconjunto Yes la categoría de la instancia.

es un clasificador lineal.

2. Resuelve el problema

Clasificación binaria, problemas linealmente separables.

3. Ventajas

El modelo es simple y fácil de implementar.

4. Desventajas 

  • No se pueden manejar datos de entrenamiento linealmente inseparables a la perfección;
  • El álgebra iterativa final se ve muy afectada por el hiperplano resultante y los datos del conjunto de entrenamiento;
  • El objetivo de la función de pérdida es reducir todos los puntos e hiperplanos mal clasificados, y es muy probable que algunos puntos de muestra estén muy cerca del hiperplano al final. Hasta cierto punto, el efecto de clasificación no es particularmente bueno (máquina de vectores de soporte). resuelve).

3. Red neuronal (neuronas funcionales multicapa)

1. Definición

Es un modelo matemático algorítmico que imita las características de comportamiento de las redes neuronales animales y realiza un procesamiento de información paralelo distribuido.

2. Resuelve el problema

Problemas no linealmente separables.

3. Ventajas

  • Tiene una gran robustez y tolerancia a fallas, y la precisión de la clasificación es alta, lo que es mejor que casi todos los demás algoritmos de aprendizaje automático;
  • El método de procesamiento paralelo hace que el cálculo sea rápido;
  • Autoaprendizaje, autoorganización, adaptativo;
  • Puede aproximarse completamente a cualquier relación no lineal compleja;
  • Poseer una fuerte capacidad de síntesis de información, capaz de procesar información cuantitativa y cualitativa al mismo tiempo.

4. Desventajas

  • Operación de "caja negra", incapaz de determinar el proceso de derivación;
  • Requiere mucho tiempo y mano de obra, con muchos detalles de algoritmos, difícil de controlar y costoso;
  • La cantidad de datos requeridos es grande;
  • Si el tiempo de estudio es demasiado largo, es posible que ni siquiera se logre el propósito del estudio.

Cinco, máquina de vectores de soporte - Support Vector Nachine (SVM)

1. Definición

Define un clasificador lineal con el mayor margen en el espacio de características.

2. Resuelve el problema

Dos problemas de clasificación.

  • Máquinas de vectores de soporte separables linealmente: los datos de entrenamiento son separables linealmente
  • Máquinas de vectores de soporte lineal: los datos de entrenamiento son separables aproximadamente linealmente
  • Máquinas de vectores de soporte no lineales: los datos de entrenamiento son linealmente inseparables

3. Ventajas

  • Aplicable a muestras pequeñas, lo que simplifica los problemas habituales de clasificación y regresión;
  • Evite la "maldición de la dimensionalidad": la complejidad del cálculo depende del número de vectores de soporte, no de la dimensionalidad del espacio muestral;
  • Un pequeño número de vectores de soporte determina el resultado final, que es insensible a valores atípicos y tiene buena "robustez";
  • Alto rendimiento de generalización
  • Puede resolver problemas no lineales;
  • Se puede evitar el problema de la selección de la estructura de la red neuronal y los puntos mínimos locales.

4. Desventajas

  • Es difícil de implementar para muestras de entrenamiento a gran escala;

  • Es difícil resolver problemas de clasificación múltiple y no existe una solución general para problemas no lineales;

  • Sensible a las opciones de datos faltantes, parámetros y funciones del kernel.

6. Clasificación bayesiana (ingenua)

1. Definición

Define un clasificador lineal con el mayor margen en el espacio de características.

2. Ventajas

  • Velocidad rápida, admite entrenamiento incremental;
  • Sólida base matemática y eficiencia de clasificación estable;
  • Los parámetros estimados requeridos son pocos, menos sensibles a los datos faltantes y el algoritmo es simple;
  • La explicación de lo que realmente aprende un clasificador es relativamente sencilla.

3. Desventajas

  • Necesita saber la probabilidad previa;

  • Hay una tasa de error en la decisión de clasificación;

  • No se pueden manejar resultados variables en función de las combinaciones de funciones.

Seven, K-vecino más cercano - KNN

1. Definición

Algoritmos de clasificación en el aprendizaje supervisado

2. Ventajas

  • Habilidad para usar funciones complejas para predicción numérica, simples, fáciles de entender y fáciles de implementar;
  • Solo es necesario guardar muestras y etiquetas de entrenamiento, una cantidad razonable de escala de datos;
  • Velocidad rápida, admite entrenamiento incremental;
  • No susceptible a la probabilidad de error pequeño;
  • La explicación de lo que realmente aprende un clasificador es relativamente sencilla.

3. Desventajas

  • La elección de K no es fija;

  • Todos los datos de entrenamiento deben ser indispensables;

  • Tiene alta complejidad computacional y consumo de memoria;

  • Encontrar un factor de escala razonable es tedioso.

Supongo que te gusta

Origin blog.csdn.net/xllzuibangla/article/details/124972890
Recomendado
Clasificación