Alcance de la aplicación del algoritmo de clasificación común/requisitos de datos

Un único algoritmo de clasificación : árboles de decisión, bayesiano, redes neuronales artificiales, vecinos más cercanos K, máquinas de vectores de soporte y clasificación basada en reglas de asociación, HMM

Algoritmos de clasificación combinados: embolsado y potenciado

k-近邻(kNN,k-Nearest Neighbors)算法

Encuentre las k muestras de entrenamiento más cercanas a la muestra desconocida x, y vea a qué categoría pertenecen la mayoría de estas k muestras, y clasifique x en esa categoría.

Requisitos de entrada del modelo: valores continuos, las variables categóricas deben codificarse en caliente, porque es para calcular la distancia, es necesario normalizar los datos

Parámetros importantes del modelo: definición del valor K y distancia

Pros: fácil de entender e implementar

Desventajas: gran cantidad de cálculo, alta complejidad, no apto para escenarios en tiempo real

Escenario de aplicación: compresión de imágenes

   2.朴素贝叶斯

Usar el teorema de Bayes para predecir la posibilidad de que una muestra de una categoría desconocida pertenezca a cada categoría y seleccionar una categoría con una mayor probabilidad como categoría final de la muestra

Requisitos de entrada del modelo: los valores continuos deben discretizarse en densidad de probabilidad, como el modelo gaussiano http://blog.csdn.net/u012162613/article/details/48323777, y la entrada de Bayesian es probabilidad, por lo que necesita ser no negativo

Parámetros importantes del modelo:

Ventajas: El modelo generativo se puede usar para clasificar mediante el cálculo de probabilidades. Se puede usar para tratar problemas de clasificación múltiple. Se desempeña bien en datos a pequeña escala. Es adecuado para tareas de clasificación múltiple y entrenamiento incremental. El algoritmo es relativamente simple.

Desventaja: requiere un fuerte supuesto de independencia condicional

Escenario de aplicación: clasificación de texto (por ejemplo: identificación de spam)

3.神经网络

Las Redes Neuronales Artificiales (ANN) es un modelo matemático que utiliza una estructura similar a la de las conexiones sinápticas del cerebro para el procesamiento de la información

Requisitos de entrada del modelo: características normalizadas

Parámetros importantes del modelo: el número de capas de red y el número de nodos

Ventajas: Tiene la función de realizar cualquier mapeo no lineal complejo

Desventajas: velocidad de convergencia lenta, gran cantidad de cálculos, tiempo de entrenamiento largo, fácil de converger al óptimo local

Escenarios de aplicación: procesamiento de imágenes, reconocimiento de patrones

4.支持向量机

De acuerdo con el criterio de minimización del riesgo estructural, el hiperplano de clasificación óptimo se construye para maximizar el intervalo de clasificación para mejorar la capacidad de generalización de la máquina de aprendizaje.

Entrada del modelo: clasificación binaria, normalización

Parámetros importantes del modelo: función kernel

Ventajas: puede resolver problemas de aprendizaje automático en el caso de muestras pequeñas, puede resolver problemas de alta dimensión, puede evitar la selección de estructuras de redes neuronales y problemas de puntos mínimos locales

Desventajas: la función del kernel es sensible y solo se pueden hacer dos clasificaciones sin modificación

Escenarios de aplicación: clasificación de texto de alta dimensión, clasificación de muestra pequeña

 5.决策树

Un árbol de decisión es una estructura de árbol (puede ser binario o no binario). Cada uno de sus nodos que no son de hoja representa una prueba en un atributo de característica, cada rama representa la salida de este atributo de característica en un cierto rango de valores, y cada nodo de hoja almacena una categoría

Entrada del modelo: puede manejar valores continuos, las variables de categoría necesitan one-hot

Parámetros importantes del modelo: la altura del árbol.

Ventajas: súper capacidad de aprendizaje y capacidad de generalización, velocidad de entrenamiento rápida

Desventajas: fácil de sobreajustar, mejorado a bosque aleatorio (Random Forest, RF)

Escenario de aplicación: buscar y ordenar

 6.LR

Establecer una fórmula de regresión para la línea límite de clasificación basada en los datos existentes y clasificar a su vez

Entrada del modelo: los valores continuos deben discretizarse y las variables categóricas deben ser one-hot

Parámetros importantes del modelo: discretización de características de entrada

Ventajas: velocidad de entrenamiento rápida, adecuada para escenarios en tiempo real

Desventajas: poca capacidad de ajuste, incapacidad para manejar escenarios que no están fuera de línea, necesidad de establecer funciones de combinación artificialmente

Escenarios de aplicación: varios sistemas en tiempo real: como la estimación de ctr
Transferido de http://f.dataguru.cn/thread-896022-1-1.html

Supongo que te gusta

Origin blog.csdn.net/xllzuibangla/article/details/124971314
Recomendado
Clasificación