Un único algoritmo de clasificación : árboles de decisión, bayesiano, redes neuronales artificiales, vecinos más cercanos K, máquinas de vectores de soporte y clasificación basada en reglas de asociación, HMM
Algoritmos de clasificación combinados: embolsado y potenciado
k-近邻(kNN,k-Nearest Neighbors)算法
Encuentre las k muestras de entrenamiento más cercanas a la muestra desconocida x, y vea a qué categoría pertenecen la mayoría de estas k muestras, y clasifique x en esa categoría.
Requisitos de entrada del modelo: valores continuos, las variables categóricas deben codificarse en caliente, porque es para calcular la distancia, es necesario normalizar los datos
Parámetros importantes del modelo: definición del valor K y distancia
Pros: fácil de entender e implementar
Desventajas: gran cantidad de cálculo, alta complejidad, no apto para escenarios en tiempo real
Escenario de aplicación: compresión de imágenes
2.朴素贝叶斯
Usar el teorema de Bayes para predecir la posibilidad de que una muestra de una categoría desconocida pertenezca a cada categoría y seleccionar una categoría con una mayor probabilidad como categoría final de la muestra
Requisitos de entrada del modelo: los valores continuos deben discretizarse en densidad de probabilidad, como el modelo gaussiano http://blog.csdn.net/u012162613/article/details/48323777, y la entrada de Bayesian es probabilidad, por lo que necesita ser no negativo
Parámetros importantes del modelo:
Ventajas: El modelo generativo se puede usar para clasificar mediante el cálculo de probabilidades. Se puede usar para tratar problemas de clasificación múltiple. Se desempeña bien en datos a pequeña escala. Es adecuado para tareas de clasificación múltiple y entrenamiento incremental. El algoritmo es relativamente simple.
Desventaja: requiere un fuerte supuesto de independencia condicional
Escenario de aplicación: clasificación de texto (por ejemplo: identificación de spam)
3.神经网络
Las Redes Neuronales Artificiales (ANN) es un modelo matemático que utiliza una estructura similar a la de las conexiones sinápticas del cerebro para el procesamiento de la información
Requisitos de entrada del modelo: características normalizadas
Parámetros importantes del modelo: el número de capas de red y el número de nodos
Ventajas: Tiene la función de realizar cualquier mapeo no lineal complejo
Desventajas: velocidad de convergencia lenta, gran cantidad de cálculos, tiempo de entrenamiento largo, fácil de converger al óptimo local
Escenarios de aplicación: procesamiento de imágenes, reconocimiento de patrones
4.支持向量机
De acuerdo con el criterio de minimización del riesgo estructural, el hiperplano de clasificación óptimo se construye para maximizar el intervalo de clasificación para mejorar la capacidad de generalización de la máquina de aprendizaje.
Entrada del modelo: clasificación binaria, normalización
Parámetros importantes del modelo: función kernel
Ventajas: puede resolver problemas de aprendizaje automático en el caso de muestras pequeñas, puede resolver problemas de alta dimensión, puede evitar la selección de estructuras de redes neuronales y problemas de puntos mínimos locales
Desventajas: la función del kernel es sensible y solo se pueden hacer dos clasificaciones sin modificación
Escenarios de aplicación: clasificación de texto de alta dimensión, clasificación de muestra pequeña
5.决策树
Un árbol de decisión es una estructura de árbol (puede ser binario o no binario). Cada uno de sus nodos que no son de hoja representa una prueba en un atributo de característica, cada rama representa la salida de este atributo de característica en un cierto rango de valores, y cada nodo de hoja almacena una categoría
Entrada del modelo: puede manejar valores continuos, las variables de categoría necesitan one-hot
Parámetros importantes del modelo: la altura del árbol.
Ventajas: súper capacidad de aprendizaje y capacidad de generalización, velocidad de entrenamiento rápida
Desventajas: fácil de sobreajustar, mejorado a bosque aleatorio (Random Forest, RF)
Escenario de aplicación: buscar y ordenar
6.LR
Establecer una fórmula de regresión para la línea límite de clasificación basada en los datos existentes y clasificar a su vez
Entrada del modelo: los valores continuos deben discretizarse y las variables categóricas deben ser one-hot
Parámetros importantes del modelo: discretización de características de entrada
Ventajas: velocidad de entrenamiento rápida, adecuada para escenarios en tiempo real
Desventajas: poca capacidad de ajuste, incapacidad para manejar escenarios que no están fuera de línea, necesidad de establecer funciones de combinación artificialmente
Escenarios de aplicación: varios sistemas en tiempo real: como la estimación de ctr
Transferido de http://f.dataguru.cn/thread-896022-1-1.html