Minería de datos: selección de modelo-KNN

Introducción a KNN

KNN es un algoritmo de aprendizaje supervisado, y su idea principal es estar cerca de Zhu Zhechi y cerca de Mohehei . Encuentre las últimas instancias K de la nueva muestra y los datos de capacitación, qué categoría tiene el mayor número, y determine qué categoría es la muestra.
Lo siguiente usa esta figura para explicar. Si selecciona las 3 instancias más cercanas a la nueva muestra, el círculo se juzga como un triángulo, y si selecciona 5 instancias, se juzga como un cuadrado.
Inserte la descripción de la imagen aquí

Cómo funciona KNN

El principio de funcionamiento es el siguiente:

Supongamos que hay un conjunto de datos de muestra etiquetado (conjunto de muestras de entrenamiento), que contiene la correspondencia entre cada dato y la clasificación a la que pertenece.
Después de ingresar nuevos datos sin etiquetas, compare cada característica de los nuevos datos con la característica correspondiente a los datos en el conjunto de muestras.

  1. Calcule la distancia entre los nuevos datos y cada dato en el conjunto de datos de muestra .
  2. Ordene todas las distancias obtenidas (de pequeño a grande, más pequeño significa más similar).
  3. Tome las etiquetas de clasificación correspondientes a los primeros datos de muestra k (k es generalmente menor o igual que 20).

Encuentre la etiqueta de clasificación con la mayor cantidad de ocurrencias en los datos k como la clasificación de los nuevos datos.

Elementos básicos de KNN

A través de la descripción de los principios anteriores, los parámetros principales se pueden resumir en la selección del valor k , la medición de distancia y las reglas de decisión de clasificación son los tres elementos básicos del algoritmo vecino k-más cercano.

Selección del valor k

  • Elegir un valor más pequeño de K reduce el error de aproximación y aumenta el error de estimación, haciendo que el modelo sea más complejo. Piense más en extremo, si el valor de K es igual a 1, se ajustará la muestra más cercana y el resultado de la predicción será sensible a los puntos de instancia vecinos. Si el punto de instancia vecino resulta ser ruido, la predicción será incorrecta y es probable que se produzca un sobreajuste (susceptible al sobreajuste causado por el ruido de los datos de entrenamiento).
  • Seleccionar un valor K mayor aumenta el error de aproximación y reduce el error de estimación, y el modelo se vuelve simple. Este es un pensamiento extremo: si el valor de K es igual al tamaño de la muestra, coloque una muestra y cuente directamente el número de categorías de muestra para obtener la categoría de la muestra. No hay necesidad de ajustar el valor de K nuevamente. Se vuelve muy simple.

Con respecto al error de aproximación y error de estimación :

  • El error de aproximación presta atención al conjunto de entrenamiento y tiene una buena predicción para el conjunto de entrenamiento existente, pero se producirá una gran predicción de desviación para la muestra de prueba desconocida.
  • El error de estimación presta atención al conjunto de pruebas y tiene una buena capacidad predictiva para datos desconocidos, pero predecirá una gran desviación para muestras de entrenamiento conocidas.

En aplicaciones prácticas, el valor K generalmente toma un valor relativamente pequeño. El método de validación cruzada se usa generalmente para seleccionar el valor óptimo de K (regla empírica: K es generalmente más bajo que la raíz cuadrada del número de muestras de entrenamiento).

Medida de la distancia

La distancia entre dos puntos de instancia en el espacio de características puede reflejar el grado de similitud entre los dos puntos de instancia . El espacio característico del modelo vecino K-más cercano es generalmente el espacio de dirección real N-dimensional, y la distancia utilizada puede ser la distancia euclidiana u otras distancias.

Reglas de decisión de clasificación

La votación mayoritaria significa que la clase mayoritaria en los K reinos de entrenamiento adyacentes de la instancia de entrada 例 determina la clase de la entrada real 例. Esto también es para maximizar las expectativas.

Características del algoritmo KNN

  • Ventajas: alta precisión, insensibilidad a los valores atípicos, sin suposición de entrada de datos
  • Desventajas: alta complejidad de cálculo y alta complejidad de espacio (debido a que la distancia desde todos los puntos hasta este punto debe calcularse, incluso si hay un árbol KD para simplificar el cálculo, el costo de cálculo de este método es relativamente alto)
33 artículos originales publicados · Me gustaron 45 · Visitantes más de 20,000

Supongo que te gusta

Origin blog.csdn.net/AvenueCyy/article/details/105350493
Recomendado
Clasificación