Resumen e introducción de algoritmos de agrupamiento

Algoritmo de agrupamiento

“Las cosas de una pluma se juntan y las personas se dividen en grupos.” El llamado agrupamiento es el proceso de dividir muestras en múltiples clases compuestas de objetos similares. Se desconoce la categoría del conjunto de datos.

nombre del algoritmo ¿Es necesario dar el valor de K? Agrupación por alcance de uso
K-medias distancia Bajo
K-medias++ distancia medio
Agrupación jerárquica (jerárquica) No distancia alto
Algoritmo DBSCAN No densidad Se usa cuando el gráfico de dispersión obviamente tiene características DBSCAN

Algoritmo de agrupamiento de K-means (K-means)

Descripción del algoritmo:

  1. El valor K del número de clases dadas.
  2. Seleccione K centros de datos iniciales.
  3. Encuentre la distancia al centro de datos para el resto de los puntos, y cada punto se clasifica en el mismo centro de datos que el centro de datos más cercano.
  4. Actualice el centro de datos para que sea el centro de gravedad de la clase.
  5. Repite las operaciones de 3 y 4, y cada repetición cuenta como una iteración.

ventaja:

  1. El algoritmo es simple y rápido.
  2. Para procesar grandes conjuntos de datos, el algoritmo es relativamente eficiente.

defecto:

  1. Se debe proporcionar el número K de clústeres generados.
  2. Sensible a los valores iniciales.
  3. Sensible a los datos atípicos.

Aviso:

  • Los elementos 2 y 3 de las deficiencias se pueden resolver utilizando el algoritmo K-means++.

  • Los pasos del algoritmo se pueden convertir en un diagrama de flujo con capas claras, que es un elemento de bonificación y también puede reducir la tasa de controles de duplicación de papel.

  • Edraw, PPT y Visio pueden dibujar diagramas de flujo.

Algoritmo K-means++

Para que el algoritmo K-means seleccione el centro de datos inicial, se realiza una nueva regulación del algoritmo para mantener la distancia entre los centros de datos iniciales lo más lejos posible, y el resto de los pasos son los mismos que los del algoritmo K-means.

  • Resueltas las deficiencias 2 y 3 del algoritmo K-means.

Seleccione la descripción del algoritmo del centro de datos inicial

  1. Seleccione aleatoriamente una muestra como el primer centro de conglomerados;

  2. Calcule la distancia más corta entre otros puntos de muestra y el centro del conglomerado actual existente (es decir, la distancia al centro del conglomerado más cercano) y asigne una probabilidad al punto de muestra de acuerdo con la distancia (cuanto mayor sea la distancia, mayor será la probabilidad de convirtiéndose en un centro de conglomerados), utilizando el método de la ruleta (selección basada en la probabilidad) para seleccionar

    Obtenga el siguiente centro de clúster;

  3. Repita el paso 2 hasta que se seleccionen los centros de conglomerados K.

operación SPSS

  • SPSS utiliza el algoritmo K-means++ de forma predeterminada.


Nota:

  • Eliminación de dimensiones: estandarización.
    inserte la descripción de la imagen aquí
    Usando la estandarización de SPSS para obtener la variable estandarizada tipo z descrita en la fórmula anterior.

Agrupación jerárquica (jerárquica)

No es necesario dar el valor K antes de agrupar, y el número de racimos que se dividirán se determina mediante el diagrama genealógico agrupado.

proceso de algoritmo

  1. Trata cada objeto como una clase y calcula la distancia mínima entre dos pares;
  2. Combine las dos clases con la distancia más pequeña en una sola clase;
  3. Calcular la distancia entre la nueva clase y cada clase;
  4. Repita los pasos 2 y 3 hasta que todas las clases se sinteticen en una sola clase;
  5. Finalizar.

operación SPSS

  • Estadísticas: Generalmente no les importa.
  • Figura: El diagrama genealógico es el diagrama de flujo de la clasificación, que debe verificarse.
  • Método: método de agrupación - el método de definición de la distancia entre clases; valor de transformación - estandarización (la puntuación Z es el método de estandarización Z)
  • Guardar: si se determina el valor de K, se puede completar en el "Número de clústeres" (generalmente K≤5, fácil de explicar).

La regla del codo: estimación gráfica del número de conglomerados

Método del codo: estime aproximadamente el número óptimo de grupos a través de gráficos.

inserte la descripción de la imagen aquí

Pasos para el uso

  1. Copie los coeficientes de cada etapa en SPSS a Excel y ordénelos en orden descendente (haga doble clic en la tabla generada en SPSS para copiarla).
  2. Insertar —> Gráficos recomendados —> Diagrama de dispersión.
  3. Generalmente, se selecciona como número final de clasificaciones el valor K en el punto de inflexión, por supuesto, también es conveniente explicar la clasificación.
    inserte la descripción de la imagen aquí
    inserte la descripción de la imagen aquí

Después de determinar el valor K, guarde los resultados de la agrupación y dibuje un gráfico

Puede usar SPSS para visualizar los resultados de la agrupación, pero las variables solo pueden ser 2 o 3.
inserte la descripción de la imagen aquí

Puede hacer doble clic directamente en el gráfico generado para modificar los parámetros y embellecer el icono.

Algoritmo DBSCAN

El algoritmo DBSCAN es un método de agrupación en clústeres basado en la densidad. No necesita especificar previamente la cantidad de clústeres antes de la agrupación, y la cantidad de clústeres generados es variable (relacionada con los datos).

En resumen, es el proceso de seleccionar aleatoriamente un punto de referencia y luego, de acuerdo con los requisitos (radio Eps, número mínimo de puntos en la clase MinPts) rodear los puntos circundantes y los puntos circundantes de los puntos circundantes uno por uno para formar el proceso de agrupación final.

Clasificación de puntos de datos

punto de datos características si pertenece a una clase
punto central Contiene no menos de MinPts número de puntos dentro del radio Eps
punto límite El número de puntos dentro del radio Eps es menor que MinPts, pero cae dentro de la vecindad del punto central
punto de ruido Puntos que no son puntos centrales ni puntos fronterizos No

Código

Puede descargar el código recomendado por el sitio web oficial de Matlab .

ventaja

  1. Según la definición de densidad, no se requiere el valor K del número de grupos;

  2. Se pueden encontrar puntos anormales (puntos de ruido);

defecto

  1. Sensible a los parámetros de entrada ε (radio Eps) y Minpts, es difícil determinar los parámetros;

  2. Dado que las variables ε y Minpts son globalmente únicas en el algoritmo DBSCAN, cuando la densidad de los conglomerados es desigual y las distancias de conglomerado difieren mucho, la calidad del conglomerado es deficiente;

  3. Cuando la cantidad de datos es grande, la complejidad computacional de calcular la unidad de densidad es grande.

Visualización de resultados de predicción gráfica

inserte la descripción de la imagen aquí

  • Se puede ver que el algoritmo DBSCAN divide los puntos en una imagen de carita con granos en tres categorías según la densidad de los puntos y elimina los puntos de ruido.
  • Adjunte el sitio web de visualización del algoritmo DBSCAN Visualizing DBSCAN Clustering (naftaliharris.com)

Supongo que te gusta

Origin blog.csdn.net/qq_61539914/article/details/126800936
Recomendado
Clasificación