Algoritmo de agrupamiento
“Las cosas de una pluma se juntan y las personas se dividen en grupos.” El llamado agrupamiento es el proceso de dividir muestras en múltiples clases compuestas de objetos similares. Se desconoce la categoría del conjunto de datos.
nombre del algoritmo | ¿Es necesario dar el valor de K? | Agrupación por | alcance de uso |
---|---|---|---|
K-medias | Sí | distancia | Bajo |
K-medias++ | Sí | distancia | medio |
Agrupación jerárquica (jerárquica) | No | distancia | alto |
Algoritmo DBSCAN | No | densidad | Se usa cuando el gráfico de dispersión obviamente tiene características DBSCAN |
Algoritmo de agrupamiento de K-means (K-means)
Descripción del algoritmo:
- El valor K del número de clases dadas.
- Seleccione K centros de datos iniciales.
- Encuentre la distancia al centro de datos para el resto de los puntos, y cada punto se clasifica en el mismo centro de datos que el centro de datos más cercano.
- Actualice el centro de datos para que sea el centro de gravedad de la clase.
- Repite las operaciones de 3 y 4, y cada repetición cuenta como una iteración.
ventaja:
- El algoritmo es simple y rápido.
- Para procesar grandes conjuntos de datos, el algoritmo es relativamente eficiente.
defecto:
- Se debe proporcionar el número K de clústeres generados.
- Sensible a los valores iniciales.
- Sensible a los datos atípicos.
Aviso:
-
Los elementos 2 y 3 de las deficiencias se pueden resolver utilizando el algoritmo K-means++.
-
Los pasos del algoritmo se pueden convertir en un diagrama de flujo con capas claras, que es un elemento de bonificación y también puede reducir la tasa de controles de duplicación de papel.
-
Edraw, PPT y Visio pueden dibujar diagramas de flujo.
Algoritmo K-means++
Para que el algoritmo K-means seleccione el centro de datos inicial, se realiza una nueva regulación del algoritmo para mantener la distancia entre los centros de datos iniciales lo más lejos posible, y el resto de los pasos son los mismos que los del algoritmo K-means.
- Resueltas las deficiencias 2 y 3 del algoritmo K-means.
Seleccione la descripción del algoritmo del centro de datos inicial
-
Seleccione aleatoriamente una muestra como el primer centro de conglomerados;
-
Calcule la distancia más corta entre otros puntos de muestra y el centro del conglomerado actual existente (es decir, la distancia al centro del conglomerado más cercano) y asigne una probabilidad al punto de muestra de acuerdo con la distancia (cuanto mayor sea la distancia, mayor será la probabilidad de convirtiéndose en un centro de conglomerados), utilizando el método de la ruleta (selección basada en la probabilidad) para seleccionar
Obtenga el siguiente centro de clúster;
-
Repita el paso 2 hasta que se seleccionen los centros de conglomerados K.
operación SPSS
- SPSS utiliza el algoritmo K-means++ de forma predeterminada.
Nota:
- Eliminación de dimensiones: estandarización.
Usando la estandarización de SPSS para obtener la variable estandarizada tipo z descrita en la fórmula anterior.
Agrupación jerárquica (jerárquica)
No es necesario dar el valor K antes de agrupar, y el número de racimos que se dividirán se determina mediante el diagrama genealógico agrupado.
proceso de algoritmo
- Trata cada objeto como una clase y calcula la distancia mínima entre dos pares;
- Combine las dos clases con la distancia más pequeña en una sola clase;
- Calcular la distancia entre la nueva clase y cada clase;
- Repita los pasos 2 y 3 hasta que todas las clases se sinteticen en una sola clase;
- Finalizar.
operación SPSS
- Estadísticas: Generalmente no les importa.
- Figura: El diagrama genealógico es el diagrama de flujo de la clasificación, que debe verificarse.
- Método: método de agrupación - el método de definición de la distancia entre clases; valor de transformación - estandarización (la puntuación Z es el método de estandarización Z)
- Guardar: si se determina el valor de K, se puede completar en el "Número de clústeres" (generalmente K≤5, fácil de explicar).
La regla del codo: estimación gráfica del número de conglomerados
Método del codo: estime aproximadamente el número óptimo de grupos a través de gráficos.
Pasos para el uso
- Copie los coeficientes de cada etapa en SPSS a Excel y ordénelos en orden descendente (haga doble clic en la tabla generada en SPSS para copiarla).
- Insertar —> Gráficos recomendados —> Diagrama de dispersión.
- Generalmente, se selecciona como número final de clasificaciones el valor K en el punto de inflexión, por supuesto, también es conveniente explicar la clasificación.
Después de determinar el valor K, guarde los resultados de la agrupación y dibuje un gráfico
Puede usar SPSS para visualizar los resultados de la agrupación, pero las variables solo pueden ser 2 o 3.
Puede hacer doble clic directamente en el gráfico generado para modificar los parámetros y embellecer el icono.
Algoritmo DBSCAN
El algoritmo DBSCAN es un método de agrupación en clústeres basado en la densidad. No necesita especificar previamente la cantidad de clústeres antes de la agrupación, y la cantidad de clústeres generados es variable (relacionada con los datos).
En resumen, es el proceso de seleccionar aleatoriamente un punto de referencia y luego, de acuerdo con los requisitos (radio Eps, número mínimo de puntos en la clase MinPts) rodear los puntos circundantes y los puntos circundantes de los puntos circundantes uno por uno para formar el proceso de agrupación final.
Clasificación de puntos de datos
punto de datos | características | si pertenece a una clase |
---|---|---|
punto central | Contiene no menos de MinPts número de puntos dentro del radio Eps | Sí |
punto límite | El número de puntos dentro del radio Eps es menor que MinPts, pero cae dentro de la vecindad del punto central | Sí |
punto de ruido | Puntos que no son puntos centrales ni puntos fronterizos | No |
Código
Puede descargar el código recomendado por el sitio web oficial de Matlab .
ventaja
-
Según la definición de densidad, no se requiere el valor K del número de grupos;
-
Se pueden encontrar puntos anormales (puntos de ruido);
defecto
-
Sensible a los parámetros de entrada ε (radio Eps) y Minpts, es difícil determinar los parámetros;
-
Dado que las variables ε y Minpts son globalmente únicas en el algoritmo DBSCAN, cuando la densidad de los conglomerados es desigual y las distancias de conglomerado difieren mucho, la calidad del conglomerado es deficiente;
-
Cuando la cantidad de datos es grande, la complejidad computacional de calcular la unidad de densidad es grande.
Visualización de resultados de predicción gráfica
- Se puede ver que el algoritmo DBSCAN divide los puntos en una imagen de carita con granos en tres categorías según la densidad de los puntos y elimina los puntos de ruido.
- Adjunte el sitio web de visualización del algoritmo DBSCAN Visualizing DBSCAN Clustering (naftaliharris.com)