Tabla de contenido
Algoritmo de agrupamiento de K-medias
Agrupación sistemática (jerárquica)
Distancias comunes entre muestras.
Diagrama genealógico agrupado (dendrograma)
Cómo determinar el valor K: regla del codo
Coeficiente de agregación: grado de distorsión total
Después de determinar K, use SPSS para dibujar un gráfico.
Método de agrupamiento basado en densidad del algoritmo DBSCAN
Algoritmo de agrupamiento de K-medias
paso
- Especifique el número de grupos K, que es el número de categorías de clasificación.
- Especifique K centros de agrupación iniciales
- Calcule la distancia entre los puntos restantes y el centro del grupo y reclasifica los puntos de muestra en los grupos más cercanos a ellos.
- Vuelva a calcular el centro de cada grupo como el nuevo centro del grupo
- Recorra dos pasos hasta que el centro converja o se alcance el número especificado de iteraciones.
K-means ++ puede resolver las dos últimas deficiencias:K-mean ++ necesita garantizar que el centro del grupo esté lo más lejos posible, por lo que es probable que un punto aislado lejos de otros puntos se convierta en el centro del grupo, lo que permite que el punto aislado esté en una categoría separada;Al mismo tiempo, K-means ++ garantiza que el centro del clúster esté lo más lejos posible, asegurando que la selección del valor inicial no sea arbitraria.
K-significa ++
Principio básico: la selección aleatoria del centro de agrupación inicial está optimizada y el centro de agrupación inicial debe estar lo más lejos posible
paso
- Seleccione aleatoriamente un punto de muestra como el primer centro del grupo
- Calcule la distancia entre los puntos de muestra restantes y el centro del grupo existente (si hay varios centros de grupo, calcule primero los centros de estos centros de grupo y luego calcule la distancia entre los puntos de muestra restantes y el centro). Cuanto mayor sea la distancia, cuanto mayor es la distancia, mayor es la probabilidad de ser seleccionado como el siguiente centro del grupo (asigne una probabilidad) y luego use el método de la ruleta para extraer el siguiente centro del grupo
- Repita hasta que se seleccionen K centros de agrupamiento iniciales
- Continuar los pasos de K-means.
SPSS
Problemas:
- Sin embargo, ninguno de los dos métodos anteriores puede resolver el problema de especificar K manualmente. Solo puede probar algunos K más para ver qué resultado es más fácil de explicar.
- Efectos dimensionales, estandarización de datos.
Agrupación sistemática (jerárquica)
paso
- Inicialmente, cada muestra se trata como una clase y se calcula la distancia entre los puntos de muestra ;
- Los dos con menor distancia se fusionan en una nueva clase;
- Vuelva a calcular la distancia entre la nueva clase y todas las clases, y calcule la distancia entre clases ;
- Repetir hasta que quede solo una clase.
Se conocen las puntuaciones de 6 asignaturas de 60 alumnos.
Muestras de conglomerados: como clasificar estudiantes
Indicadores de agrupación: por ejemplo, clasificar estos seis cursos
Distancias comunes entre muestras.
distancia entre indicadores
distancia entre clases
Se utiliza principalmente entre grupos y dentro de grupos.
SPSS
Diagrama genealógico agrupado (dendrograma)
Cómo determinar el valor K: regla del codo
Coeficiente de agregación: grado de distorsión total
Cuanto mayor sea el número de categorías K, menor será el coeficiente de agregación J
Después de que SPSS genera una tabla de iteraciones anteriores, hay una columna de coeficientes correspondiente a J y una etapa correspondiente a K; luego use Excel para dibujar un gráfico y explicar:
Después de determinar K, use SPSS para dibujar un gráfico.
Sólo cuando el indicador es 2/3 se puede dibujar el gráfico así.
Después de determinar K, use la agrupación del sistema nuevamente y complete el número de agrupaciones como K en "Guardar"
Algoritmo DBSCAN: método de agrupamiento basado en densidad
Los dos primeros algoritmos se basan en la distancia, DBSCAN : método de agrupamiento basado en densidad con ruido.
- Punto central: contiene no menos del número de puntos MinPts dentro del radio Eps
- Puntos límite: el número de puntos dentro del radio Eps es menor que MinPts , pero se encuentra dentro de la vecindad del punto central.
- Punto de ruido: un punto que no es un punto central ni un punto límite (dibuja un círculo con un determinado punto como centro, si el punto incluido es <minPts y el punto no está dentro del rango de ningún punto central , es ruido )