Modelado matemático: 13 modelos de agrupación

Tabla de contenido

Algoritmo de agrupamiento de K-medias

paso

K-significa ++

paso

SPSS

Agrupación sistemática (jerárquica) 

paso

Distancias comunes entre muestras.

distancia entre indicadores

distancia entre clases

SPSS

Diagrama genealógico agrupado (dendrograma)

Cómo determinar el valor K: regla del codo

Coeficiente de agregación: grado de distorsión total

Después de determinar K, use SPSS para dibujar un gráfico.

Método de agrupamiento basado en densidad del algoritmo DBSCAN


Algoritmo de agrupamiento de K-medias

paso

  1. Especifique el número de grupos K, que es el número de categorías de clasificación.
  2. Especifique K centros de agrupación iniciales
  3. Calcule la distancia entre los puntos restantes y el centro del grupo y reclasifica los puntos de muestra en los grupos más cercanos a ellos.
  4. Vuelva a calcular el centro de cada grupo como el nuevo centro del grupo
  5. Recorra dos pasos hasta que el centro converja o se alcance el número especificado de iteraciones.

ventaja:
(1) El algoritmo es simple y rápido.
(2) Este algoritmo es relativamente eficiente para procesar grandes conjuntos de datos.
defecto:
(1) El usuario debe indicar de antemano el número K de clusters que se generarán .
( 2 ) Sensible al valor inicial.
( 3 ) Sensible a datos puntuales aislados.
K-means ++ puede resolver las dos últimas deficiencias:
K-mean ++ necesita garantizar que el centro del grupo esté lo más lejos posible, por lo que es probable que un punto aislado lejos de otros puntos se convierta en el centro del grupo, lo que permite que el punto aislado esté en una categoría separada;
Al mismo tiempo, K-means ++ garantiza que el centro del clúster esté lo más lejos posible, asegurando que la selección del valor inicial no sea arbitraria.

K-significa ++

Principio básico: la selección aleatoria del centro de agrupación inicial está optimizada y el centro de agrupación inicial debe estar lo más lejos posible

paso

  1. Seleccione aleatoriamente un punto de muestra como el primer centro del grupo
  2. Calcule la distancia entre los puntos de muestra restantes y el centro del grupo existente (si hay varios centros de grupo, calcule primero los centros de estos centros de grupo y luego calcule la distancia entre los puntos de muestra restantes y el centro). Cuanto mayor sea la distancia, cuanto mayor es la distancia, mayor es la probabilidad de ser seleccionado como el siguiente centro del grupo (asigne una probabilidad) y luego use el método de la ruleta para extraer el siguiente centro del grupo
  3. Repita hasta que se seleccionen K centros de agrupamiento iniciales
  4. Continuar los pasos de K-means.

SPSS

Problemas:

  1. Sin embargo, ninguno de los dos métodos anteriores puede resolver el problema de especificar K manualmente. Solo puede probar algunos K más para ver qué resultado es más fácil de explicar.
  2. Efectos dimensionales, estandarización de datos.

Agrupación sistemática (jerárquica) 

paso

  1. Inicialmente, cada muestra se trata como una clase y se calcula la distancia entre los puntos de muestra ;
  2. Los dos con menor distancia se fusionan en una nueva clase;
  3. Vuelva a calcular la distancia entre la nueva clase y todas las clases, y calcule la distancia entre clases ;
  4. Repetir hasta que quede solo una clase.

Se conocen las puntuaciones de 6 asignaturas de 60 alumnos.

Muestras de conglomerados: como clasificar estudiantes

Indicadores de agrupación: por ejemplo, clasificar estos seis cursos

Distancias comunes entre muestras.

distancia entre indicadores

distancia entre clases

Se utiliza principalmente entre grupos y dentro de grupos.

Método de distancia más corta: (Vecino más cercano)

Método de mayor distancia: (Vecino más lejano)

Método de vinculación entre grupos: (Vínculo entre grupos)

Vínculo dentro del grupo

Método del centro de gravedad: (agrupación de centroides)

SPSS

Diagrama genealógico agrupado (dendrograma)

Cómo determinar el valor K: regla del codo

Coeficiente de agregación: grado de distorsión total

Cuanto mayor sea el número de categorías K, menor será el coeficiente de agregación J

Después de que SPSS genera una tabla de iteraciones anteriores, hay una columna de coeficientes correspondiente a J y una etapa correspondiente a K; luego use Excel para dibujar un gráfico y explicar:

Después de determinar K, use SPSS para dibujar un gráfico.

Sólo cuando el indicador es 2/3 se puede dibujar el gráfico así.

Después de determinar K, use la agrupación del sistema nuevamente y complete el número de agrupaciones como K en "Guardar" 

Algoritmo DBSCAN: método de agrupamiento basado en densidad

Los dos primeros algoritmos se basan en la distancia, DBSCAN : método de agrupamiento basado en densidad con ruido.

El algoritmo DBSCAN divide los puntos de datos en tres categorías:
  • Punto central: contiene no menos del número de puntos MinPts dentro del radio Eps
  • Puntos límite: el número de puntos dentro del radio Eps es menor que MinPts , pero se encuentra dentro de la vecindad del punto central.
  • Punto de ruido: un punto que no es un punto central ni un punto límite (dibuja un círculo con un determinado punto como centro, si el punto incluido es <minPts y el punto no está dentro del rango de ningún punto central , es ruido )

ventaja:
1. Según la definición de densidad, puede manejar grupos de cualquier forma y tamaño;
2. Se pueden encontrar valores atípicos durante la agrupación ;
3. En comparación con K-medias, no es necesario ingresar el número de grupos a dividir .
defecto:
1. Sensible a los parámetros de entrada ε radio y Minpts , es difícil determinar los parámetros;
2. Dado que las variables ε y Minpts son globalmente únicas en el algoritmo DBSCAN, cuando la densidad de los grupos es desigual, la
Cuando las distancias entre clases son muy diferentes, la calidad de la agrupación es pobre;
3. Cuando la cantidad de datos es grande, la complejidad computacional para calcular la unidad de densidad es alta.
Solo hay dos indicadores, y después de hacer un diagrama de dispersión, se descubre que los datos se comportan de manera muy " DBSCAN ". En este momento, DBSCAN se utiliza para agrupar .

Supongo que te gusta

Origin blog.csdn.net/m0_54625820/article/details/128704673
Recomendado
Clasificación