Modelos de mezcla gaussiana (GMM, GOM)

1. Desventajas del agrupamiento de k-medias

        Cuando el agrupamiento de k-medias utiliza la distancia euclidiana como función de distancia, su naturaleza bidimensional es un círculo rodeado por un círculo con el centroide de cada grupo como centro. Utilice este círculo para truncar y clasificar los datos originales, pero la distribución real de los datos no es necesariamente un círculo estándar, sino que también puede ser una elipse. Esto lo convierte en un ajuste categórico insatisfactorio para muchos tipos de datos:

        1) La forma de la clase no es lo suficientemente flexible, el resultado del ajuste es bastante diferente del real y la precisión es limitada.

        2) Se determina si la muestra pertenece a cada conglomerado, es decir solo si o no, y la aplicación carece de robustez.

2. Modelo de mezcla gaussiana

        La idea básica: utilizar múltiples funciones de distribución gaussianas (distribución normal) para aproximar la distribución de probabilidad de cualquier forma. Los puntos de datos que se van a agrupar se consideran los puntos de muestreo de la distribución, y los parámetros de la distribución gaussiana se estiman mediante un método similar a la estimación de máxima verosimilitud a través de los puntos de muestreo, y se obtienen los parámetros (usando el algoritmo EM para resolver) para obtener la clasificación de los puntos de datos. función de pertenencia.

         La función de densidad de probabilidad de GMM:

P\izquierda ( x|\theta \right )=\sum_{k=1}^{K}P\left ( \theta_{k} \right )P\left ( x|\theta_{k} \right )

        en;

        1) K es el número de modelos, es decir, el número de clústeres.

        2)  P\izquierda ( \theta_{k} \derecha ) es la probabilidad de que la muestra de datos pertenezca a la k-ésima distribución gaussiana (distribución previa, la distribución obtenida del conocimiento relevante antes de la prueba), que satisface:

\sum_{k=1}^{K}P\left ( \theta_{k} \right )=1

        3) P\izquierda (x|\theta_{k} \derecha)es la densidad de probabilidad de la k-ésima gaussiana, donde:

        \theta_{k}=\left ( u_{k},\sigma _{k}^{2} \right )

                Reino Unido} es la media \sigma _{k}^{2} y es la varianza.

        Pasos del algoritmo:

        1) Establecer el número de k, es decir, el número de componentes para inicializar el modelo de mezcla gaussiana. Inicialice los parámetros de distribución gaussiana para cada grupo.

        2) Calcular la probabilidad de que cada punto pertenezca a cada modelo gaussiano.

        3) Recalcular los parámetros de cada modelo gaussiano en base a cada punto y su probabilidad de pertenecer a cada modelo gaussiano  \alpha _{k},\theta_{k}.

        4) Repetir los pasos de cálculo iterativo 2) 3) hasta la convergencia.

        Reponer:

        1) La premisa asume que la muestra de datos obedece a una distribución gaussiana

        2) k-means es un caso especial de GMM, es decir, cuando GMM tiene la misma varianza en todas las dimensiones, aparecerá circular.

        3) La cantidad de cálculo de cada iteración de GMM es mucho mayor que la de k-means, por lo que k-means se puede usar primero (repetir varias veces para obtener el mejor) para obtener el punto central del grupo inicial e iterar como el inicial valor de GMM.

        

    

Supongo que te gusta

Origin blog.csdn.net/weixin_43284996/article/details/127349987
Recomendado
Clasificación