Machine Learning Notes 1 (Watermelon Book): tareas de agrupación, medición de rendimiento, cálculo de distancia,

Agrupación:

        Los intentos de dividir las muestras en el conjunto de datos en varios subconjuntos separados, cada subconjunto se denomina "grupo".

 Métricas de rendimiento:

        Las medidas de rendimiento de agrupación también se conocen como "indicadores de eficacia" de agrupación. En general, se espera que la "similitud intra-cluster" del resultado de la agrupación sea alta y la "similitud entre clusters" sea baja.

        Hay aproximadamente dos tipos de métricas de rendimiento de agrupación, métricas externas y métricas internas .

        

Métricas externas : compare los resultados de la agrupación con algún "modelo de referencia".

x son los datos del conjunto de datos, C es el resultado de la división de conglomerados, C* es el resultado de la división de conglomerados proporcionado por el modelo de referencia \lambday \lambda* representan los vectores de etiquetas de conglomerados correspondientes a C y C* respectivamente. Por lo tanto, los indicadores externos de medición del rendimiento de agrupamiento comúnmente utilizados son:

     Los resultados de los indicadores anteriores están todos en el intervalo [0, 1], y cuanto mayor sea el valor, mejor.

Métricas internas : examine directamente los resultados de la agrupación sin utilizar ningún modelo de referencia.

Considere la división de conglomerados de los resultados de conglomerados , utilizada para calcular la distancia entre dos muestras, que representa el punto central del conglomerado C.

 

 

  

 

  

 De las cuatro fórmulas anteriores, podemos deducir los indicadores internos de las métricas de rendimiento de agrupamiento comúnmente utilizadas :

 Cuanto menor sea el valor de DBI, mejor, y cuanto mayor sea el valor de DI, mejor.

Cálculo de distancia :

        Para una función , si es una "medida de distancia", satisface las siguientes propiedades básicas:

                

    

        " Distancia de Minkowski " de uso común:

        Cuando P=2, la distancia de Minkowski es la distancia euclidiana :

        Cuando P=1, la distancia de Minkowski es la distancia de Harmanton :

 Agrupación de prototipos :

        La agrupación de prototipos también se conoce como "agrupación basada en prototipos".

        Algoritmo de K-medias

            De acuerdo con la división de conglomerados C obtenida por agrupamiento, el error cuadrático se minimiza , donde

        es el vector medio del conglomerado C, que en cierta medida describe la proximidad de las muestras en el conglomerado alrededor del vector medio del conglomerado, y cuanto menor sea el valor de E    

  Cuanto mayor sea la similitud de las muestras en el grupo es.

        El algoritmo K-means adopta una estrategia codiciosa y el pseudocódigo del algoritmo es el siguiente:

 Cuantificación de vectores de aprendizaje

        La cuantificación del vector de aprendizaje también está tratando de encontrar un conjunto de prototipos para describir la estructura de agrupación, pero en el proceso de aprendizaje, utilizará sus propias etiquetas de categoría para ayudar a la agrupación.

 

 

 

 

Supongo que te gusta

Origin blog.csdn.net/weixin_44575717/article/details/124199067
Recomendado
Clasificación