visualización de datos realizado previamente, se encontró que hay algunos datos de la etiqueta punto aislado (punto de ruido), los kmeans impacto de agrupamiento.
El proceso sigue:
Uso KMeans 10 iteraciones para obtener el centro del cúmulo
Distancia euclidiana calcula la media y la varianza de los datos a todos los de su agrupación centro
Mediante el ajuste de una distribución normal, el valor medio es mayor que la distancia hasta el centro de la agrupación + 1,96 * Excluyendo la varianza del conjunto de entrenamiento de los puntos (área de distribución normal calcula 0.95)
Obtener nuevo conjunto de entrenamiento y el ancla