ÓPTICA (Puntos de pedido para identificar la cadena de agrupamiento

Autor: Zen y el arte de la programación informática

1. Introducción

OPTICS (Puntos de pedido para identificar la estructura de agrupamiento) es un método de análisis de agrupamiento basado en la densidad que se puede utilizar para descubrir la estructura de agrupamiento y los límites de datos complejos. La característica principal de OPTICS es que no requiere especificar un número predefinido de grupos y es capaz de detectar grupos de forma, tamaño y densidad arbitrarios. Por lo tanto, funciona mejor que DBSCAN o algoritmos de agrupamiento basados ​​en densidad. Además, debido a que el método de clasificación se usa para procesar los datos, también es adecuado para datos en espacios de alta dimensión.

2. Conceptos básicos y terminología

2.1 Conjunto de datos D

Antes de presentar el método OPTICS, primero debemos tener una comprensión clara del conjunto de datos que se procesará, es decir, los objetos y atributos que contiene. Cada objeto en un conjunto de datos es una muestra o una observación, que puede contener múltiples atributos o características. Cada atributo o característica puede ser una variable continua (como temperatura, concentración, etc.) o una variable discreta (como categoría, etiqueta, etc.). Si el conjunto de datos contiene una dimensión de tiempo, también puede agregar un atributo de marca de tiempo. Por ejemplo, considere el conjunto de datos del historial de compras de un sitio web de comercio electrónico, que contiene atributos como ID de usuario, nombre de producto, fecha de compra, monto de compra, dirección de transacción, método de transacción, etc.

2.2 Curva de densidad de densidad local

La estructura de datos utilizada por OPTICS se denomina Estimación de Densidad Local (LDE). LDE describe la distribución de densidad de objetos en una región de un conjunto de datos. La Figura 1 muestra un ejemplo de una curva de densidad local típica, que representa el número de objetos en el eje de abscisas y la densidad de objetos en el eje de ordenadas. Las dos regiones A y B en el conjunto de datos corresponden a los cañones izquierdo y derecho, respectivamente. A partir de los gráficos de densidad local para A y B, puede ver que en algunas áreas, la densidad de objetos es baja; en otras áreas, la densidad de objetos es alta. Estas regiones generalmente se consideran los límites de los clústeres.

La curva de densidad local juega un papel importante en el algoritmo.

Supongo que te gusta

Origin blog.csdn.net/universsky2015/article/details/132383828
Recomendado
Clasificación