Algoritmo mejorado para el procesamiento de datos desequilibrados SMOTE-borderline SMOTE, ADASYN

A finales de la década de 1990, Niesh V Chawla, entonces estudiante de posgrado en la Universidad del Sur de Florida (el principal cerebro detrás de SMOTE), estaba trabajando en problemas de clasificación binaria. Está trabajando con imágenes de mamografías y su tarea es construir un clasificador que tome píxeles como entrada y los clasifique como normales o cancerosos. Se alegró mucho cuando logró una precisión de clasificación del 97%. Su alegría duró poco cuando vio que el 97,6% de los píxeles eran normales.

Quizás estés pensando, ¿cuál es el problema? tengo dos preguntas

  • Supongamos que en una muestra de 100 píxeles, 98 píxeles son normales y 2 son cancerosos, si escribimos un programa, este puede predecir que todo es normal. ¿Cuál es la precisión de la clasificación? Hasta el 98%. ¿El programa lo ha aprendido? de nada.

  • Todavía tengo una pregunta. Los clasificadores se esfuerzan por lograr un buen rendimiento en los datos de entrenamiento y, a medida que se realicen más observaciones normales, se centrarán más en los patrones de aprendizaje de la clase "normal". Esto es lo que haría cualquier estudiante sabiendo que el 98% de sus problemas provienen de álgebra y el 2% de trigonometría. Ignorarán con seguridad las funciones trigonométricas.

Entonces, la razón por la que ocurre este problema es porque hay una gran diferencia entre la frecuencia o el número de clases. Nos referimos a estos conjuntos de datos como conjuntos de datos que muestran desequilibrio de clases. La clase normal se llama clase mayoritaria y la clase rara se llama clase minoritaria.

imagen

Las gaviotas blancas como minoría

¿Existe esto en aplicaciones de la vida real? Tomando como ejemplos la detección de spam, detección de noticias falsas, detección de fraude, detección de actividades sospechosas, detección de intrusiones, etc., el problema del desequilibrio de clases se manifiesta.

Aportando algunas soluciones equilibradas:

El enfoque básico se llama técnica de remuestreo. Hay dos métodos básicos.

Submuestreo: -

imagen

Submuestrear o reducir la muestra de la clase mayoritaria

Extraemos muestras aleatoriamente de la clase mayoritaria y las igualamos al número de clases minoritarias. A esto se le llama submuestreo o submuestreo de la clase mayoritaria.

Problema: ignorar o descartar tantos datos sin procesar no es una buena idea.

Sobremuestreo: -

imagen

Sobremuestreo o sobremuestreo de la clase minoritaria

Aquí, se aplica muestreo con reemplazo a la clase minoritaria para crear tantas observaciones como en la clase mayoritaria, y las dos clases están equilibradas. A esto se le llama sobremuestreo o sobremuestreo de la clase minoritaria.

Problema: repetir los mismos datos de clases minoritarias puede provocar un sobreajuste.

HERIDO:

La forma completa de SMOTE, la técnica de muestreo de minorías sintéticas. Aquí se generan observaciones sintéticas a partir de la clase minoritaria.

imagen

SMOTE, un proceso sintético de generación de pocas observaciones.

Supongamos que hay dos observaciones (x1,y1) y (x2,y2) de la clase minoritaria. En el primer paso, crea un número aleatorio entre 0 y 1, lo llamamos r. El punto resultante será (x1 + r*(x2 -x1), y1 + r*(y2 -y1)). El siguiente ejemplo ilustra mejor este punto.

imagen

Los puntos de síntesis son generados por la clase minoritaria (Crédito de la imagen: autor)

Una pregunta de SMOTE:

imagen

Izquierda: datos originales Derecha: datos después de aplicar SMOTE

Si las muestras de la clase minoritaria están lejos y aparecen en la clase mayoritaria, la síntesis de nuevos datos provocará errores de clase, que es el defecto del algoritmo SMOTE.

Límite SMOTE:

Borderline SMOTE es una versión mejorada del algoritmo SMOTE, que resuelve los problemas anteriores.

imagen

Borderline SMOTE: (Autor de la fuente de la imagen)

El algoritmo primero clasifica las observaciones minoritarias. Clasifica cualquier observación minoritaria como punto de ruido si todos los vecinos son de clase mayoritaria e ignora estos datos de muestra al crear datos sintéticos (similar a DBSCAN). Además, clasifica algunos puntos como puntos límite que tienen clases mayoritarias y minoritarias como vecinos y vuelve a muestrear completamente desde estos puntos (normalmente se centran las observaciones extremas en las que se centran los vectores de soporte).

ISLA:

ADASYN es un marco más general que, para cada observación minoritaria, primero encuentra la impureza del vecindario tomando la relación de la observación mayoritaria en el vecindario con k.

imagen

Relación de impurezas ADASYN

Ahora, primero, convierta esta proporción de impurezas en una distribución de probabilidad estableciendo la suma en 1. Entonces, cuanto mayor sea la proporción, más puntos sintéticos se generarán para ese punto en particular. Por lo tanto, se crearán el doble de observaciones sintéticas para Obs 3 que para Obs 2. Por lo tanto, no es tan extremo como Borderline SMOTE, y los límites entre los puntos de ruido, los puntos fronterizos y los puntos minoritarios regulares son mucho más suaves. (no es un borde duro). De ahí el nombre de adaptabilidad.

fin:

El desequilibrio de categorías es un problema muy práctico en el aprendizaje automático, especialmente en el campo del control de riesgos financieros, donde la proporción de clientes fraudulentos es generalmente inferior al 2%. La ineficacia de los métodos basados ​​en remuestreo ha impulsado el desarrollo de SMOTE y la optimización gradual de nuevos algoritmos de muestreo a través de SMOTE límite, ADASYN, etc.

Bienvenido a obtener más conocimientos relacionados con el modelado de control de riesgos de csdn college "Curso microprofesional de análisis de datos y modelo de cuadro de mando de control de riesgos financieros de Python", escanee el código QR de WeChat para recopilar cursos.

Declaración de derechos de autor: el artículo proviene de la cuenta oficial (modelo de control de riesgos de Python), sin permiso, sin plagio. Siguiendo el acuerdo de derechos de autor CC 4.0 BY-SA, adjunte el enlace de la fuente original y esta declaración para su reimpresión.

Supongo que te gusta

Origin blog.csdn.net/toby001111/article/details/131806701
Recomendado
Clasificación