038. (-10.12) Notas adicionales para la ingeniería de funciones


Esta versión de las notas es un registro complementario al seguir leyendo los blogs relacionados con la ingeniería de funciones, siguiendo el blog con el artículo número 017. El registro de esta nota es pertinente y solo se registra una parte del conocimiento, uno es llenar los vacíos en el propio y el otro es registrar métodos comunes y comunes, no basados ​​en la cobertura integral del sistema de conocimiento.

1. Procesamiento previo de datos

Los métodos de procesamiento de datos estructurados se enumeran a continuación .
(Datos no estructurados: como datos de texto, datos de imagen, datos de sonido).

1. Procesamiento de valor faltante

1.1 Interpolación polinomial

Conociendo n + 1 puntos mutuamente diferentes, se puede obtener una ecuación polinomial con el término más alto que no exceda n grados.

Fórmula: Y = AX, A = X ^ (- 1) * Y
donde A es la matriz de coeficientes, X es la matriz característica de múltiples elementos e Y es la matriz de valores objetivo.

Inserte la descripción de la imagen aquí

Si test_x también tiene un valor nulo, generalmente uno de los primeros o últimos valores del valor perdido se selecciona como valor de referencia, y su valor se sustituye en el modelo de interpolación, y se aprende un valor como el valor de relleno de el valor faltante.

Ventajas: fácil de entender y fácil de implementar
Desventajas: los datos cambian y el polinomio necesita ser recalculado, lo cual es un poco engorroso, el valor de la función puede ser inestable cuando el grado del polinomio es demasiado alto.

1.2 interpolación de Lagrange (Lagrange)

La interpolación de Lagrange es una interpolación polinomial.

polinomio de interpolación de Lagrange:

Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí

La característica del polinomio básico de Lagrange es que toma el valor 1 en x (j) y 0 en otros puntos.

Interpolación lagrangiana (explicación gráfica detallada)

1.3 Relleno de pronóstico

(¿Puede entenderse como un aprendizaje automático integrado ...)

Tome una columna de características que deben llenarse con valores faltantes como una nueva etiqueta, y use el aprendizaje automático, el modelado y la evaluación, y prediga el conjunto de pruebas para completar los valores faltantes.

1.4 Análisis específico

Analice los datos en función de factores como el entorno, las características obvias y los antecedentes de la tarea de los datos.

Por ejemplo, 1. A veces, el valor del atributo faltante no significa que los datos falten y sean inútiles; 2. Elija el valor de llenado apropiado de acuerdo con el escenario de datos (como llenar el modo en el punto de tiempo del comportamiento)

2. Procesamiento de valores atípicos

2.1 Método de desviación estándar

1. Suponiendo que un conjunto de datos de prueba contiene solo errores aleatorios , se calcula y procesa la desviación estándar y se determina un intervalo de acuerdo con una cierta probabilidad. Se considera que cualquier error que exceda este intervalo no es un error aleatorio sino un error bruto. error y debe eliminarse.

2. Suponga que hay datos discretos que obedecen aproximadamente a una distribución normal.

Inserte la descripción de la imagen aquí
Utilice μ ± nσ para medir la distancia entre el factor y el promedio

2.2 El método de la mediana de la diferencia absoluta (MAD)

Este es un método que primero necesita calcular la suma de las distancias entre todos los factores y la mediana para detectar valores atípicos, y es adecuado para datos de muestra grandes .

Inserte la descripción de la imagen aquí

2.3 Otro

Como el método de diagrama de caja, el método de análisis de imágenes, etc.

3. Transformación de datos

Generalmente se refiere a la estructura característica, que se explicará más adelante.

4. Sin dimensiones

5. Discretización de variables continuas

A veces, necesitamos dividir los datos de forma gruesa y fina para que el modelo pueda aprender mejor la información de las características. La discretización tiene muchas ventajas, como hacer nuestro modelo más simple, más eficiente y de bajo consumo de memoria.

Proceso general de discretización: clasificación eficiente de características - puntos de corte candidatos - si el punto de corte cumple con la escala de medición - si el algoritmo de discretización tiene un criterio de parada, cuando se cumple, no se realizará la discretización

División de grano grueso (discretización de datos continuos): también conocida como binarización o discretización o método de agrupamiento.

División detallada: en la minería de texto, los párrafos u oraciones a menudo se subdividen en palabras o palabras específicas.

Binarización de funciones

Establezca un umbral para la división. Cuando el valor sea mayor que el umbral establecido, se asignará como 1, y en caso contrario, se asignará como 0. (Por supuesto, no necesariamente 0/1, puede personalizar la asignación de acuerdo con la situación)

Discretización sin supervisión

Binning
  • Bandeja de igual ancho: divida
    según el intervalo de tamaño del valor de atributo / característica y divida los datos en varias partes iguales de acuerdo con el mismo ancho.

  • Intervalos de frecuencia igual:
    divida los datos según el intervalo del número de muestra y divida los datos en varias partes iguales. El número (es decir, el número / frecuencia) en cada parte igual de los datos es el mismo.

Agrupación

Utilice un algoritmo de agrupación (como K-Means) para agrupar los datos en varias categorías, y cada categoría es una división.

6. Procesamiento de datos de categorías

  1. Codificación del número de serie: para los datos de clasificación apropiados, cada elemento de categoría único corresponde a un número, es decir, el par clave-valor dict = {clave1: valor1, clave2: valor2, ..., clavek: valork}.

  2. Codificación one-hot: preste atención al problema de la dimensionalidad y si se puede utilizar la escasez de vectores.

  3. Codificación binaria: primero use la codificación del número de serie para asignar un ID de categoría a cada categoría, y luego use el código binario correspondiente al ID de categoría como resultado. Esencialmente, utiliza binario para codificar el ID de la categoría.

7. Otro

Tales como integración de datos, procesamiento de datos repetido, problemas de conversión numérica y de cadenas.

Entre ellos, para la conversión entre valor numérico y cadena, preste atención a si contiene algunos caracteres característicos (como: espacio, nueva línea, coma, punto, etc.), que provocarán errores de conversión.

2. Estructura de funciones

1. Principios básicos

2. Métodos comunes

Tres, selección de funciones

Una vez que se procesan los datos, debemos seleccionar funciones significativas e ingresar el modelo de aprendizaje automático para el entrenamiento.

Introducción

Principio: si la característica diverge y la correlación entre la característica y el objetivo.

Propósito: 1. Reducir el desastre de la dimensionalidad 2. Reducir la dificultad de las tareas de aprendizaje.

Distinguir: la misma técnica utilizada para procesar datos de alta dimensión es la reducción de dimensionalidad .

Método común

1.Método de filtrado

Selección de varianza

Comprensión de la efectividad del método: Cuanto mayor sea la varianza de la variable, mayor será el grado de dispersión, lo que significa que la contribución y el efecto de esta variable en el modelo será más evidente.

La idea general: primero calcule la varianza de cada característica y luego seleccione la característica cuya varianza sea mayor que el umbral de acuerdo con el umbral establecido o el número de umbrales a seleccionar.

Método del coeficiente de correlación
  1. Calcular el coeficiente de correlación de características y características.

    Tome el valor absoluto del valor del coeficiente de correlación y luego elimine una de las características por pares cuyo valor de corrección sea mayor que 90% -95%. (Considerando el desempeño del modelo)

    Desventajas: solo seleccione características basadas en la correlación entre las características y las características, pero no combinadas con la correlación objetivo para medir

  2. Calcule el coeficiente de correlación entre la característica y el objetivo y el valor P 1

    De hecho, la fuerza de la correlación se mide por el tamaño del coeficiente de correlación, pero la evaluación del tamaño de la correlación debe basarse en la evaluación de la significancia del coeficiente de correlación. Por lo tanto, es necesario probar la significancia del coeficiente de correlación primero, si es significativo, prueba que el coeficiente de correlación es estadísticamente significativo, y luego mirar el tamaño del coeficiente de correlación en el siguiente paso. Si el coeficiente de correlación no es estadísticamente significativo, significa que el coeficiente de correlación obtenido por la investigación puede ser causado por error de muestreo o error de medición, lo cual no es convincente.

    Desventajas: un defecto obvio del coeficiente de correlación de Pearson es que, como mecanismo de clasificación de características, solo es sensible a las relaciones lineales.

Prueba de chi-cuadrado (variables categóricas para problemas de clasificación)

La prueba de chi-cuadrado puede probar la correlación entre variables independientes cualitativas y variables dependientes cualitativas. Encuentre el valor de chi-cuadrado y luego averigüe si la probabilidad correspondiente es suficiente para anular la hipótesis nula H0 de acuerdo con el valor de chi-cuadrado.

oficial:Inserte la descripción de la imagen aquí

Proceso: Establezca la hipótesis nula y la hipótesis opuesta - calcule el valor de chi-cuadrado - luego busque la tabla según el grado de libertad y confianza - filtre mejor las variables independientes cualitativas que están significativamente relacionadas con la variable de respuesta cualitativa

Método de información mutua

Similar al propósito de la prueba de chi-cuadrado, también puede evaluar la relevancia de las variables independientes cualitativas para las variables dependientes cualitativas. Si la cantidad de información es mayor, la correlación entre la característica y esta categoría es mayor.

Inserte la descripción de la imagen aquí

Escenario de aplicación: Muy adecuado para el registro de características y categorías de clasificación de texto (datos no estructurados) (* para comprender mejor ~)

2. Método de envasado mediante envoltura

El encapsulador usa el subconjunto de características seleccionado para entrenar y aprender el conjunto de muestra (etiqueta), y ** precisión de entrenamiento (precisión) ** se usa como estándar para medir la calidad del subconjunto de características, y el mejor subconjunto de características se selecciona después comparación.

Los más utilizados son la regresión por pasos (regresión por pasos), la selección hacia adelante (selección hacia adelante) y la selección hacia atrás (selección hacia atrás).

Del conocimiento combinado,Inserte la descripción de la imagen aquí

Proceso: combinar subconjuntos de características: cada subconjunto de características Xi se entrena y aprende por separado con métodos de etiqueta Y diferentes para medir la calidad de las características (como model.score (Xi, Y))

Inserte la descripción de la imagen aquí
La estabilidad del modelo de selección de características es muy importante . Un modelo con poca estabilidad puede llevar fácilmente a conclusiones erróneas; realizar un submuestreo de los datos y luego ejecutar el algoritmo de selección de características en los subconjuntos puede ayudar, si los resultados en cada subconjunto son consistentes, se puede decir que las conclusiones extraídas de este conjunto de datos son creíbles.

Ventajas: considere la combinación de funciones y la correlación entre funciones y etiquetas.

Desventajas: Dado que las características deben dividirse en subconjuntos de características y puntuarse una por una, cuando el número de características es grande, el tiempo de cálculo aumentará; y cuando los datos de muestra son pequeños, es fácil sobreajustarlos.

A continuación se presentan brevemente los escenarios de aplicación y su importancia. (* Para mayor comprensión)

Selección de estabilidad (* para comprender mejor)

Inserte la descripción de la imagen aquí

La selección de estabilidad es un método basado en la combinación de submuestreo y algoritmo de selección (modelo de entrenamiento) El algoritmo de selección puede ser regresión, clasificación SVM o algoritmos similares.

Con este método, el valor de la característica no cae de manera muy pronunciada y las características buenas no obtendrán una puntuación de 0 debido a características similares y características relacionadas. El rendimiento es sobresaliente, lo cual es útil para superar el ajuste excesivo y para comprender los datos.

Eliminación de características recursivas

Eliminación de características recursivas, conocida como RFE.

La idea principal:
construir iterativamente un modelo (como SVM o modelo de regresión), luego seleccionar la mejor (o peor) característica (que se puede seleccionar según la puntuación), dejar la característica seleccionada a un lado y luego agregar las características restantes Repetir este proceso hasta que se hayan atravesado todas las características . El orden en el que se eliminan las características en este proceso es el orden de las características. Por lo tanto, este es un algoritmo codicioso para encontrar el subconjunto de características óptimo .

"El orden en el que se eliminan las características en este proceso es el orden de las características . De hecho, este es un algoritmo codicioso para encontrar el subconjunto de características óptimo".

Inserte la descripción de la imagen aquí

Orden de valores propios

En teoría, si una característica está ordenada o codificada, obviamente afectará (ya sea positiva o negativa) a la puntuación del efecto del modelo (puntuación predictiva), entonces puede mostrar que esta característica es importante para el modelo. Por el contrario, significa que la existencia de esta característica no afectará la efectividad del modelo.

3. Método integrado

También se denomina método de conjunto. Primero utiliza ciertos algoritmos y modelos de aprendizaje automático para el entrenamiento para obtener el coeficiente del valor de peso de cada característica y selecciona la característica de mayor a menor de acuerdo con el coeficiente.

(Sugerencias: algunos métodos de aprendizaje automático tienen mecanismos para calificar características, como bosque aleatorio, SVM)

Distinguir: en
comparación con Filter, se utiliza más entrenamiento para determinar los pros y los contras de las funciones;

En comparación con Wrapper, el método de empaquetado se selecciona de acuerdo con la puntuación del efecto de predicción, y el método de incrustación se selecciona de acuerdo con el coeficiente de valor de peso de característica predicho.

Entrenamiento común:

  • Modelo lineal (resalte las características independientes y relacionadas, tenga cuidado con las características interrelacionadas y el ruido , también para lo siguiente)
  • Regularización (agregar restricciones o penalizaciones adicionales al modelo existente (función de pérdida) para evitar el sobreajuste y mejorar la capacidad de generalización. Si se aplica a modelos lineales, generalmente existen Lasso y Ridge, fórmula: L1 escasa, L2 Estabilidad promedio)
  • Modelo de árbol (dos métodos de selección de características con reducción en la impureza promedio y reducción en la tasa de precisión promedio. Este último es principalmente para alterar el orden de los valores de característica de cada característica y para medir el impacto de los cambios de orden en la precisión de la modelo. Aquí puede reflexionar sobre por qué es interrumpir en lugar de tirar)

Selección detallada de funciones basadas en modelos (Embedded & Wrapper)

Cuatro, procesamiento de desequilibrio de la etiqueta de categoría / desequilibrio de la muestra

De hecho, la mayoría de los conjuntos de datos tienen desequilibrios de datos, que a menudo están determinados por el problema en sí, y solo nos enfocamos en aquellos con grandes diferencias en la distribución.

También vale la pena mencionar aquí que dos problemas con el mismo grado de desequilibrio (como una proporción similar de muestras positivas y negativas ) pueden ser difíciles de resolver porque la dificultad del problema también depende de la cantidad de datos en el conjunto de datos . En términos generales, la dificultad va de pequeña a grande: big data + distribución equilibrada <big data + distribución desequilibrada <datos pequeños + datos equilibrados <datos pequeños + datos no equilibrados. Para conjuntos de datos pequeños, los métodos de aprendizaje automático son complicados.

Además, bajo el problema del desequilibrio de categorías, la tasa de persuasión de la tasa de precisión como índice de evaluación se reduce en gran medida, y se deben considerar la tasa de precisión, la tasa de recuperación, el valor F1, la curva FR y la curva AUC .

A continuación, se describen los métodos de manejo comunes para este problema. Lo que hay que señalar es que el método debe seleccionarse de acuerdo con el escenario del problema. Por ejemplo, cuando hay suficientes muestras positivas y negativas y la relación no es particularmente dispar, se recomienda considerar métodos de muestreo o ponderación; cuando hay muy pocas muestras positivas y negativas, se debe utilizar la síntesis de datos; un conjunto de entrenamiento pequeño El muestreo es también muy propenso al sobreajuste.

muestreo

Tenga en cuenta que los métodos de muestreo simples pueden tener el riesgo de sobreajuste (se puede considerar la regularización).

Submuestreo

El submuestreo se refiere a reducir el número de muestras de la categoría A con una gran proporción al mismo que el número de muestras de la categoría B con una pequeña proporción, y luego el entrenamiento.

  • Submuestreo aleatorio

    Desventajas: El submuestreo solo toma una pequeña parte de los datos, lo que probablemente haga que falte la información de la categoría A.

  • Método de aprendizaje integrado EasyEnsemble

    Utilizando el mecanismo de aprendizaje integrado, los datos de muestra de la categoría A con una gran proporción se dividen en varios subconjuntos de muestra para su uso por diferentes alumnos, que se combinan con los datos de muestra de la categoría B con una pequeña proporción para capacitar y generar múltiples clasificadores de base. Finalmente, estos clasificadores básicos se combinan para formar un sistema de aprendizaje integrado. El conjunto puede usar la fusión de modelos ponderados o tomar el promedio de la suma de todos los clasificadores base.

    Ventajas: puede resolver el problema de la pérdida de información de datos causada por el submuestreo aleatorio tradicional y presenta un mejor rendimiento de clasificación de datos desequilibrados.

  • EquilibrioCascada

    Usando la idea de Boosting: primero genere un conjunto de entrenamiento a través de un submuestreo, entrene a un clasificador, no devuelva esas muestras de masa que están correctamente clasificadas, luego submuestree esta muestra de masa más pequeña para generar un conjunto de entrenamiento, y entrenar al segundo clasificador, y así sucesivamente, finalmente combinar los resultados de todos los clasificadores para obtener el resultado final.

  • NearMiss

    Con KNN, intente seleccionar la muestra más representativa del público.

Sobremuestreo

En comparación con el submuestreo, el sobremuestreo lleva más tiempo, pero también hay beneficios al hacerlo.

  • Sobremuestreo aleatorio

    Se adopta la estrategia de simplemente copiar muestras para aumentar las muestras minoritarias, lo que es propenso al problema del sobreajuste del modelo.

  • Algoritmo SMOTE (síntesis de datos)

    El algoritmo de vecino más cercano k se utiliza para analizar las muestras minoritarias existentes, sintetizando así nuevas muestras minoritarias en el espacio de características en forma de interpolación .

    Mejora: Borderline-SMOTE y ADASYN.

Inserte la descripción de la imagen aquí

Ponderado

Al ajustar los valores de peso de diferentes tipos de etiquetas, se aumenta el peso de los datos de muestra de la categoría B con una pequeña proporción y se reduce el peso de los datos de muestra de la categoría A con una gran proporción, de modo que la clasificación y la capacidad de reconocimiento de un pequeño número de clases puede competir con un gran número de clases.

La clave: cómo establecer un peso más razonable. (Para que se entienda mejor ..)

Una clasificación o detección de anomalías

Para escenas donde las muestras positivas y negativas están extremadamente desequilibradas, el ángulo de conversión puede entenderse como: el punto no es capturar las diferencias entre clases, sino modelar una de las clases, trabajo clásico como One-class SVM.

Selección de modelo y cambio de umbral

  • modelo

    Elija un modelo que no sea sensible al desequilibrio de la muestra, como un árbol de decisiones.

  • Cambio de umbral

    Ajuste el umbral de clasificación para favorecer una pequeña cantidad de datos.

Para obtener más información: Little Homing: cómo resolver el problema del desequilibrio de la muestra

Cinco, reducción de dimensionalidad

Utilice un determinado método de mapeo para mapear los puntos de datos en el espacio original de alta dimensión con el espacio de baja dimensión.

Método común: Análisis de componentes principales (PCA) para aprendizaje no supervisado.

El PCA es el método de reducción de dimensionalidad lineal más utilizado. Su objetivo es mapear datos de alta dimensión en un espacio de baja dimensión a través de una determinada proyección lineal y esperar que se utilice la máxima varianza de los datos en la dimensión proyectada. Menos datos dimensiones, conservando las características de puntos de datos más originales.

(Puede leer artículos relacionados con el número de serie 033 para revisar los conocimientos relacionados con PCA)

Seis, supervisión de funciones

(Para que se entienda mejor ..)

  1. Análisis de la efectividad de las características, como la importancia y el peso de las características (generalmente, puede usar el método de modelo para ver después del entrenamiento de sklearn)
  2. Monitoreo de características, como monitorear características importantes, para evitar que la calidad de las características se degrade y afecte el efecto del modelo.

  1. Hablando de valor p (qué es valor p)
    Inserte la descripción de la imagen aquí ↩︎

Supongo que te gusta

Origin blog.csdn.net/u013598957/article/details/108392896
Recomendado
Clasificación