Preprocesamiento de datos─procesamiento de valores perdidos

A los datos salvajes a menudo les faltan valores, lo cual es fácil de entender. A menudo completamos formularios rápidamente y es posible que se pierda algún contenido. Por ejemplo, dejar un espacio en blanco en la columna de género es un valor faltante.

Para realizar la limpieza de datos, es necesario solucionar estos valores faltantes. Entonces, ¿cuál es el procedimiento de procesamiento estándar cuando se encuentran valores faltantes? No hay respuesta a esta pregunta. El procesamiento de datos faltantes es un arte. Piénselo. El formulario que envió omitió el elemento de género. Cuando me transfirieron el formulario, lo miré. Se ha perdido un elemento. pero nunca te había conocido antes, no es apropiado dejarlo en blanco y parece inapropiado completar hombre y mujer.

En términos generales, existen cuatro métodos de procesamiento:

1. Nuestra familia tiene un método de tratamiento tipo mina, deséchalo.

Mientras falte un valor en una determinada muestra, la muestra se descartará directamente, fuera de la vista, fuera de la mente, no habrá más problemas. Este método tiene ventajas sobresalientes, es simple y tosco, ahorra tiempo y esfuerzo, y la conocida herramienta de procesamiento de datos pandas proporciona específicamente el método dropna. Pero las deficiencias también son muy importantes: un valioso dato de muestra se desperdicia porque está manchado de suciedad.

En términos generales, este método se puede considerar cuando la calidad de los datos es relativamente buena y la proporción de valores faltantes es pequeña.

2. El método de procesamiento del tipo de lodo fino, llenando el valor promedio.

Si no descarta muestras con valores faltantes y desea alimentar datos, debe reasignarlas. Si este comportamiento se implementa en línea, significa un poco de "fabricación de datos". Una vez que la asignación muestra algún sesgo, afectará la distribución general de datos de toda la muestra y, eventualmente, conducirá a alguna desviación en la predicción del modelo de aprendizaje automático.

entonces ¿qué debemos hacer? y barro fino, complete el valor medio. Dado que el valor medio no afectará la situación general, también resuelve el problema de los valores faltantes. Desde una perspectiva estadística, además de completar la media, también puede optar por completar la moda y la mediana. Los efectos son ligeramente diferentes, pero el punto de partida es el mismo.

3. Método de procesamiento técnico, completando valores.

Este método de procesamiento es relativamente simple: por ejemplo, si el valor de la muestra anterior es 7, el valor de la última muestra es 9 y falta un valor en la muestra del medio, ¿qué se debe completar? Naturalmente, complete un 8. Hay muchas maneras de hacer esto.

llenado de tarjeta caliente

El método de llenado de tarjeta activa consiste en encontrar un objeto que sea más similar a él en los datos completos y luego completarlo con el valor de este objeto similar. Generalmente se encuentra más de un objeto similar, no hay el mejor entre todos los objetos coincidentes, pero se selecciona uno al azar como valor de relleno. La clave de esta cuestión es que diferentes preguntas pueden utilizar diferentes estándares para determinar la similitud y cómo formular este estándar de determinación. Este método es conceptualmente simple y utiliza la relación entre datos para estimar valores nulos, sin embargo, la desventaja es que es difícil definir estándares de similitud y existen muchos factores subjetivos.

K-medias

Utilizando el método de agrupamiento de aprendizaje automático no supervisado, todas las muestras se agrupan y dividen mediante el método de agrupamiento de K-medias, y luego los valores faltantes en cada clase se completan con el valor medio de las categorías divididas. La esencia es completar los valores faltantes encontrando similitudes. Generalmente, las muestras K más cercanas a la muestra con datos faltantes se determinan primero en función de la distancia euclidiana o el análisis de correlación, y los valores K se ponderan y promedian para estimar los datos faltantes de la muestra.

Ajustar valores faltantes

El ajuste consiste en utilizar otras variables como entrada al modelo para predecir las variables faltantes. Es lo mismo que nuestro método de modelado normal, excepto que la variable objetivo se convierte en un valor faltante.

Tenga en cuenta que si otras variables características no están relacionadas con la variable faltante, los resultados previstos no tendrán sentido. Si el resultado de la predicción es bastante preciso, significa que no es necesario predecir esta variable en absoluto, porque debe haber información repetida con la variable característica. En circunstancias normales, el mejor efecto será entre los dos. Si se introduce la autocorrelación después de completar por la fuerza los valores faltantes, esto causará obstáculos para el análisis posterior.

4. Métodos de procesamiento impredecibles y predicciones de modelos.

Hay muchas formas de utilizar modelos para predecir variables faltantes; a continuación se presentan algunas brevemente.

predicción de regresión

A partir del conjunto completo de datos, se establece una ecuación (modelo) de regresión. Para los objetos que contienen valores nulos, los valores de atributos conocidos se introducen en la ecuación para estimar los valores de atributos desconocidos, y los valores estimados se utilizan para completar los objetos. Las estimaciones sesgadas se producen cuando las variables no están relacionadas linealmente o cuando los predictores están altamente correlacionados.

estimación de máxima verosimilitud

Bajo la condición de que el tipo faltante falte al azar, suponiendo que el modelo sea correcto para la muestra completa, los parámetros desconocidos se pueden estimar con máxima probabilidad a través de la distribución marginal de los datos observados (Little y Rubin). Este método también se denomina estimación de máxima verosimilitud que ignora los valores faltantes. El método de cálculo que se utiliza a menudo en la práctica para la estimación de parámetros de máxima verosimilitud es la maximización de expectativas (EM). Este método es más atractivo que la eliminación de casos y la interpolación de un solo valor, y tiene una premisa importante: es adecuado para muestras grandes. El número de muestras válidas es suficiente para garantizar que las estimaciones de ML sean asintóticamente insesgadas y sigan una distribución normal. Sin embargo, este método puede caer en extremos locales, la velocidad de convergencia no es muy rápida, el cálculo es complejo y se limita a modelos lineales.

imputación múltiple

La idea de interpolación de valores múltiples proviene de la estimación bayesiana, que cree que el valor a interpolar es aleatorio y su valor proviene del valor observado. En la práctica específica, generalmente se estima el valor que se va a interpolar y luego se agregan diferentes ruidos para formar múltiples conjuntos de valores de interpolación opcionales. Seleccione el valor de interpolación más apropiado según una determinada base de selección.

Vemos que los métodos de ajuste y reemplazo propuestos anteriormente son todos métodos de interpolación única, y la imputación múltiple compensa las deficiencias de la imputación única. No intenta estimar cada valor faltante a través de valores simulados, sino que propone una muestra aleatoria de valores de datos faltantes. (Estas muestras pueden ser una combinación de diferentes resultados de ajuste del modelo). La implementación de este procedimiento refleja adecuadamente la incertidumbre debida a los valores faltantes, haciendo que las estadísticas sean válidas. La imputación múltiple se puede dividir en los siguientes 3 pasos:

  1. Producir un conjunto de posibles valores imputados para cada valor faltante que refleje la incertidumbre del modelo de falta de respuesta;

  2. Cada conjunto de datos imputado se analizó estadísticamente utilizando los métodos estadísticos utilizados para el conjunto de datos completo;

  3. Los resultados de cada conjunto de datos imputados se seleccionan según la función de puntuación para producir el valor interpolado final;

Dependiendo del mecanismo de datos faltantes, el patrón y el tipo de variable, regresión, coincidencia de medias predictivas (PMM), puntuación de propensión (PS), regresión logística, análisis discriminante y cadena de Markov Monte Carlo (Markov Chain Monte Carlo, MCMC) y otros diferentes. Se utilizan métodos para llenar.

Supongamos que un conjunto de datos incluye tres variables Y1, Y2 e Y3, y su distribución conjunta es una distribución normal. Este conjunto de datos se procesa en tres grupos. El grupo A conserva los datos originales, al grupo B solo le falta Y3 y al grupo A C le faltan Y1 e Y2. Durante la interpolación de valores múltiples, no se realizará ningún procesamiento en el grupo A, se generará un conjunto de valores estimados de Y3 para el grupo B (regresión de Y3 en Y1, Y2) y un conjunto de estimaciones pareadas de Y1 e Y2. se generará para el grupo C. Valor (regresión de Y1 e Y2 sobre Y3).

Cuando se utiliza la interpolación de valores múltiples, el grupo A no se procesará y se seleccionarán aleatoriamente muestras completas de los grupos B y C para formar m grupos (m es el grupo m opcional de valores de interpolación). El número de casos en cada grupo es el mayor tiempo posible, estimar eficientemente los parámetros es suficiente. Estime la distribución de atributos con valores faltantes y luego, con base en estos m grupos de observaciones, genere m grupos de valores estimados de parámetros para estos m grupos de muestras y proporcione las predicciones correspondientes. El método de estimación utilizado en este momento es máximo similitud Método aleatorio, el algoritmo de implementación específico en la computadora es el método de maximización de expectativas (EM). Para el grupo B se estimará un grupo de valores Y3. Para el grupo C se estimará un grupo de (Y1, Y2) utilizando la premisa de que la distribución conjunta de Y1, Y2, Y3 es una distribución normal.

En el ejemplo anterior, se supone que la distribución conjunta de Y1, Y2 e Y3 es una distribución normal. Este supuesto es artificial, pero se ha verificado (Graham y Schafer 1999) que las variables no normales distribuidas conjuntamente aún pueden estimarse con resultados muy cercanos al valor real bajo este supuesto.

Nota: El uso de imputación múltiple requiere que los valores de datos faltantes falten al azar. Generalmente, el número de repeticiones es de 20 a 50, lo cual es muy preciso, pero el cálculo también es muy complicado y requiere muchos cálculos.

Supongo que te gusta

Origin blog.csdn.net/weixin_45277161/article/details/132969668
Recomendado
Clasificación