[Análisis de los datos] una parte importante - los valores de la forma en que faltan

Reproducido Fuente: https://blog.csdn.net/Q2605894893/article/details/81327027

directorio

1 razón de los datos faltantes

Los datos faltantes tipo 2

Falta el método de procesamiento de datos 3

1. Eliminar registro

2. Los datos de relleno

3. No existe ningún tratamiento

4 Resumen


 

1 razón de los datos faltantes

En primer lugar, debe saber: ¿por qué los datos faltan? Los datos faltantes que no podemos evitar, hay muchas causas posibles, los bloggers se resumen en las siguientes tres categorías:

  • No intencional : la información no se encuentra, por ejemplo, debido a la negligencia del personal, olvidando que faltan, o debido a la falta de adquisición de datos, tales como la insuficiencia y otras causas, como requisito de alta en tiempo real, la máquina era demasiado tarde y causar la pérdida de juicio y toma de decisiones;
  • Intencional : Algunas de las características descritas en el conjunto de datos serán valores predeterminados como un valor característico que faltan, esta vez los valores que faltan puede ser visto como un valor característica especial;
  • No existen : algunas propiedades características, simplemente no existen, como el nombre de soltera de un cónyuge no sería capaz de llenar, otro ejemplo, el ingreso de un niño no puede llenar;

Con todo, por la causa de los valores perdidos, tenemos que ser claros: debido a la omisión no intencional o negligencia causada por, o que deliberadamente causado, o no existen. Sólo conocer su origen, podemos abordar el problema, hacer el tratamiento adecuado.

Para hacer frente a los problemas específicos de análisis específico de los valores perdidos, ¿por qué debería analizar las cuestiones específicas que? Dado que la propiedad no se encuentra a veces no quiere decir que los datos faltan, la información que falta en sí está contenida, que tiene que ser razonable basada en información llena en diferentes escenarios de aplicación puede contener valores que faltan. Siguiendo algunos ejemplos para ilustrar cómo analizar cuestiones específicas, ojos del espectador sabios ven la sabiduría, por única referencia:

  1. "Ingresos anuales": productos recomendados según el escenario medio llenos, llenando una cantidad mínima de los préstamos en la escena;

  2. "Punto de Comportamiento de tiempo": Llenar el modo;

  3. "Precio": La siguiente escena llena de mercancía mínima recomendada, coincide con la mercancía en el lugar de llenado de la media;

  4. "La vida humana": escenario de costes de seguros estiman máxima de llenado, la población se estimó en el lugar de llenado de la media;

  5. "Experiencia de conducción": el usuario no se llena éste podría ser sin un coche, es razonable para llenar 0;

  6. "Graduados": no llenar este un usuario no puede estar en la universidad, se llena el infinito positivo razonable;

  7. "Estado civil": no lo complete, un usuario puede ser más sensible a la privacidad debe establecerse en una sola clasificación, como casada, soltera 0, -1 sin llenar.

 

Los datos faltantes tipo 2

Antes se procesan los datos que faltan, para comprender los mecanismos y formas de los datos que faltan es esencial. El conjunto de datos no contiene el valor de una variable llamada completa falta conjunto de datos variable que comprende un valor variable denominada variable de desaparecidos incompleta. A partir de la distribución de las deleciones puede ser supresiones en falta por completo al azar, falta por completo en supresiones al azar y no al azar.

  • Perdidos completamente al azar (Random perdidos completamente al, MCAR) : se refiere a los datos que faltan es completamente aleatoria, independiente de cualquier variable variables incompleto o completo no afecta a las muestras de sesgo, como la dirección de su casa eliminación;
  • Perdidos al azar (Random faltante AT, MAR) : se refiere a los datos que faltan no es completamente aleatorio, que es una especie de falta de datos es completamente dependiente de otras variables, tales como la falta de datos financieros relacionados con el caso de las pequeñas empresas;
  • No faltan al azar (no en Missing aleatoria, ARMN) : se refiere a los datos que faltan y variables incompleta relacionada con el valor de su propia, como las personas de altos ingresos, no tiene intención de proporcionar ingresos familiares;

Por falta de registros aleatorios y no aleatorios que faltan, eliminar no es apropiado, las razones se han dado anteriormente. Random eliminación de valores perdidos puede ser estimado por las variables conocidas, en lugar de una al azar no aleatoria falta no existe una solución buena.

 

Falta el método de procesamiento de datos 3

Los siguientes son cuatro formas de lidiar con los valores que faltan: los registros de eliminación, los datos de relleno, y no maneja .

1. Eliminar registro

ventajas:

  • El más simple y crudo;

desventajas:

  • A cambio de una información completa mediante la reducción de los datos históricos, que pueden estar faltando una gran cantidad de información importante escondido;
  • Cuando la proporción de los datos que faltan es grande, especialmente cuando la distribución no aleatoria de los datos que faltan, los datos de borrado podría causar desviado, tal como una distribución normal se había convertido en no normal;

 

2. Los datos de relleno

La interpolación de los valores que faltan se pueden dividir en tres tipos: reemplazar los valores perdidos, los valores que faltan en forma, variables ficticias . Se sustituye por la similitud de los datos para llenar los datos faltantes de África central, la idea central es encontrar una característica común de un mismo grupo, es apto para llenar a través de otra de modelado basado en funciones, variables ficticias se derivan nueva variable en lugar de los valores perdidos.

Reemplazar los valores perdidos

  • asignación de valores medios:

对于定类数据: Usando  el modo (modo) para rellenar, como por ejemplo un número de niños y niñas de la escuela, 500 niños, 50 niñas, a continuación, para el resto del valor faltante vamos a utilizar el mayor número de niños para llenar.

对于定量(定比)数据: Usando el promedio (media) o mediana (mediana) para llenar, como función de la altura de un grupo de estudiantes, por algún valor de la altura de los estudiantes que faltan puede utilizar la altura media o la mediana de toda la clase de relleno. Si la función de distribución es en general positiva demasiado distribución, mejores resultados utilizando el valor medio, y cuando hay un valor anormal debido a la distribución del caso en el que la distribución no es un positivo también, utilizando el efecto mediano es mejor.

Nota: Este método es sencillo, pero no es precisa, puede introducir ruido, o cambiar las características de la distribución original.

 

  • llenado de calorías (caliente cubierta de la imputación):

método de llenado de calorías es encontrar un más similar al objeto en sus datos completos, a continuación, utilizar el valor del objeto es similar a la de llenado. Por lo general se encuentran más allá de un tema similar, no es el mejor partido en todos los temas, pero desde un seleccionados al azar como el valor de relleno. La clave de este problema es un problema diferente puede utilizar diferentes criterios para determinar una conducta similar, así como la forma de desarrollar los criterios. Este método es conceptualmente muy simple, y la relación entre el uso de datos para estimar el valor vacío, pero la desventaja es difícil de definir un estándar similar, los factores más subjetivos.

  • K-means clustering (K-means clustering)

Otro método es el uso de la máquina de aprendizaje método de agrupamiento no supervisado. Por la agrupación de las K-medias con el método de clasificación de racimo para todas las muestras, y luego rellenar los valores de cada clase dividido por el tipo de medio que falta. Propiedad de su naturaleza o de relleno en los valores que faltan mediante la búsqueda de similar.

Nota: los valores que faltan de llenado depende de la exactitud de la agrupación resultado es bueno o malo, y la agrupación de resultados muy variables, generalmente relacionado con el punto de selección inicial, y en la siguiente figura se puede ver las características individuales de cada clase valor también es muy diferente, y por lo tanto se debe utilizar con precaución.

 

Montaje de los valores perdidos

Fit es el uso de otras variables hacen aportaciones al modelo para predecir las variables que faltan, como nuestros métodos normales de modelado, pero se convierte en la variable de destino valores que faltan.

Nota: Si la variable es independiente de las otras características variables que faltan, los resultados predichos sentido. Si el pronóstico es bastante exacta, entonces usted necesita para explicar esta variable no predijo, porque este es necesariamente información duplicada entre las variables características. entre los mismos En general, el efecto se interpone se introduce preferentemente después de la autocorrelación si se le obliga a imputar valores perdidos, lo que crearía obstáculos para su posterior análisis.

Hay muchas variables que faltan utilizando el modelo para predecir el método, aquí sólo brevemente algunos.

  • predicción de regresión:

Como hemos mencionado antes que los precios pronostican proyectos, al igual que el análisis de datos, reales - de segunda mano precios de la vivienda análisis de Pekín (documentos de modelado) , basado en un conjunto completo de datos, ecuación de regresión. Por falta de valores de valor propio, en el que los valores conocidos en el modelo para estimar el valor característico desconocido, a fin de llenar la estimación, el siguiente ejemplo FIG. Por supuesto, hay muchos métodos en el retorno, aquí no se describe en detalle.

Los valores que faltan son continuas, es decir, tipo cuantitativo, se pueden predecir usando la regresión.
  • Maximum Likelihood Estimation (likelyhood máximo):

de tipo deleción en condiciones de falta al azar, el modelo se asume para la muestra completa es correcta, entonces los parámetros desconocidos pueden ser distribuciones marginales datos de observación de Máxima Verosimilitud Estimación (Little y Rubin). Este método también se conoce como valores perdidos ignorados estimación de máxima verosimilitud para la estimación de máxima verosimilitud de los parámetros del método de cálculo real se utiliza a menudo en la expectativa de maximización (Expectativa Maximización (EM), el EM) . Este método de la supresión de una sola interpolación de valor y más atractivo, es una premisa importante: para muestras grandes . Número de muestras es suficiente para asegurar eficaz estimación ML es imparcial y asintóticamente distribuido normalmente. Sin embargo, este método puede caer en la velocidad mínima de convergencia local no es rápido, y el cálculo es muy complicado, y se limita a un modelo lineal.

  • La imputación múltiple (Mutiple imputación):

De valores múltiples pensamiento interpolación viene estimación bayesiana, los valores de interpolación se considera que son al azar , se ha observado su valor desde el valor. Práctica del valor específica se estima en general, a ser interpolados, y el ruido diferente además, opcionalmente, formar una pluralidad de conjuntos de valores interpolados. La base de una elección, seleccionar la más adecuada interpolación.

Vemos el montaje y la sustitución método propuesto anteriormente es un método de imputación, y la imputación múltiple para compensar las deficiencias de un solo interpolación, que no trató de ir a estimar cada valor faltante por un valor analógico, pero propuso a continuación, la falta de un valores de muestras de datos (estas muestras pueden ser el resultado de una combinación de ajuste de los diferentes modelos). Realización de procedimiento de un tal refleja adecuadamente los valores que faltan debido a la incertidumbre provocada por la inferencia estadística que eficaz. inferencia de imputación múltiple se puede dividir en los siguientes tres pasos:

  • Generar un conjunto de valores posibles para cada valores ausentes interpolados, estos valores reflejan la incertidumbre en el modelo de respuesta;
  • Cada conjunto de datos de interpolación se utilizan para el análisis estadístico del conjunto completo de datos de métodos estadísticos;
  • Los resultados de cada uno de los conjuntos de datos de interpolación, seleccionados de acuerdo con la función de puntuación, para producir el valor interpolado final;

El mecanismo de los datos que faltan, y los tipos de variables modo, respectivamente regresión, coincidente media predictiva (coincidente media predictivo, PMM), Trends puntuación (puntuación de propensión, PS), regresión logística, análisis discriminante y la cadena de Markov Monte Carlo ( Markov Chain Monte Carlo, MCMC), tales como diferentes métodos para llenar.

Supongamos que un conjunto de datos, incluyendo tres variables Y1, Y2, Y3, su distribución conjunta es normal, este grupo de datos en tres grupos, un grupo que contiene los datos originales, la deleción de sólo el Y3 grupo B, Y1 y eliminación del grupo C Y2. Cuando multi-valor de interpolación, el grupo A sin ningún tratamiento, para producir un conjunto de valores estimados para grupo Y3 B (durante aproximadamente Y3 Y1, Y2 del retorno), el grupo C de una composición para la generación de Y1 e Y2 se estima valor (como Y1, Y2 e Y3 en el retorno).

Cuando no se procesará la interpolación de valores múltiples, los grupos A, a B, C para completar la muestra aleatoria se forma siempre y cuando el grupo es m (m es un conjunto opcional de valor interpolado m), el número de casos por grupo efectiva estima parámetros en él. Para estimar la distribución de la propiedad existe valores que faltan y, a continuación sobre la base de este conjunto de observaciones m, m para este conjunto de muestras se generaron conjunto de valores estimados para los parámetros M dadas las correspondientes estimaciones por el método de máxima probabilidad para el tiempo empleado Sin embargo método, en un ordenador como un algoritmo específico del método expectativa de maximización (EM). Grupo B de un conjunto de valores estimados de Y3, el uso de C Y1, Y2, Y3 su distribución conjunta es una distribución normal de esta premisa, un conjunto de estimaciones (Y1, Y2).

En la realización asume Y1, Y2 distribución conjunta, Y3 es una distribución normal. Este supuesto es artificial, pero ha sido verificado por variable (Graham y Schafer en 1999), la distribución conjunta de no normal, bajo este supuesto todavía puede estar muy cerca de los resultados para estimar el valor verdadero.

NOTA: Uso de imputación múltiple de los datos que faltan se requiere supresiones de aleatoriedad, típicamente una alta precisión de repetición 20-50 veces, pero el cálculo es muy complicado, requiere una gran cantidad de cálculos.

  • Los bosques aleatorios:

Otro método utilizado comúnmente es encajar un bosque al azar, y esta es una manera peces gordos concurso Kaggle utilizan a menudo, y la aplicación específica normalmente el mismo, pero el valor faltante como la variable de destino.

 

maniquíes

En realidad, es una variable ficticia valores que faltan variables derivadas . Esto se realiza mediante la determinación de si el valor de los valores de características que faltan para definir un nuevo dicotómica. Por ejemplo, en la que A contiene los valores que faltan, se deriva una nueva característica B, si A valores característicos faltan, entonces el valor B correspondiente de 1, si A es el valor de característica no se encuentra, el correspondiente B Un valor de 0.

 

3. No existe ningún tratamiento

asa acolchada sólo hasta el valor desconocido nuestras estimaciones subjetivas no puede ser totalmente coherente con los hechos objetivos, al mismo tiempo lleno de procesamiento de la información incompleta, que más o menos cambiamos el sistema de información original. Además, los valores nulos son a menudo un llenado incorrecto de ruido introducido en los nuevos datos en las tareas de minería de producir resultados erróneos. Por lo tanto, en muchos casos, todavía queremos procesar los sistemas de información bajo la premisa de mantener la información original no cambia.

En la práctica, algunos modelos no pueden hacer frente a los valores de datos faltantes, y por lo tanto se manejan los valores que faltan. Sin embargo, hay algunos modelos en sí mismo puede hacer frente a los valores de los datos que faltan, esta vez sin la necesidad de procesamiento de datos, por ejemplo Xgboost, rfry otro modelo de alto nivel.

 

4 Resumen

En resumen, la mayor parte del procesamiento previo de minería de datos utilizaremos una manera más conveniente para hacer frente a los valores que faltan, como el método de valor medio, pero el efecto es bueno y constante, por lo que es necesario seleccionar un método adecuado dependiendo de la necesidad, y no resuelve todos los problemas de una método universal. Los métodos específicos emplean una pluralidad de aspectos deben ser considerados:

  • Las razones de los datos que faltan;
  • Falta el tipo de valor de datos;
  • La cantidad de muestras de datos;

Publicado 44 artículos originales · elogios ganado 16 · Vistas a 10000 +

Supongo que te gusta

Origin blog.csdn.net/YYIverson/article/details/103388295
Recomendado
Clasificación