[Notas del estudio de análisis de datos] Los fundamentos de las estadísticas necesarias para el análisis de exploración de datos (EDA)

Análisis exploratorio de datos (EDA)

El Análisis de datos exploratorios (EDA) se refiere a un método de análisis de datos que explora la estructura y las leyes de los datos mediante el dibujo, la tabulación, el ajuste de ecuaciones, el cálculo de cantidades de características, etc., en los datos existentes con el menor número posible de supuestos anteriores. El método fue propuesto por el estadístico estadounidense JK Tukey en la década de 1970.

Los métodos tradicionales de análisis estadístico a menudo suponen que los datos se ajustan a un modelo estadístico, y luego estiman algunos parámetros y estadísticas del modelo en función de las muestras de datos para comprender las características de los datos, pero en la práctica a menudo hay muchos datos que no cumplen con el modelo estadístico supuesto. Distribución, que conduce a resultados de análisis de datos insatisfactorios. EDA es un método de análisis que está más en línea con la situación real. Hace hincapié en dejar que los datos "hablen" por sí mismos. A través de EDA, podemos observar la estructura y las características de los datos de la manera más verdadera y directa.

Después de la aparición de EDA, el proceso de análisis de datos se divide en dos pasos: la fase de exploración y la fase de verificación . La fase de exploración se enfoca en descubrir los patrones o modelos contenidos en los datos, y la fase de verificación se enfoca en evaluar los patrones o modelos descubiertos. Muchos algoritmos de aprendizaje automático (divididos en pasos de entrenamiento y prueba) siguen esta idea.

En el trabajo de análisis de datos, utilizando estadísticas, puede observar cómo los datos se organizan con precisión de una manera más profunda y detallada, y determinar el método de análisis de datos basado en esta estructura organizativa para obtener más información.


Bases estadísticas de análisis de datos.


Estadísticas de funciones

Las técnicas estadísticas que se usan a menudo al estudiar conjuntos de datos, incluidas la desviación, la varianza, la media aritmética, la mediana, la moda, el rango, el porcentaje, etc.

Las estadísticas que se usan con frecuencia en la medición de tendencias centralizadas son: media, mediana, modo, etc.

Las estadísticas que se usan con frecuencia en la medición de tendencias descentradas son: rango, desviación estándar, coeficiente de variación, rango intercuartil, etc.

Es muy fácil entender estadísticas de funciones e implementarlas en código. Por favor vea el diagrama de caja a continuación:

Un cuadro en el diagrama de caja contiene cinco valores: borde superior (observación máxima o valor máximo de muestra), cuartil superior (Q3), mediana (Q2), cuartil inferior (Q1) y Borde (observación mínima o muestra mínima). Además, fuera del cuadro también se pueden usar puntos circulares para indicar valores atípicos. A continuación se muestra un diagrama esquemático de los componentes del diagrama del cuadro:

En la figura anterior, la gruesa línea negra en el medio indica la mediana (Q2) de los datos. La mediana se usa para el promedio porque es más robusta para los valores atípicos. El cuartil inferior es esencialmente el 25%, es decir, el 25% de los datos es inferior a este valor. El cuartil superior es del 75%, es decir, el 75% de los datos es inferior a este valor. Los bordes superior e inferior representan los extremos superior e inferior del rango de datos.

Ejemplo: un caso del análisis de la calidad del vino tinto.

Echemos un vistazo a los resultados numéricos correspondientes en la figura anterior:

 

Los diagramas de caja ilustran bien el papel de las características estadísticas básicas:

  • Cuando el diagrama de caja es muy corto, significa que muchos puntos de datos son similares, porque muchos valores se distribuyen en un rango pequeño;
  • Cuando el diagrama de caja es alto, significa que la mayoría de los puntos de datos difieren mucho, porque estos valores están ampliamente distribuidos;
  • Si la mediana está cerca del fondo, la mayoría de los datos tendrán valores más bajos. Si la mediana está más cerca de la parte superior, la mayoría de los datos tienen valores más altos. Básicamente, si la línea mediana no está en el medio del cuadro, entonces indica datos sesgados;
  • Si las líneas en los lados superior e inferior del cuadro son largas, los datos tienen una desviación estándar y una varianza altas, lo que significa que estos valores están dispersos y varían mucho. Si hay una línea larga en un lado del cuadro y no una larga en el otro lado, los datos solo pueden cambiar mucho en una dirección.

Distribución de probabilidad

La probabilidad se puede definir como la probabilidad de que ocurran algunos eventos, expresados ​​como un porcentaje. En el campo de la ciencia de datos, esto generalmente se cuantifica en el rango de 0 a 1, donde 0 indica que la determinación del evento no ocurrirá y 1 indica que ocurrirá la determinación del evento. Entonces, la distribución de probabilidad es una función que representa la probabilidad de ocurrencia de todos los valores posibles.

Por favor vea la imagen a continuación:

Distribuciones de probabilidad comunes, distribución uniforme (arriba), distribución normal (centro), distribución de Poisson (abajo):

La distribución uniforme es la distribución de probabilidad más básica. Tiene un valor que solo aparece dentro de un cierto rango, y todo lo que está fuera de ese rango es 0. También podemos considerarlo como una variable con dos categorías: 0 u otro valor. Las variables categóricas pueden tener múltiples valores distintos de 0, pero aún podemos visualizarlas como múltiples funciones por partes distribuidas uniformemente.

La distribución normal, generalmente también llamada distribución gaussiana, se define por su media y desviación estándar. El valor promedio se distribuye en posiciones que varían espacialmente, y la desviación estándar controla su propagación. La principal diferencia con otros métodos de distribución es que la desviación estándar es la misma en todas las direcciones. Por lo tanto, a través de la distribución gaussiana, conocemos el valor promedio del conjunto de datos y la distribución de difusión de los datos, es decir, se extiende en un rango relativamente amplio o se concentra principalmente en unos pocos valores.

La distribución de Poisson es similar a la distribución normal, pero hay una tasa de inclinación. Al igual que la distribución normal, la distribución de Poisson tiene una difusión relativamente uniforme en todas las direcciones cuando el valor de asimetría es bajo. Sin embargo, cuando el valor de asimetría es muy grande, la difusión de nuestros datos en diferentes direcciones será diferente. En una dirección, el grado de difusión de datos es muy alto, mientras que en la otra dirección, el grado de difusión es muy bajo.

Si encuentra una distribución gaussiana, entonces sabemos que hay muchos algoritmos. Por defecto, la distribución gaussiana se ejecutará muy bien, por lo que esos algoritmos deben encontrarse primero. Si se trata de una distribución de Poisson, debemos ser especialmente cuidadosos al elegir un algoritmo que sea muy robusto a los cambios en la expansión espacial.


Reducción de dimensionalidad

El término reducción de dimensionalidad se puede entender intuitivamente, lo que significa reducir la dimensión de un conjunto de datos. En ciencia de datos, este es el número de variables características. Por favor vea la imagen a continuación:

El cubo en la figura anterior representa nuestro conjunto de datos, que tiene 3 dimensiones y un total de 1000 puntos. Con la potencia informática actual, es fácil calcular 1000 puntos, pero si tiene una escala mayor, se encontrará con problemas. Sin embargo, mirando nuestros datos solo desde una perspectiva bidimensional, como desde el lado del cubo, se puede ver que es fácil dividir todos los colores.

A través de la reducción de dimensiones, mostramos datos 3D en el plano 2D, lo que efectivamente reduce la cantidad de puntos que necesitamos calcular a 100, lo que ahorra en gran medida la cantidad de cálculo.

Otra forma es que podemos reducir la dimensionalidad mediante la poda de características. Con este método, eliminamos las características que vemos que no son importantes para el análisis.

Por ejemplo, después de estudiar el conjunto de datos, podemos encontrar que de 10 características, 7 características tienen una alta correlación con la salida, mientras que las otras 3 tienen una correlación muy baja. Bueno, es posible que no valga la pena calcular estas tres características de baja correlación. Es posible que podamos eliminarlas del análisis sin afectar el resultado.

La técnica estadística más común utilizada para la reducción de la dimensionalidad es PCA, que esencialmente crea una representación vectorial de características, lo que indica su importancia para la salida, es decir, la correlación. PCA se puede utilizar para realizar los métodos de reducción de dos dimensiones anteriores.


Overfitting y underfitting

El sobreajuste y el subajuste son técnicas utilizadas para problemas de clasificación. Por ejemplo, tenemos 2000 muestras en una categoría, pero solo 200 muestras en la segunda categoría. Esto dejará de lado muchas técnicas de aprendizaje automático que hemos probado y utilizado para modelar los datos y hacer predicciones. Entonces, el sobreajuste y la falta de adaptación pueden hacer frente a esta situación.

Por favor vea la imagen a continuación:

En los lados izquierdo y derecho de la figura anterior, la clasificación azul tiene más muestras que la clasificación naranja. En este caso, tenemos 2 opciones de preprocesamiento que pueden ayudar a entrenar el modelo de aprendizaje automático.

La falta de ajuste significa que solo seleccionaremos algunos datos de la clasificación de muchas muestras y utilizaremos tantas muestras de clasificación como sea posible. Esta elección debe ser para mantener la distribución de probabilidad de clasificación. Simplemente usamos menos muestreo para hacer que el conjunto de datos sea más equilibrado.

El sobreajuste significa que vamos a crear una copia de la clasificación minoritaria para tener el mismo tamaño de muestra que la clasificación mayoritaria. Se realizarán copias para mantener la distribución de algunas categorías. Simplemente hacemos que el conjunto de datos sea más equilibrado sin obtener más datos.


Estadísticas bayesianas

Para comprender completamente por qué, cuando usamos estadísticas bayesianas, primero debemos entender dónde fallan las estadísticas de frecuencia. Cuando la mayoría de la gente escucha la palabra "probabilidad", la estadística de frecuencia es el primer tipo de estadística que viene a la mente. Implica aplicar alguna teoría matemática para analizar la probabilidad de un evento. Para ser claros, los únicos datos que calculamos son datos anteriores.

Supongamos que te di un dado y te pregunto cuál es la probabilidad de sacar 6 puntos, la mayoría de la gente diría que es un sexto.

Pero, ¿qué pasa si alguien te da un dado específico que siempre puede tirar 6 puntos? Porque el análisis de frecuencia solo considera los datos anteriores, y los factores de los dados de trampa no se tienen en cuenta.

Las estadísticas bayesianas sí tienen esto en cuenta. Podemos usar la regla de Bayes para ilustrar:

La probabilidad P (H) en la ecuación es básicamente nuestro análisis de frecuencia, dados los datos previos sobre la probabilidad del evento. P (E | H) en la ecuación se llama posibilidad . Según la información obtenida por el análisis de frecuencia, es esencialmente la probabilidad de que el fenómeno sea correcto.

Por ejemplo, si quieres tirar los dados 10,000 veces, y las primeras 1000 tiradas hicieron 6 puntos, entonces estarás muy seguro de que los dados hicieron trampa. Si el análisis de frecuencia es muy bueno, estaremos seguros de determinar que 6 puntos son correctos. Al mismo tiempo, si el engaño de los dados es verdadero o no se basa en su propio análisis de probabilidad y frecuencia, también consideraremos los factores del engaño.

Como puede ver en la ecuación, las estadísticas bayesianas tienen en cuenta todos los factores. Cuando sienta que los datos anteriores no representan bien los datos y resultados futuros, debe utilizar métodos estadísticos bayesianos.

 

Publicado 646 artículos originales · elogiado 198 · 690,000 visitas

Supongo que te gusta

Origin blog.csdn.net/seagal890/article/details/105323424
Recomendado
Clasificación