Función de densidad de probabilidad de la distribución normal | Varias pruebas de distribución normal | Gráfico QQ

El valor de la función de densidad de probabilidad (PDF) de la distribución normal se calcula para un valor de variable aleatoria específico x bajo los parámetros de distribución normal dados (media μ y desviación estándar σ). El valor de densidad de probabilidad f(x). Este valor representa la densidad de probabilidad de la variable aleatoria que toma el valor x bajo la distribución normal.

En concreto, la fórmula de cálculo de la función de densidad de probabilidad de la distribución normal es la siguiente:

Esta función de densidad de probabilidad describe la distribución de densidad de probabilidad cuando la variable aleatoria x toma valores diferentes. En otras palabras, f(x) representa la probabilidad relativa de la variable aleatoria X en x. . La curva de la distribución normal tiene forma de campana, está centrada en la media μ y la desviación estándar σ determina el ancho de la curva. Cuanto más alejados estén los puntos de datos de la media, menor será la densidad de probabilidad.

Densidad de probabilidad y probabilidad: la función de densidad de probabilidad proporciona la densidad de probabilidad en diferentes valores, pero para variables aleatorias continuas, la densidad de probabilidad de un solo punto es cero. La probabilidad es la acumulación de densidad de probabilidad dentro de un intervalo, no la probabilidad de un solo punto.

El valor de densidad de probabilidad de la función de densidad de probabilidad de la distribución normal no es una probabilidad directa, sino que describe la distribución de la densidad de probabilidad relativa de la variable aleatoria en diferentes valores. Para calcular probabilidades específicas, es necesario utilizar integrales para calcular probabilidades dentro de intervalos.

La función de densidad de probabilidad f(x) de la distribución normal es una función matemática utilizada para describir la densidad de probabilidad de una variable aleatoria X que toma un valor específico x en la distribución normal. En pocas palabras, expresa la probabilidad relativa de que una variable aleatoria X sea igual a un valor específico x dada la media (μ) y la desviación estándar (σ) de la distribución normal.

Específicamente, f(x) se puede interpretar como los dos puntos siguientes:

  1. Probabilidad relativa: f (x) no es un valor de probabilidad directo, sino una densidad de probabilidad. Le indica la probabilidad relativa de que una variable aleatoria X tome un valor específico x bajo una distribución normal. Si f(x) es alto en algún x, significa que es más probable que el valor ocurra en una distribución normal.

  2. Área bajo la curva: La gráfica de la función de densidad de probabilidad de la distribución normal es una curva en forma de campana. Al integrar el área bajo la curva, puedes encontrar la probabilidad de que una variable aleatoria X esté dentro de un cierto valor o rango de valores. Esto significa que si quieres saber la probabilidad de que X caiga dentro de un determinado intervalo, puedes calcularla integrando f(x).

En resumen, la función de densidad de probabilidad f(x) es una función que describe la probabilidad relativa de cada valor posible en una distribución normal. Es una representación de la densidad de probabilidad en lugar de un valor de probabilidad directo. Al integrar f(x), se puede calcular la probabilidad de que una variable aleatoria X se encuentre dentro de un determinado valor o rango de valores en una distribución normal.

 La función de densidad de probabilidad (PDF) describe la densidad de probabilidad relativa de una variable aleatoria continua en diferentes valores. Esto significa que la PDF refleja la frecuencia o densidad relativa de ocurrencias de una variable aleatoria en diferentes valores, en lugar de la probabilidad directa.

Los siguientes son algunos conceptos importantes sobre los diferentes valores en PDF:

  1. Valor de densidad de probabilidad : el valor f (x) de la PDF representa la densidad de probabilidad relativa cerca de una variable aleatoria que toma un valor específico x. Específicamente, f(x) representa la densidad de probabilidad unitaria en x, es decir, la densidad de probabilidad relativa dentro de un intervalo infinitesimal.

  2. Rango de valores : PDF describe la distribución de densidad de probabilidad en todos los rangos de valores posibles de una variable aleatoria. Este rango suele ser continuo, por lo que el valor de densidad de probabilidad en cada valor específico es infinitesimal.

  3. Forma de la curva : la gráfica de una PDF suele ser una curva y su forma está determinada por las características de distribución de la variable aleatoria. Por ejemplo, la PDF de una distribución normal es una curva en forma de campana con un pico en la media, lo que indica que los valores cercanos a la media tienen una alta densidad de probabilidad relativa.

  4. Cálculo de probabilidad : para calcular la probabilidad de que una variable aleatoria se encuentre dentro de un determinado intervalo [a, b]$, puede utilizar integrales para calcularla.

  5. Comparación de probabilidad : al comparar la densidad de probabilidad relativa de PDF en diferentes valores, puede comprender la frecuencia relativa de diferentes valores. Un valor de densidad de probabilidad más alto significa que el valor allí es más frecuente, mientras que un valor de densidad de probabilidad más bajo significa que el valor allí es menos común.

En resumen, la densidad de probabilidad relativa en diferentes valores bajo la función de densidad de probabilidad describe la frecuencia relativa o distribución de densidad de variables aleatorias continuas. Esto nos permite comprender la frecuencia relativa de ocurrencia de la variable aleatoria en diferentes valores, pero para calcular probabilidades específicas, necesitamos usar la integración para considerar las probabilidades dentro del intervalo.

La función de densidad de probabilidad de la distribución normal es una ecuación matemática que se utiliza para describir la distribución de densidad de probabilidad de datos en diferentes valores. Es muy importante en estadística y ciencia de datos porque nos permite cuantificar la probabilidad de que un punto de datos aparezca en diferentes ubicaciones. . . Ésta es una de las razones por las que la distribución normal se utiliza ampliamente en diversas aplicaciones.

-----------

No se puede subestimar el papel fundamental de la distribución normal en las estadísticas y el análisis de datos. A continuación se ofrecen algunas ideas sobre el importante papel de la distribución normal en estas áreas:

  1. Estimación de parámetros : las propiedades de la distribución normal la hacen muy útil en la estimación de parámetros. Al realizar una estimación de máxima verosimilitud de los datos, se puede estimar la media y la desviación estándar de la distribución normal, lo que brinda una mejor comprensión de las características generales de los datos.

  2. Prueba de hipótesis : muchos métodos de prueba de hipótesis se basan en las propiedades de la distribución normal, como la prueba t, la prueba F, etc. Estas pruebas se utilizan para comparar medias o varianzas entre diferentes grupos para determinar si son significativamente diferentes.

  3. Inferencia estadística : la distribución normal juega un papel clave en la inferencia estadística. Al estimar los parámetros de una distribución normal y probar hipótesis, se pueden hacer inferencias sobre la población, como intervalos de confianza y la credibilidad de las hipótesis.

  4. Teorema del límite central : El teorema del límite central establece que las medias de un gran número de variables aleatorias independientes tienden a obedecer una distribución normal. Este teorema hace que la distribución normal sea fundamental para la inferencia estadística sobre muestras grandes porque explica por qué muchos datos del mundo real se distribuyen normalmente alrededor de la media.

  5. Ajuste del modelo : la distribución normal se utiliza a menudo para ajustar datos porque proporciona un buen ajuste a la distribución de datos de muchos fenómenos naturales y sociales. Esto es importante para construir modelos estadísticos y predecir puntos de datos futuros.

  6. Visualización : el gráfico de la función de densidad de probabilidad de la distribución normal es una herramienta de visualización comúnmente utilizada para comprender las características de distribución de los datos. Al dibujar una curva de distribución normal, puede comprender rápidamente la posición central y la dispersión de sus datos.

  7. Gestión de riesgos y finanzas : en finanzas, la distribución normal se utiliza a menudo para modelar la volatilidad de los precios de los activos, lo cual es fundamental para la gestión de riesgos y las decisiones de inversión.

  8. Ingeniería y Ciencias Naturales : La distribución normal se utiliza ampliamente en ingeniería, física, biología y otros campos de las ciencias naturales para modelar y analizar fenómenos, como errores de medición, modelos climáticos, etc.

En resumen, las propiedades matemáticas y la versatilidad de la distribución normal la convierten en una herramienta indispensable en estadística y análisis de datos. Nos ayuda a comprender y explicar las propiedades estadísticas de diversos fenómenos naturales y sociales, apoyando así la investigación científica, la toma de decisiones y la resolución de problemas.

-------------------

La curtosis y la asimetría de la distribución normal son dos características estadísticas que describen la forma de la distribución:

  1. Asimetría : La asimetría mide la asimetría de la distribución de datos. La asimetría de la distribución normal es cercana a 0, lo que significa que la distribución es simétrica, con la media ubicada en el centro de la distribución y los datos en ambos lados están distribuidos simétricamente. Cuando la asimetría es positiva, la distribución de datos está sesgada hacia la derecha (la cola se extiende hacia la derecha), y cuando la asimetría es negativa, la distribución de datos está sesgada hacia la izquierda (la cola se extiende hacia la izquierda). Cuanto mayor sea el valor absoluto de la asimetría, más obvio será el grado de asimetría.

  2. Kurtosis : La curtosis mide la nitidez o planitud de una distribución de datos. La curtosis de una distribución normal está cerca de 3, que es la curtosis inicial de una distribución normal. Cuando la curtosis es mayor que 3, se dice que la distribución tiene una forma puntiaguda (colas más pesadas), lo que se denomina curtosis sesgada positivamente o "demasiado puntiaguda". Cuando la curtosis es menor que 3, se dice que la distribución tiene una forma plana (colas más claras), llamada curtosis sesgada negativamente o "sobreplana".

En resumen, la asimetría de una distribución normal es cercana a 0, lo que indica una distribución simétrica, mientras que la curtosis es cercana a 3, lo que indica una forma moderadamente puntiaguda. Estas dos estadísticas se utilizan para describir las características de forma de la distribución normal, pero sus valores pueden diferir para otros tipos de distribuciones. En aplicaciones prácticas, la asimetría y la curtosis pueden ayudarnos a identificar las características de distribución de los datos y compararlas con la distribución normal para determinar si los datos se ajustan aproximadamente a la distribución normal.

-------------------

La prueba de distribución normal se utiliza para determinar si un conjunto de datos determinado cumple con el supuesto de una distribución normal. En estadística y análisis de datos, generalmente existen varias formas de realizar una prueba de distribución normal, algunos de los métodos comunes incluyen:

  1. Prueba de Shapiro-Wilk : la prueba de Shapiro-Wilk es un método ampliamente utilizado para comprobar si los datos se ajustan a una distribución normal. Su hipótesis nula es que los datos siguen una distribución normal. Si el valor p es menor que el nivel de significancia (generalmente 0,05), se puede rechazar la hipótesis nula, lo que indica que los datos no siguen una distribución normal.

  2. Prueba de D'Agostino y Pearson : este es otro método de prueba común para la distribución normal. Determina si los datos se ajustan a una distribución normal en función de la asimetría y la curtosis de los datos. De manera similar a la prueba de Shapiro-Wilk, el supuesto de distribución normal puede rechazarse si el valor p es menor que el nivel de significancia.

  3. Prueba de Kolmogorov-Smirnov : este método de prueba se utiliza para comparar el ajuste de los datos dados con la distribución normal teórica. Determina si los datos se ajustan a la distribución normal en función de la diferencia de la función de distribución acumulativa.

Los diferentes métodos de prueba de normalidad tienen diferentes requisitos previos y características de uso. Los siguientes son algunos métodos comunes de prueba de normalidad y sus principales premisas y características:

  1. Prueba de Shapiro-Wilk :

    • Requisito previo: los datos son continuos y el tamaño de la muestra no suele ser demasiado pequeño (normalmente se recomienda que el tamaño de la muestra sea superior a 5 o 10).
    • Características: Este es un método de prueba de normalidad relativamente poderoso que es adecuado para varios tamaños de conjuntos de datos. Es relativamente sensible a la no normalidad y se puede utilizar con muestras tanto pequeñas como grandes.
  2. Prueba de Kolmogorov-Smirnov :

    • Requisito previo: los datos son continuos. Para las pruebas de una sola muestra, generalmente se requiere que el tamaño de la muestra no sea demasiado pequeño, mientras que para las pruebas de dos muestras, los tamaños de las dos muestras deben ser similares.
    • Características: Esta prueba es adecuada para comparar datos con la función de distribución acumulativa de una distribución normal teórica. Es más flexible y se puede utilizar para comparaciones de una y dos muestras. Pero puede que no sea lo suficientemente sensible para datos de muestras pequeñas.
  3. Prueba de Anderson-Darling :

    • Requisito previo: los datos son continuos. Generalmente se utiliza para datos de muestras grandes.
    • Características: esta prueba es una extensión de Shapiro-Wilk, que funciona mejor con datos de muestras grandes y generalmente se usa para muestras de mayor tamaño. Proporciona una serie de estadísticas con diferentes ponderaciones que se pueden utilizar para diferentes pruebas de distribución.
  4. Diagrama QQ (diagrama cuantil-cuantil) :

    • Requisito previo: Adecuado para datos continuos. No se requiere un tamaño de muestra específico, pero la interpretación gráfica puede requerir experiencia.
    • Características: Este es un método de visualización que determina si los datos se ajustan a la distribución normal comparando visualmente los cuantiles de los datos con los cuantiles de la distribución normal teórica. Proporciona una impresión inicial rápida pero no proporciona un valor p específico.
  5. Prueba de Lilliefors :

    • Requisito previo: adecuado para datos de muestras pequeñas, generalmente cuando el tamaño de la muestra es pequeño.
    • Características: Esta es una variante de la prueba de Kolmogorov-Smirnov, utilizada específicamente para datos de muestras pequeñas. Es más sensible a datos de muestras pequeñas que la prueba estándar de Kolmogorov-Smirnov.

Cada método de prueba tiene su alcance y limitaciones, y la elección del método apropiado depende de las características de sus datos y las preguntas de investigación. Por lo general, se recomienda combinar los resultados de varios métodos para emitir un juicio final. Además, la prueba de normalidad suele ser un paso en el análisis estadístico más que la conclusión final.

Estos son algunos métodos comunes de prueba de distribución normal. Puede elegir el método apropiado de acuerdo con sus datos y necesita verificar si los datos se ajustan a la distribución normal. Tenga en cuenta que la prueba de distribución normal no necesariamente requiere que los datos estén completamente distribuidos normalmente, pero se utiliza para determinar si los datos se desvían significativamente de la distribución normal.

import scipy.stats as stats
import numpy as np

# 生成模拟数据,这里使用NumPy生成随机正态分布数据
np.random.seed(0)  # 设置随机种子以保持一致性
data = np.random.normal(0, 1, 1000)  # 均值为0,标准差为1的正态分布数据,生成1000个数据点

# 使用Shapiro-Wilk检验
statistic, p_value = stats.shapiro(data)
if p_value > 0.05:
    print("Shapiro-Wilk检验:数据符合正态分布")
else:
    print("Shapiro-Wilk检验:数据不符合正态分布")

# 使用D'Agostino和Pearson检验
statistic, p_value = stats.normaltest(data)
if p_value > 0.05:
    print("D'Agostino和Pearson检验:数据符合正态分布")
else:
    print("D'Agostino和Pearson检验:数据不符合正态分布")

# 使用Kolmogorov-Smirnov检验
statistic, p_value = stats.kstest(data, 'norm')
if p_value > 0.05:
    print("Kolmogorov-Smirnov检验:数据符合正态分布")
else:
    print("Kolmogorov-Smirnov检验:数据不符合正态分布")

Múltiples pruebas de normalidad 

import numpy as np
import pandas as pd
import scipy.stats as stats
import matplotlib.pyplot as plt

data = np.random.normal(loc=12, scale=2.5, size=340)
df = pd.DataFrame({'Data': data})

# 描述性统计分析
mean = df['Data'].mean()
std_dev = df['Data'].std()
skewness = df['Data'].skew()
kurtosis = df['Data'].kurtosis()

print("均值:", mean)
print("标准差:", std_dev)
print("偏度:", skewness)
print("峰度:", kurtosis)

# 创建一个2x1的子图布局
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(6, 6))
# 可视化 - stats.probplot正态概率图(Q-Q图)
stats.probplot(data, plot=ax1, dist='norm', fit=True, rvalue=True)  #ax1作为绘图的位置
ax1.set_title("Q-Q Plot")
 
# 可视化 - 直方图
ax2.hist(data, bins=10, rwidth=0.8, density=True) # bins个柱状图,宽度是rwidth(0~1),=1没有缝隙
ax2.set_title("Histogram with Kernel Density Estimate")

# 调整子图之间的间距
plt.tight_layout()
# 显示图形
plt.show()

# 正态性检验 - Shapiro-Wilk检验
stat, p = stats.shapiro(data)
print("Shapiro-Wilk检验统计量:", stat)
print("Shapiro-Wilk检验p值:", p)

# Anderson-Darling检验
result = stats.anderson(df['Data'], dist='norm')
print("Anderson-Darling检验统计量:", result.statistic)
print("Anderson-Darling检验临界值:", result.critical_values)

# 执行单样本K-S检验,假设数据服从正态分布
statistic, p_value = stats.kstest(data, 'norm')
print("K-S检验统计量:", statistic)
print("K-S检验p值:", p_value)

# 执行正态分布检验
k2, p_value = stats.normaltest(data)
print(f"normaltest正态分布检验的统计量 (K^2): {k2}")
print(f"normaltest检验p值: {p_value}")

 

scipy.statsEl módulo es un submódulo de la biblioteca SciPy y se utiliza para realizar diversos análisis estadísticos y operaciones relacionadas con la distribución de probabilidad. Este módulo proporciona muchas funciones para realizar pruebas estadísticas, ajustar distribuciones de probabilidad, generar variables aleatorias y más. A continuación se muestran algunas scipy.statsfunciones comunes del módulo:

  1. Pruebas estadísticas : scipy.statsproporciona muchos métodos de prueba estadísticos, como prueba t, ANOVA, prueba de chi-cuadrado, prueba de normalidad, etc. Estos métodos se utilizan para analizar diferencias entre conjuntos de datos, probar hipótesis y determinar si los datos se ajustan a ciertas distribuciones.

  2. Distribución de probabilidad : este módulo contiene muchas implementaciones de distribuciones de probabilidad continuas y discretas, como distribución normal, distribución exponencial, distribución de Poisson, distribución gamma, etc. Estas distribuciones se pueden utilizar para modelar y analizar diferentes tipos de variables aleatorias.

  3. Ajuste de distribuciones : puede utilizar fitla función para ajustar datos a una distribución de probabilidad específica. Esto es útil para determinar si los datos se ajustan a una distribución conocida y para estimar los parámetros de la distribución.

  4. Generar variables aleatorias : scipy.statsle permite generar variables aleatorias que siguen una distribución de probabilidad específica. Esto es útil para simular experimentos y generar puntos de datos aleatorios.

  5. Estadísticas descriptivas : puede utilizar este módulo para calcular estadísticas descriptivas de sus datos, como media, desviación estándar, mediana, percentil, etc.

  6. Función de densidad de probabilidad y función de distribución acumulativa : puede utilizar este módulo para calcular la función de densidad de probabilidad (PDF) y la función de distribución acumulativa (CDF) y sus funciones inversas.

  7. Cálculo de estadísticas : este módulo proporciona el cálculo de diversas estadísticas, como coeficiente de correlación, covarianza, asimetría, curtosis, etc.

  8. Prueba de hipótesis : además de la prueba t común y la prueba de chi-cuadrado, también se proporcionan algunos métodos avanzados de prueba de hipótesis, como la prueba de Kolmogorov-Smirnov, la prueba de Anderson-Darling, etc.

Esto es sólo scipy.statsuna parte de la funcionalidad del módulo. Es una herramienta muy útil en estadística, análisis de datos e informática científica. Puede utilizarse para procesar y analizar varios tipos de datos y realizar inferencias estadísticas y pruebas de hipótesis. Si necesita información detallada sobre una característica específica, puede consultar la documentación oficial de SciPy o explorar más a fondo la funcionalidad de este módulo.

 ---------------------

El gráfico QQ (Quantile-Quantile Plot) es una herramienta de visualización muy útil para comparar la similitud entre la distribución de datos real y la distribución teórica (como la distribución normal). Al dibujar un diagrama de dispersión, el diagrama QQ puede ayudarlo a observar visualmente la relación entre la distribución de datos y la distribución teórica.

Los pasos para crear un gráfico QQ son los siguientes:

  1. Recopile datos reales : primero, debe recopilar o preparar el conjunto de datos reales que desea analizar.

  2. Ordenar datos : organice los datos reales en orden ascendente para el cálculo de cuantiles posteriores.

  3. Calcular cuantiles : para cada punto de datos, calcule su rango percentil dentro de todo el conjunto de datos, generalmente utilizando una función de distribución acumulativa (CDF). Estos valores cuantiles representan la posición relativa de los puntos de datos dentro de toda la distribución.

  4. Generar cuantiles teóricos : basándose en una distribución teórica seleccionada (como la distribución normal), calcule los cuantiles teóricos correspondientes a la misma clasificación percentil. Estos cuantiles teóricos se derivan de una distribución teórica y, si los datos se ajustan a esa distribución teórica, deberían seguir la misma distribución.

  5. Dibujar gráfico QQ : dibuje el cuantil de los datos reales y el cuantil de la distribución teórica en un diagrama de dispersión. Normalmente, el eje x representa los cuantiles teóricos y el eje y representa los cuantiles de los datos reales. Si los datos se ajustan aproximadamente a la distribución teórica, los puntos de dispersión deberían seguir aproximadamente una diagonal de 45 grados.

  6. Interpretar los resultados : observar la distribución de puntos en el gráfico QQ. Si están estrechamente alineados a lo largo de la diagonal de 45 grados, es probable que los datos se ajusten a la distribución teórica elegida. Si los puntos se desvían de la diagonal, puede indicar que los datos no se ajustan a la distribución teórica.

El gráfico QQ es una herramienta poderosa que puede ayudarlo a evaluar visualmente las características de distribución de los datos y verificar si los datos se ajustan aproximadamente a la distribución teórica, como la distribución normal. Si los puntos se alinean estrechamente a lo largo de una línea recta en un gráfico QQ, esto es una buena indicación de que los datos se ajustan a la distribución teórica elegida. Las funciones se utilizan para crear gráficos de probabilidad que visualizan el ajuste entre los datos de muestra y una distribución teórica (generalmente la distribución normal). Esto le ayuda a determinar si los datos de la muestra se ajustan a una distribución teórica específica. 
scipy.stats.probplot

import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats

# 生成一些模拟身高数据(正态分布)
# 假设你有一个包含100个身高观测值的数据集,你想要检查这些身高数据是否符合正态分布
np.random.seed(0)
heights = np.random.normal(loc=170, scale=10, size=100)

# 绘制Q-Q图
stats.probplot(heights, dist="norm", plot=plt)
plt.title("Q-Q Plot for Heights")
plt.xlabel("Theoretical Quantiles")
plt.ylabel("Sample Quantiles")
plt.show()

Para trazar un gráfico QQ y comparar los cuantiles de datos reales con los cuantiles de una distribución normal teórica, primero debe calcular estos cuantiles. Cuantil representa un porcentaje específico de valores en un conjunto de datos. Los cuantiles generalmente se calculan utilizando la función de distribución acumulativa (CDF). Para una distribución normal, los cuantiles se pueden calcular usando:

  1. Calcule los cuantiles de la distribución normal teórica:

    • Para una probabilidad dada (porcentaje) p (por ejemplo, p=0,25 representa el cuantil del 25%, que es el cuartil inferior), el cuantil correspondiente se puede calcular utilizando la función de distribución acumulativa (CDF) de la distribución normal. Esto generalmente se hace utilizando software o bibliotecas estadísticas, ya que implica cálculos matemáticos avanzados.
  2. Calcule cuantiles de datos reales:

    • Para su conjunto de datos real, debe ordenar los datos de pequeño a grande.
    • Luego, calcule el cuantil para cada punto de datos usando la siguiente fórmula: Cuantil = ((i - 0,5)/n) * 100% donde i es la posición del punto de datos después de la clasificación y n son los datos totales en los puntos del conjunto de datos.
  3. Dibujar gráfico QQ:

    • Ahora que tiene la distribución normal teórica y los cuantiles de los datos reales, puede representarlos en un gráfico QQ.
    • El eje x representa el cuantil de la distribución normal teórica y el eje y representa el cuantil de los datos reales.
    • Si los puntos de datos están estrechamente espaciados a lo largo de una diagonal, entonces es probable que los datos estén distribuidos normalmente.

Usamos NumPy para generar un conjunto de datos de ejemplo, asumiendo que sigue una distribución normal. Luego, calculamos los cuantiles de los datos reales y las distribuciones normales teóricas y trazamos gráficos QQ utilizando las bibliotecas matplotlib y seaborn . Los gráficos QQ se utilizan para visualizar el grado de ajuste entre los datos reales y las distribuciones teóricas. Si los puntos de datos están estrechamente distribuidos a lo largo de la línea discontinua roja, los datos se aproximan a una distribución normal.

import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt
import seaborn as sns

# 生成一个示例数据集,假设服从正态分布
data = np.random.normal(loc=0, scale=1, size=1000)

# 计算实际数据的分位数
percentiles = np.percentile(data, [0, 25, 50, 75, 100])

# 计算理论正态分布的分位数
theoretical_percentiles = stats.norm.ppf([0, 0.25, 0.5, 0.75, 1], loc=0, scale=1)

# 绘制Q-Q图
plt.figure(figsize=(8, 6))
sns.set(style="whitegrid")
sns.scatterplot(x=theoretical_percentiles, y=percentiles)
plt.xlabel("Theoretical Quantiles")
plt.ylabel("Sample Quantiles")
plt.title("Q-Q Plot")
plt.plot([-2, 2], [-2, 2], color='red', linestyle='--')  # 添加对角线
plt.show()

Supongo que te gusta

Origin blog.csdn.net/book_dw5189/article/details/133221424
Recomendado
Clasificación