Análisis de probabilidad y estadística de varianza-tarea04

1. ¿Qué es el análisis de varianza?

Un indicador tiene múltiples factores de influencia posibles y cada factor tiene múltiples niveles (nivel de categoría, valor discontinuo) Cuando el nivel del factor de prueba tiene un impacto en el indicador, se denomina análisis de varianza. Aquí, si el nivel del factor es un valor continuo, puede ser un análisis de regresión.

  • Resumen: El indicador es una variable continua, y el tipo de cambio del factor de influencia es una variable categórica. El método para probar si los diferentes niveles de factores tienen un impacto significativo en el indicador se llama análisis de varianza.

Tenga en cuenta que el método de análisis de la varianza consiste en formular hipótesis sobre si existe una diferencia entre la varianza dentro del grupo y la varianza entre los grupos. El método tiene hipótesis originales y estadísticas de prueba.

El análisis de varianza se puede dividir de la siguiente manera:
Inserte la descripción de la imagen aquí
análisis de covarianza

El análisis de covarianza toma como covariables los factores de control difíciles de controlar por el ser humano, y analiza el efecto de las variables de control (controlables) sobre las variables de observación bajo la condición de excluir la influencia de las covariables sobre las variables de observación, para realizar con mayor precisión los factores de control. Evaluación.

La hipótesis nula en el análisis de varianza es: el efecto lineal de la covariable sobre la variable observada no es significativo; bajo la condición de deducir el efecto de la covariable, no hay diferencia significativa en la media general de la variable observada en cada nivel de la variable de control. Los efectos de las variables son cero al mismo tiempo. Los estadísticos de prueba todavía usan estadísticos F, que son la razón de cada cuadrado medio y el cuadrado medio causado por factores aleatorios.

2 Método de inspección

2.1 Principios básicos

  • Supuestos básicos del análisis de varianza:
  1. Cada población debe ajustarse a una distribución normal;

  2. La varianza σ2 de cada población debe ser la misma;

  3. La observación es independiente.

La distribución de indicadores en cada nivel es una distribución normal. Esto es una buena comprensión. La distribución de las cantidades afectadas por muchos factores es principalmente una distribución normal. La observación es independiente y el entendimiento personal es que cada muestra no se afecta entre sí. Entonces, ¿por qué las variaciones deben ser las mismas?

Esto se debe a que la distribución estadística que usamos es la distribución F, el numerador y el denominador son todos chi-cuadrado, y la varianza de la distribución chi-cuadrado es 2n.
Inserte la descripción de la imagen aquí
Esto nos dice que antes del análisis de varianza, primero debemos realizar una varianza homogénea Prueba de sexo.
Tal vez algunos amigos estén a punto de preguntar, maestro, maestro, si comparo la varianza y encuentro que la varianza de cada nivel es muy diferente, ¿qué debo hacer?

  • Maestro: Necesito preguntar. Mire estas palabras: La esencia del análisis de varianza es probar si los valores medios de múltiples niveles son significativamente diferentes. Si la varianza de los valores de observación en cada nivel es demasiado diferente, solo la diferencia entre los valores medios no se probará. Sentido
  • Estudiante: ¿Con cuántas palabras llamas a esto?

Sí, realizar la prueba de homogeneidad de la varianza es aumentar nuestra confianza en los resultados, si no se hace, en realidad es posible, pero será más imaginario después de entregar el informe. ¿Mi resultado es confiable? ¿Es persuasivo? ¿El jefe lo aceptará? ¿Será expulsado? ¿Por qué la flor está roja? ¿Hay un fin de los tiempos ...

  • La hipótesis nula y la hipótesis alternativa de análisis de varianza:

Suponga que los factores tienen k niveles, y el valor medio de cada nivel es μ1, μ2, ..., μk, compruebe si los valores medios son iguales,

H0: μ1 = μ2 = ⋯ = μk

H1: μ1, μ2, ..., μk no son todos iguales

Bajo los supuestos básicos, si la hipótesis nula es verdadera, la distribución muestral de 4 promedios muestrales extraídos de 4 poblaciones debe ser como se muestra en la figura:
Inserte la descripción de la imagen aquí
Si la hipótesis nula no es verdadera, la distribución muestral de 4 promedios muestrales es:
Inserte la descripción de la imagen aquí

2.2 Estadísticas de prueba

El estadístico de prueba se construye descomponiendo la varianza general ST en la varianza entre grupos SA, la varianza dentro del grupo SE y, a veces, una varianza adicional del efecto de interacción, y luego dividiendo el error cuadrático medio entre grupos MSA y el error cuadrático medio dentro del grupo MSE para obtener Las estadísticas de la prueba F.

  • Estudiante: ¿Real o falso, tan simple?
  • Maestro: Sí, es así de simple, si no me cree, vea más abajo.
    Inserte la descripción de la imagen aquíInserte la descripción de la imagen aquí
    Inserte la descripción de la imagen aquí
    Inserte la descripción de la imagen aquí
    Inserte la descripción de la imagen aquí
    Inserte la descripción de la imagen aquí
    Inserte la descripción de la imagen aquí
    Inserte la descripción de la imagen aquí
    Inserte la descripción de la imagen aquí
  • Estudiante: Eres el primer profesor que me enseñó sobre el análisis de la varianza y también sobre el teorema de descomposición de Hullen. Profesor, gracias.
  • El estudiante murió en los últimos dieciocho y sesenta meses.

2.3 Tabla de análisis de varianza

No hay reglas ni radio. Al realizar un análisis de varianza, debe enumerar la siguiente tabla, que es una práctica relativamente estándar.
Inserte la descripción de la imagen aquí
Los elementos básicos incluyen la columna de fuentes de varianza, escribir nombres: factor A, factor B, factor C ... Suma de cuadrados SSA, SSB, SSC ..., error SSE, grados de libertad, cuadrados medios MSA, MSB, MSE, estadísticas de prueba MSA / MSE, MSB / MSE. El resto puede agregar valor crítico y valor p.

Ejemplo de análisis de varianza tabla 2:

proyecto SS SS S S Grado de libertad MS MS M S FF Relación F Significado
Automóvil club británico UN SSA SS_A S Sla k - 1 k-1 k-1 MSA MS_A M Sla MSA / MS y MS_A / MS_e M Sla/ M Se *, ** o ninguno
cama y desayuno segundo SSB SS_B S SB l - 1 l-1 l-1 MSB MS_B M SB MSB / MS y MS_B / MS_e M SB/ M Se
error SS e SS_e S Se (k - 1) (l - 1) (k - 1) (l - 1) ( k-1 ) ( l-1 ) MS y MS_e M Se
suma SS SS S S kl - 1 kl-1 k l-1
  • Maestro: ¿Lo has aprendido?
  • Estudiante: ¡Vaya, hay plantillas! Mamá ya no tiene que preocuparse por mi análisis de varianza.
  • profesor:. . .

Implementación de 3.python

3.1 análisis de varianza de modelos estadísticos

El análisis de varianza de Python puede usar el paquete de funciones stats.anova en statsmodels

import pandas as pd
import numpy as np
from statsmodels.formula.api import ols
from statsmodels.graphics.api import interaction_plot, abline_plot
from statsmodels.stats.anova import anova_lm

#先构造数据集,这里我们构造一个两个因素的数据,为双因素组内方差分析
data = pd.DataFrame([[1, 1, 32],
                     [1, 2, 35],
                     [1, 3, 35.5],
                     [1, 4, 38.5],
                     [2, 1, 33.5],
                     [2, 2, 36.5],
                     [2, 3, 38],
                     [2, 4, 39.5],
                     [3, 1, 36],
                     [3, 2, 37.5],
                     [3, 3, 39.5],
                     [3, 4, 43]], 
                    columns=['A', 'B', 'value'])
model = ols('value~C(A) + C(B)', data=data[['A', 'B', 'value']]).fit()
anovat = anova_lm(model)
print(model.summary())
print(anovat)

Análisis de los resultados de la varianza:
Inserte la descripción de la imagen aquí
aquí hay una pista del problema de los datos demasiado pequeños.

Aquí hay un vistazo a los resultados de ajuste del modelo de mínimos cuadrados
Inserte la descripción de la imagen aquí
de ols : puede ver que los resultados de los modelos de estadísticas siguen siendo muy profesionales y hermosos.
Analice el efecto de interacción:
se puede ver que los efectos principales de A y B anteriores tienen una fuerte influencia, y los dos efectos son significativos (el valor de P es menor que 0.01).
Luego, agregue el efecto de interacción y vea el resultado del efecto de interacción.

model2 = ols('value~C(A) + C(B)+C(A):C(B)', data=data[['A', 'B', 'value']]).fit()
anova2=anova_lm(model2)
print(anova2)
#交互效应影响看不出来,不知怎么回事,F值都变为0了。

Inserte la descripción de la imagen aquí

  • Estudiante: ¿Por qué F = 0?
  • Maestro: Al analizar el efecto de interacción, los requisitos de datos son diferentes de no considerar el efecto de interacción. En estos datos, solo hay un xij para los datos en los niveles Ai y Bj. Al considerar el efecto de interacción, xij necesita múltiples conjuntos de datos; de lo contrario, el cálculo SSA * B tendrá problemas. Este es solo un ejemplo del uso de funciones, el efecto de interacción está representado por A: B.
  • Estudiante: ¡Realmente entiendo esta vez!

3.2 ajuste de funciones de statsmodels

import matplotlib.pyplot as plt
import statsmodels.api as sm


x=np.linspace(0,10,30)
x2=np.square(x)
y=3*x*x+3*x+np.random.normal(0,1,(30,))
df=pd.DataFrame({
    
    'y':y,'x1':x})
df['x2']=x2
model_new=ols('y~x1+x2',data=df).fit()
y_pred = model_new.predict(df['x1'])
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(x, y, c='b')
ax.plot(x, y_pred, c='r')
plt.show()
print(model_new.summary())

Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí
El efecto de ajuste es genial.

  • Descripción del resultado de la evaluación
    Inserte la descripción de la imagen aquí
  • Blogger: La palabra clave no es fácil, pide un me gusta, no demasiado.
  • Turista: definitivamente la próxima vez, la próxima vez

referencia

1. Análisis de varianza
2. ¿Cómo comprender y utilizar el análisis de varianza?

Supongo que te gusta

Origin blog.csdn.net/hu_hao/article/details/107035642
Recomendado
Clasificación