方差分析(一)(单因素方差分析)

方差分析是根据试验数据来推断一个或多个因素在其状态变化时,是否对试验指标产生显著影响的一种数理统计方法。方差分析按影响试验指标的因素的个数可分为单因素方差分析双因素方差分析以及多因素方差分析

在数理统计中,把试验的结果(如产品的性能、产量等)称为试验指标,影响试验指标的条件称为因素因子,因素所处的不同状态称为水平。通常用大写字母 A , B , . . . A,B,... A,B,... 等表示不同的因素,用带下标的 A 1 , A 2 , . . . A_1,A_2,... A1,A2,... 等表示因素 A A A 的不同水平。

单因素方差分析

如果在一项试验中,只让一个因素的水平变动,其余因素的水平保持不变,那么称这种试验为单因素试验。在单因素试验下进行的方差分析称为单因素方差分析。

数学模型

设因素 A A A r r r 个不同的水平 A 1 , A 2 , . . . , A r A_1,A_2,...,A_r A1,A2,...,Ar,在每个水平 A i A_i Ai 下,进行 n i n_i ni 次独立重复试验,得到下表的结果

水平 样本 样本均值
A 1 A_1 A1 X 11 X 12 ⋯ X 1 n 1 X_{11} \quad X_{12} \quad \cdots \quad X_{1n_1} X11X12X1n1 X ˉ 1 \bar{X}_1 Xˉ1
A 2 A_2 A2 X 21 X 22 ⋯ X 2 n 2 X_{21} \quad X_{22} \quad \cdots \quad X_{2n_2} X21X22X2n2 X ˉ 2 \bar{X}_2 Xˉ2
⋮ \vdots ⋯ ⋯ ⋯ \cdots \quad \cdots \quad \quad \quad \quad\cdots ⋮ \vdots
A r A_r Ar X r 1 X r 2 ⋯ X r n r X_{r1} \quad X_{r2} \quad \cdots \quad X_{rn_r} Xr1Xr2Xrnr X ˉ r \bar{X}_r Xˉr

假定各个水平 A i A_i Ai 对应的总体 X i X_i Xi 服从正态分布 N ( μ i , σ 2 ) N(\mu_i,\sigma^2) N(μi,σ2),又假定来自不同水平 A i A_i Ai 的样本之间是相互独立的。简而言之,正态总体同方差独立样本是进行方差分析的三个基本假定。

由于 X i j ∼ N ( μ i , σ 2 ) , j = 1 , 2 , . . . , n i X_{ij} \sim N(\mu_i,\sigma^2),j=1,2,...,n_i XijN(μi,σ2),j=1,2,...,ni,因而 X i j − μ i ∼ N ( 0 , σ 2 ) X_{ij}-\mu_i \sim N(0,\sigma^2) XijμiN(0,σ2),记 ϵ i j = X i j − μ i \epsilon_{ij}=X_{ij}-\mu_i ϵij=Xijμi,于是
X i j = μ i + ε i j , j = 1 , ⋯   , n i ; i = 1 , ⋯   , r ε i j ∼ N ( 0 , σ 2 ) , j = 1 , ⋯   , n i ; i = 1 , ⋯   , r ε 11 , ⋯   , ε r n i 相互独立 . \begin{aligned}&X_{ij}=\mu_i+\varepsilon_{ij},j=1,\cdots,n_i;i=1,\cdots,r\\&\varepsilon_{ij}\sim N(0,\sigma^2),j=1,\cdots,n_i;i=1,\cdots,r\\&\varepsilon_{11},\cdots,\varepsilon_{rn_i}\text{相互独立}.\end{aligned} Xij=μi+εij,j=1,,ni;i=1,,rεijN(0,σ2),j=1,,ni;i=1,,rε11,,εrni相互独立. 构成了单因素方差分析的数学模型,其中 μ i \mu_i μi σ 2 \sigma^2 σ2 是模型中待定的未知参数。

方差分析的基本任务是对上述模型检验假设
H 0 : μ 1 = μ 2 = ⋯ = μ r ↔ H 1 : μ 1 , μ 2 , . . . , μ r 不全相等 H_0:\mu_1=\mu_2=\cdots = \mu_r \leftrightarrow H_1:\mu_1,\mu_2,...,\mu_r 不全相等 H0:μ1=μ2==μrH1:μ1,μ2,...,μr不全相等 也就是通过对试验数据的分析,来检验同方差的各正态总体的均值是否相等,从而推断因素是否对试验指标产生显著影响。

为了便于分析,引入下述记号,令
n = ∑ i = 1 r n i , μ = 1 n ∑ i = 1 r n i μ i , δ i = μ i − μ n=\sum_{i=1}^r n_i,\quad \mu=\frac{1}{n}\sum_{i=1}^r n_i\mu_i,\quad \delta_i=\mu_i-\mu n=i=1rni,μ=n1i=1rniμi,δi=μiμ 其中, μ \mu μ 称为理论总平均 δ i \delta_i δi 称为水平 A i A_i Ai 的效应,它反映因素的第 i i i 个水平 A i A_i Ai 对试验指标作用的大小。 δ 1 , . . . , δ r \delta_1,...,\delta_r δ1,...,δr 满足关系式 ∑ i = 1 r n i δ i = 0 \sum_{i=1}^r n_i\delta_i = 0 i=1rniδi=0.

由这些记号,前面提出的模型可改写为
X i j = μ + δ i + ε i j , j = 1 , 2 , ⋯   , n i , i = 1 , 2 , ⋯   , r ∑ i = 1 r n i δ i = 0 , ε i j ∼ N ( 0 , σ 2 ) , j = 1 , 2 , ⋯   , n i ; i = 1 , 2 , ⋯   , r ε 11 , ⋯   , ε r n i  相互独立 . } \begin{rcases}X_{ij}=\mu+\delta_i+\varepsilon_{ij},j=1,2,\cdots,n_i,i=1,2,\cdots,r\\\sum_{i=1}^rn_i\delta_i=0,\\\varepsilon_{ij}\sim N(0,\sigma^2),j=1,2,\cdots,n_i;i=1,2,\cdots,r\\\varepsilon_{11},\cdots,\varepsilon_{rn_i}\text{ 相互独立}.\end{rcases} Xij=μ+δi+εij,j=1,2,,ni,i=1,2,,ri=1rniδi=0,εijN(0,σ2),j=1,2,,ni;i=1,2,,rε11,,εrni 相互独立.
对上述模型,欲检验的假设是
H 0 : δ 1 = δ 2 = ⋯ = δ r = 0 ↔ H 1 : δ 1 , δ 2 , . . . , δ r 不全为零 H_0:\delta_1=\delta_2=\cdots = \delta_r =0\leftrightarrow H_1:\delta_1,\delta_2,...,\delta_r 不全为零 H0:δ1=δ2==δr=0H1:δ1,δ2,...,δr不全为零
在方差分析中,采用平方和分解法把整批数据总的离差平方和分解为若干部分,其中,有的反映因素的效应,称之为因素的效应平方和,有的反映随机波动所引起的误差,称之为误差平方和。通过分析它们的比值的大小,一次性完成对假设的检验工作。

统计分析

首先,引入以下记号:
ϵ ˉ i = 1 n i ∑ j = 1 n i ϵ i j , i = 1 , ⋯   , r ϵ ˉ = 1 n ∑ i = 1 r ∑ j = 1 n i ϵ i j = 1 n ∑ i = 1 r n i ϵ ˉ i X ˉ i = 1 n i ∑ j = 1 n i X i j , i = 1 , ⋯   , r X ˉ = 1 n ∑ i = 1 r ∑ j = 1 n i X i j = 1 n ∑ i = 1 r n i X ˉ i } . \left.\left.\begin{array}{ll}\bar{\epsilon}_i=\frac1{n_i}\sum_{j=1}^{n_i}\epsilon_{ij},i=1,\cdots,r\\\\\bar{\epsilon}=\frac1n\sum_{i=1}^r\sum_{j=1}^{n_i}\epsilon_{ij}=\frac1n\sum_{i=1}^rn_i\bar{\epsilon}_i\\\\\bar{X}_i=\frac1{n_i}\sum_{j=1}^{n_i}X_{ij},i=1,\cdots,r\\\\\bar{X}=\frac1n\sum_{i=1}^r\sum_{j=1}^{n_i}X_{ij}=\frac1n\sum_{i=1}^rn_i\bar{X}_i\end{array}\right.\right\}\quad. ϵˉi=ni1j=1niϵij,i=1,,rϵˉ=n1i=1rj=1niϵij=n1i=1rniϵˉiXˉi=ni1j=1niXij,i=1,,rXˉ=n1i=1rj=1niXij=n1i=1rniXˉi .
由概率论知识可知
ϵ ˉ i ∼ N ( 0 , σ 2 n i ) , i = 1 , ⋯   , r ϵ ˉ ∼ N ( 0 , σ 2 n ) , X ˉ i = μ + δ i + ϵ ˉ i ∼ N ( μ + δ i , σ 2 n i ) , i = 1 , ⋯   , r X ‾ = μ + ε ˉ ∼ N ( μ , σ 2 n ) } \begin{rcases}\bar{\epsilon}_i\sim N\Big(0,\frac{\sigma^2}{n_i}\Big),i=1,\cdots,r\\\bar{\epsilon}\sim N\Big(0,\frac{\sigma^2}n\Big),\\\bar{X}_i=\mu+\delta_i+\bar{\epsilon}_i\sim N\Big(\mu+\delta_i,\frac{\sigma^2}{n_i}\Big),i=1,\cdots,r\\\overline{X}=\mu+\bar{\varepsilon}\sim N\Big(\mu,\frac{\sigma^2}n\Big)\end{rcases} ϵˉiN(0,niσ2),i=1,,rϵˉN(0,nσ2),Xˉi=μ+δi+ϵˉiN(μ+δi,niσ2),i=1,,rX=μ+εˉN(μ,nσ2)
齐次,引入总的偏差平方和
Q T = ∑ i = 1 r ∑ j = 1 n i ( X i j − X ˉ ) 2 Q_{T}=\sum_{i=1}^{r}\sum_{j=1}^{n_{i}}(X_{ij}-\bar{X})^{2} QT=i=1rj=1ni(XijXˉ)2
由于 X ˉ \bar{X} Xˉ 是整批数据的平均值,而 Q T Q_T QT 是整批数据方差的 n n n 倍,即 Q T Q_T QT 反映了数据的波动程度,因而 Q T Q_T QT 被称为总离差平方和

Q T Q_T QT 可分解为 Q T = Q A + Q E Q_T=Q_A+Q_E QT=QA+QE,其中
Q A = ∑ i = 1 r n i ( X ˉ i − X ˉ ) 2 Q E = ∑ i = 1 r ∑ j = 1 n i ( X i j − X ˉ i ) 2 Q_A=\sum_{i=1}^r n_i(\bar{X}_i-\bar{X})^2 \\ Q_E=\sum_{i=1}^{r}\sum_{j=1}^{n_{i}}(X_{ij}-\bar{X}_i)^{2} QA=i=1rni(XˉiXˉ)2QE=i=1rj=1ni(XijXˉi)2 Q A Q_A QA 称为因素 A A A效应平方和(又称为组间平方和), Q E Q_E QE 称为误差平方和(又称为组内平方和)。

H 0 H_0 H0 成立时, Q A Q_A QA Q E Q_E QE 相互独立,且有
F = Q A / σ 2 r − 1 Q E / σ 2 n − r = Q A / ( r − 1 ) Q E / ( n − r ) ∼ F ( r − 1 , n − r ) F=\frac{\frac{Q_A/\sigma^2}{r-1}}{\frac{Q_E/\sigma^2}{n-r}}=\frac{Q_A/(r-1)}{Q_E/(n-r)}\thicksim F(r-1,n-r) F=nrQE/σ2r1QA/σ2=QE/(nr)QA/(r1)F(r1,nr)
对给定的显著水平 α \alpha α,得 H 0 H_0 H0 的拒绝域为 W = { F ≥ F α ( r − 1 , n − r ) } W=\{F \ge F_\alpha(r-1,n-r)\} W={ FFα(r1,nr)}

通常将计算结果列成方差分析表:

方差来源 平方和 自由度 均方和 F F F
因素 A A A (组间) Q A = ∑ i = 1 r n i ( x ˉ i − x ˉ ) 2 Q_A=\sum_{i=1}^r n_i(\bar{x}_i-\bar{x})^2 QA=i=1rni(xˉixˉ)2 r − 1 r-1 r1 Q ˉ A = Q A r − 1 \bar{Q}_A=\frac{Q_A}{r-1} QˉA=r1QA F = Q ˉ A Q ˉ E F=\frac{\bar{Q}_A}{\bar{Q}_E} F=QˉEQˉA
方差 E E E (组内) Q E = ∑ i = 1 r ∑ j = 1 n i ( x i j − x ˉ i ) 2 Q_E=\sum_{i=1}^{r}\sum_{j=1}^{n_{i}}(x_{ij}-\bar{x}_i)^{2} QE=i=1rj=1ni(xijxˉi)2 n − r n-r nr Q ˉ E = Q E n − r \bar{Q}_E=\frac{Q_E}{n-r} QˉE=nrQE
总和 Q T = ∑ i = 1 r ∑ j = 1 n i ( x i j − x ˉ ) 2 Q_{T}=\sum_{i=1}^{r}\sum_{j=1}^{n_{i}}(x_{ij}-\bar{x})^{2} QT=i=1rj=1ni(xijxˉ)2 n − 1 n-1 n1

参考文献

[1] 《应用数理统计》,施雨,西安交通大学出版社。

猜你喜欢

转载自blog.csdn.net/myDarling_/article/details/134799003