统计学理论—方差分析

在学习统计学贾书的过程,在第6—14章节出有许多需要理解与记忆的公式和概念,在此通过博客的形式做一次梳理,主要内容为统计学中抽样分布、假设检验、参数估计、分类数据分析、方差分析、一元二元线性分析、时间序列分析、指数的理论知识,不足之处望多多指正。

什么是方差分析

表面上,方差分析是检验多个总体均值是否相等的统计方法,但本质上它所研究的是分类型自变量对数值型自变量的影响,定义:就是通过验证各总体均值是否相等来判定分类型自变量是否有显著性影响。

  • 误差类型
    (1)随机误差:因素的同一水平(总体)下,样本各观察值之间的差异
    (2)系统误差:因素的不同水平(不同总体)之间观察值的差异

  • 误差计算公式
    (1)第i个总体均值: x ˉ i = ∑ j = 1 n i x i j n i ( i = 1 , 2 , ⋯   , k ) \bar{x}_{i}=\frac{\sum_{j=1}^{n_{i}} x_{i j}}{n_{i}}(i=1,2, \cdots, k) xˉi=nij=1nixij(i=1,2,,k)
    (2)总体均值: x ˉ ‾ = ∑ i = 1 k ∑ j = 1 n i x i j n = ∑ i = 1 k n x ˉ i n \overline{\bar{x}}=\frac{\sum_{i=1}^{k} \sum_{j=1}^{n_{i}} x_{i j}}{n}=\frac{\sum_{i=1}^{k} n \bar{x}_{i}}{n} xˉ=ni=1kj=1nixij=ni=1knxˉi 式中: n = n 1 + n 2 + ⋯ + n k n=n_{1}+n_{2}+\cdots+n_{k} n=n1+n2++nk

  • 一般的假设
    H 0 : μ 1 = μ 2 = μ 3 . . . = μ k H_0:\mu_1=\mu_2=\mu_3...=\mu_k H0:μ1=μ2=μ3...=μk;
    H 1 : μ 1 、 μ 2 、 μ 3 . . . μ k 不 全 相 等 H_1:\mu_1、\mu_2、\mu_3...\mu_k不全相等 H1μ1μ2μ3...μk;

单因素方差分析

  • 假设:
    (1)每个总体都应服从正态分布;
    (2)各个总体的方差必须相同;
    (3)观察值是独立的。

单因素方差分析

  • 误差计算公式
    (1)总误差平方和SST: S S T = ∑ i = 1 k ∑ j = 1 n i ( x i j − x ˉ ‾ ) 2 S S T=\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left(x_{i j}-\overline{\bar{x}}\right)^{2} SST=i=1kj=1ni(xijxˉ)2;自由度由n-1,总体均方和:MST=SST/n-1;
    (2)组内平方和SSE: S S E = ∑ i = 1 k ∑ j = 1 n i ( x i j − x ˉ i ) 2 S S E=\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left(x_{i j}-\bar{x}_{i}\right)^{2} SSE=i=1kj=1ni(xijxˉi)2;自由度由k-1,组内均方和:MSE=SSE/k-1;
    (3)组间平方和SSA: S S A = ∑ i = 1 k ∑ j = 1 n i ( x ˉ i − x ˉ ‾ ) 2 S S A=\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left(\bar{x}_{i}-\overline{\bar{x}}\right)^{2} SSA=i=1kj=1ni(xˉixˉ)2 ;自由度为n-k,总体均方和:MSA=SSA/n-k;
    (4)SST = SSA + SSE。

  • 检验统计量计算公式: F = M S A M S E ∼ F ( k − 1 , n − k ) F=\frac{M S A}{M S E} \sim F(k-1, n-k) F=MSEMSAF(k1,nk)

  • 单因素方差分析表

在这里插入图片描述

  • 关系强度: R 2 = S S A S S T R^2=\frac{SSA}{SST} R2=SSTSSA:自变量对因变量的影响效应。

多重比较

  • 作用:检验两个总体均值是否相等
  • t分布检验统计量计算公式:
    L S D = t α / 2 ∗ M S E ( 1 n i + 1 n j ) L S D=t_{\alpha / 2} *\sqrt{M S E\left(\frac{1}{n_{i}}+\frac{1}{n_{j}}\right)} LSD=tα/2MSE(ni1+nj1)
  • 决策:
    ∣ x ˉ i − x ˉ j ∣ > L S D \left|\bar{x}_{i}-\bar{x}_{j}\right|>L S D xˉixˉj>LSD,拒绝H0,反之接受。

双因素方差分析

  • 假设
    (1)每个总体都服从正态分布;
    (2)各个总体的方差必须相同;
    (3)观察值是独立的。

无交互作用的双因素方差分析

  • 误差计算公式
    (1)总误差平方和SST: S S T = ∑ i = 1 k ∑ j = 1 n i ( x i j − x ˉ ‾ ) 2 S S T=\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left(x_{i j}-\overline{\bar{x}}\right)^{2} SST=i=1kj=1ni(xijxˉ)2;自由度由n-1,总体均方和:MST=SST/kr-1;
    (2)组内平方和SSE: S S E = ∑ i = 1 k ∑ j = 1 n i ( x i j − x ˉ i ) 2 S S E=\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left(x_{i j}-\bar{x}_{i}\right)^{2} SSE=i=1kj=1ni(xijxˉi)2;自由度由k-1,组内均方和:MSE=SSE/(k-1)(r-1);
    (3)列因素误差平方和: S S C = ∑ i = 1 k ∑ j = 1 r ( x ˉ j − x ˉ ) 2 S S C=\sum_{i=1}^{k} \sum_{j=1}^{r}\left(\bar{x}_{j}-\bar{x}\right)^{2} SSC=i=1kj=1r(xˉjxˉ)2自由度由k-1,组内均方和:MSC=SSC/r-1;;
    (4)行因素误差平方和: S S R = ∑ i = 1 k ∑ j = 1 r ( x ˉ i . − x ˉ ) 2 S S R=\sum_{i=1}^{k} \sum_{j=1}^{r}\left(\bar{x}_{i .}-\bar{x}\right)^{2} SSR=i=1kj=1r(xˉi.xˉ)2自由度由k-1,组内均方和:MSR=SSR/k-1;
    (5)SST = SSR +SSC+SSE。

  • F分布检验量计算公式:
    F R = M S R M S E ∼ F ( k − 1 , ( k − 1 ) ( r − 1 ) ) F_{\mathrm{R}}=\frac{M S R}{M S E} \sim F(k-1,(k-1)(r-1)) FR=MSEMSRF(k1,(k1)(r1))
    F C = M S C M S E ∼ F ( r − 1 , ( k − 1 ) ( r − 1 ) ) F_{\mathrm{C}}=\frac{M S C}{M S E} \sim F(r-1,(k-1)(r-1)) FC=MSEMSCF(r1,(k1)(r1))

  • 方差分析表:
    在这里插入图片描述

  • 关系强度: R 2 = S S C + S S R S S T R^2=\frac{SSC+SSR}{SST} R2=SSTSSC+SSR:自变量对因变量的影响效应。

有交互作用的双因素方差分析

  • 误差计算公式
    (1)总误差平方和SST: S S T = ∑ i = 1 k ∑ j = 1 r ∑ l = 1 m ( x i j l − x ˉ ‾ ) 2 S S T=\sum_{i=1}^{k} \sum_{j=1}^{r} \sum_{l=1}^{m}\left(x_{i j l}-\overline{\bar{x}}\right)^{2} SST=i=1kj=1rl=1m(xijlxˉ)2;自由度由n-1,总体均方和:MST=SST/kr-1;
    (2)组内平方和SSE: S S E = S S T − S S R − S S C − S S R C S S E=SST-SSR-SSC-SSRC SSE=SSTSSRSSCSSRC;自由度由k-1,组内均方和:MSE=SSE/kr(m-1);
    (3)列因素误差平方和: S S C = m ∑ i = 1 k ∑ j = 1 r ( x ˉ j − x ˉ ) 2 S S C=m\sum_{i=1}^{k} \sum_{j=1}^{r}\left(\bar{x}_{j}-\bar{x}\right)^{2} SSC=mi=1kj=1r(xˉjxˉ)2自由度由k-1,组内均方和:MSC=SSC/r-1;;
    (4)行因素误差平方和: S S R = m ∑ i = 1 k ∑ j = 1 r ( x ˉ i . − x ˉ ) 2 S S R=m\sum_{i=1}^{k} \sum_{j=1}^{r}\left(\bar{x}_{i .}-\bar{x}\right)^{2} SSR=mi=1kj=1r(xˉi.xˉ)2自由度由k-1,组内均方和:MSR=SSR/k-1;
    (5) SSRC ⁡ = m ∑ i = 1 k ∑ j = 1 r ( x ˉ i j − x ˉ i . − x ˉ . j + x ˉ ‾ ) 2 \operatorname{SSRC}=m \sum_{i=1}^{k} \sum_{j=1}^{r}\left(\bar{x}_{i j}-\bar{x}_{i .}-\bar{x}_{. j}+\overline{\bar{x}}\right)^{2} SSRC=mi=1kj=1r(xˉijxˉi.xˉ.j+xˉ)2自由度由(k-1)(r-1),组内均方和:MSRC=SSRC/(k-1*)(r-1);
    (6)SST = SSR +SSC+SSE+SSRC。
    同上计算得到相关F分布统计量。
  • 误差分析表
    在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/Zengmeng1998/article/details/109568200
今日推荐