统计学之方差分析（单因素）

方差分析

`目的：`

研究一个或多个分类型自变量与一个数值型因变量之间的关系。
1. 一个或多个分类型自变量
2. 一个数值型因变量

`存在必要原因：`

如果使用一般的假设检验方法，一次只能研究两个样本的关系，则研究 $n$ 个总体的均值 $u_1$ 、 $u_2$ 、 $u_3$ 、…… $u_n$ ,需要 $C^2_n$ 次检验。这样做，不仅繁琐，而且不断累积了错误的概率，导致犯第 $I$ 型错误的概率增加到 $1-(1- \alpha )^{C^2_n}$ 。一般的讲，随着增加个体显著性检验的次数，偶然因素导致差别的可能性也会增加（并非均值真的存在差别）。

方差分析同时考虑了所有样本，排除了错误累加的概率，从而避免拒绝一个真实的假设。

`实现方法：`

论述:检验多个总体均值是否相等的统计方法；
本质:研究分类型自变量对数值型因变量的影响；
方法：通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。

`名词解释`

因子 $A$

所要检验的对象称为因素或因子factor

水平或处理 $\alpha_1、\alpha_2、······、\alpha_n$

因素的不同表现称之为水平或处理treatment

观测值

每个因子水平下得到的样本数据称为观测值。

`原理`

假设我们的观测值 $\theta$ ,可能与 $A(\alpha_1、\alpha_2、······、\alpha_n)$ 这个因子直接紧密相关。
研究时（不知道怎么研究的），发现我们的得到的估测与预先知道的紧密相关不符，那么我们就开始问误差出现在了哪里？
2.1. 组内误差> sum of squares for error > SSE

每个水平 $\alpha_1、\alpha_2、······、\alpha_n$ 的各样本数据与其组均值的误差，由于我们的假设各样本数据与其组均值本应该相等。此误差仅包含可能由于抽样导致的随机误差。

2.2. 组间误差> sum of squares for factor A > SSA

每个水平 $\alpha_1、\alpha_2、······、\alpha_n$ 与总体均值的误差，由于我们的假设各样本数据的均值与总体均值本应该相等。此误差可能包含由于抽样导致的随机误差，也可能包含 $\alpha_1、\alpha_2、······、\alpha_n$ 间本身存在的系统误差。

那么，总体误差 > sum squares for tatal > SST

SST = SSA + SSE

在我们此次的试验当中，误差几乎不可避免，那么我们可以分析。若我们能够做到足够精确，系统误差应该是不存在的，而仅仅包含随机误差。这时SSA与SSE经过平均后的数值就应该非常接近，比值就会非常接近于 $1$ ，得知 >> 我们的观测值 $\theta$ ,可能与 $A(\alpha_1、\alpha_2、······、\alpha_n)$ 这个因子直接紧密相关。

`方差分析中的基本假设补充`

1.每个总体都应该服从正态分布；
2. 各个总体的方差 $\delta^2$ 必须相等；
3. 观测值是独立的。

`解决问题(单因素)`

一、提出问题

假设因素 $A$ 有水平 $E(\alpha_1) = u_1$ 、 $E(\alpha_2) = u_2$ 、 $E(\alpha_3) = u_3$ 、····· 、 $E(\alpha_k) = u_k$ 、,要检验 $k$ 个水平（总体）的均值是否相等。

二、做出假设

$H_0$ : $u_1$ = $u_2$ =···= $u_k$ 即分类型自变量与数值型因变量没有显著关系
$H_1$ : $u_1$ 、 $u_2$ 、··· 、 $u_k$ 不全相等 即分类型自变量与数值型因变量有显著关系

三、构建统计量( $x_{ij}$ 表示第 $i$ 个水平下，总数 $s_i$ 中的第 $j$ 个观测值)

各样本（各总体中的随机样本）的均值
${\bar{x}}_{1} = \frac{1}{s_{1}} \sum_{j = 1}^{s_{1}} x_{1 j}$ $\bar{x}_1 =\frac{1}{s_1}\sum_{j=1}^{s_1}x_{1j}$ ${\bar{x}}_{2} = \frac{1}{s_{2}} \sum_{j = 1}^{s_{2}} x_{2 j}$ $\bar{x}_2 =\frac{1}{s_2}\sum_{j=1}^{s_2}x_{2j}$ $\cdot \cdot \cdot$ $···$ ${\bar{x}}_{k} = \frac{1}{s_{k}} \sum_{j = 1}^{s_{k}} x_{k j}$ $\bar{x}_k =\frac{1}{s_k}\sum_{j=1}^{s_k}x_{kj}$
全部观测值的总体均值
$\bar{\bar{x}} = \frac{1}{s_{1} + s_{2} + \cdot \cdot \cdot + s_{k}} \sum_{i = 1}^{k} \sum_{y = 1}^{s_{i}} x_{i j}$ $\bar{\bar{x}} =\frac{1}{s_1+s_2+···+s_k}\sum_{i=1}^{k}\sum_{y=1}^{s_i}{x_{ij}}$
各误差平方和，平方会避免正负抵消震荡带来的影响
3.1. 总体误差 $S S T = \sum_{i = 1}^{k} \sum_{y = 1}^{s_{i}} (x_{i j} - \bar{\bar{x}})^{2}$ $SST = \sum_{i=1}^{k}\sum_{y=1}^{s_i}({x_{ij}-\bar{\bar{x}}})^2$
3.2. 组间误差 $S S A = \sum_{i = 1}^{k} s_{i} \cdot (\bar{x_{i}} - \bar{\bar{x}})^{2}$ $SSA = \sum_{i=1}^ks_i·({\bar{x_i}}-\bar{\bar{x}})^2$
3.3. 组内误差 $S S E = \sum_{i = 1}^{k} \sum_{y = 1}^{s_{i}} (x_{i j} - {\bar{x}}_{i})^{2}$ $SSE = \sum_{i=1}^{k}\sum_{y=1}^{s_i}({x_{ij}-\bar{x}_i})^2$

$SSA$ 是对随机误差和系统误差大小的度量，它反映了自变量对因变量的影响； $SSE$ 是对随机误差大小的度量，它反映了除自变量对因变量的影响之外，其他因素对因变量的影响（如:抽样误差），因此 $SSE$ 也称为残差变量； $SST$ 是对全部数据总误差的度量，它反映了自变量和残差变量的共同影响，因此 $SST = SSA + SSE$

4.计算统计量

为了消除各误差平方和的大小与观测值个数的相关性，我们设定均方mean square:

$M S T = \frac{S S T}{s_{1} + s_{2} + \cdot \cdot \cdot + s_{k} - 1}$ $MST = \frac{SST}{s_1+s_2+···+s_k-1}$
$M S A = \frac{S S A}{k - 1}$ $MSA = \frac{SSA}{k-1}$
$M S E = \frac{S S E}{s_{1} + s_{2} + \cdot \cdot \cdot + s_{k} - k}$ $MSE = \frac{SSE}{s_1+s_2+···+s_k-k}$

补充自由度：所谓自由就是在规则之下的行为。例： $A=\left \{ x_1,x_2,x_3,···,x_n \right \}$ 的均值 $E(A) = u$ ，则 $A$ 的自由度就是 $n-1$ ,因为当我们定下规则 $E(A) = u$ 时， $A$ 中的元素只有前 $n-1$ 个元素是可以自由变化的，最后一个元素只能根据前 $n-1$ 个元素来调节均值 $E(A) = u$ ，变化不得。

5.在两个正态分布的条件下，两个方差之比服从 $F$ 分布：

F = \frac{M S A}{M S E} \sim F (k - 1, s_{i} + s_{2} + \cdot \cdot \cdot + s_{k} - k)

$F = \frac{MSA}{MSE}\sim F(k-1,s_i+s_2+···+s_k-k)$
6. 做出决策

将统计量 $F$ 与给定的显著性水平 $\alpha$ 的临界值 $F_{\alpha}\left (k-1,s_1+s_2+···+s_k-k\right )$ 进行比较，从而对原假设 $H_0$ 进行决策判断。

`统计量判断`	`支持决策`
$F>F_{\alpha}$	拒绝原假设 $H_0$ ,表明 $u_1$ 、 $u_2$ 、··· 、 $u_k$ 之间的差异是显著的，也就是说所检验的因素对观测值有影响
$F<F_{\alpha}$	不拒绝原假设 $H_0$ ,没有证据表明 $u_1$ 、 $u_2$ 、··· 、 $u_k$ 之间的差异是显著的，也就是说我们不能认为所检验的因素对观测值有影响