方差分析
方差分析(Analysis of Variance,ANOVA),是利用样本数据检验两个或两个以上的总体均值之间是否有差异的一种方法;(缘起多个处理问题-即多个因变量)
即若所有自变量对应的因变量的均值相等,则意味着自变量对因变量没有影响,没有显著差异
散点图观察不能提供充分的证据证明不同行业被投诉的次数之间有显著差异
这种差异可能是由于抽样的随机性所造成的
常用情况:自变量是分类变量,因变量是数值变量
方差分析中常用的基本假定是:
- 正态性:每个总体均服从正态分布,也就是说,对于每一个水平,其观测值是来自正态分布的简单随机样本。
- 方差齐性:各总体的方差相同。
- 独立性:从每一总体中抽取的样本是相互独立的。方差齐性可以在方差分析的过程进行验证,而独立性可由试验的随机化确定。
单因素方差分析
提出假设
原假设:H0:无差异;备则假设:有显著差异
注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等
构造检验统计量
水平均值、全部观察的总均值、误差平方和SST(SSA+SSE)、均方MS
组间平方和(组间方差)SSA,MSA = SSA/ (k-1)
组内平方和SSE,MSE = SSE/(K-1)
- 每个水平或组的各样本数据与其组平均值的离差平方和
- 反映每个样本各观察值的离散状况
- 该平方和反映的是随机误差的大小
MS(mean square均方)
- 各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方,也称为方差
- 由误差平方和除以相应的自由度求得
- 三个平方和对应的自由度分别是:SST的自由度为n-1,其中n为全部观察值的个数;SSA的自由度为k-1,其中k为因素水平(总体)的个数;SSE的自由度为n-k
计算检验统计量
1.将MSA和MSE进行对比,即得到所需要的检验统计量
2.F当H为真时,二者的比值服从分子自由度为k-1、分母自由度为n-k的F分布,即
F=MSA/MSE~F(k -1,n -k)
也可以看p-value,R2用来检验两个变量之间的相关程度
双因素方差分析
双因素方差分析适用情况:
- 分析两个因素(行因素Row和列因素Column)对试验结果的影响
- 如果两个因素对试验结果的影响是相互独立的,分别判断行因素和列因素对试验数据的影响,这时的双因素方差分析称为无交互作用的双因素方差分析或无重复双因素方差分析(Two-factor without replication)
- 如果除了行因素和列因素对试验数据的单独影响外,两个因素的搭配还会对结果产生一种新的影响,这时的双因素方差分析称为有交互作用的双因素方差分析或可重复双因素方差分析(Two-factor with replication )
无交互作用
基本假定
- 正态性:每个总体均服从正态分布,也就是说,对于每一个水平,其观测值是来自正态分布的简单随机样本。
- 方差齐性:各总体的方差相同。
- 独立性:从每一总体中抽取的样本是相互独立的。方差齐性可以在方差分析的过程进行验证,而独立性可由试验的随机化确定。
构造检验的统计量
总平方和SST=列因素误差平方和SSC(因素水平间) + 行因素误差平方和SSR(区组间) + 随机误差平方和SSE
计算均方:
计算检验统计量
关系强度
R2 = (SSR + SSC)/SST
有交互作用
交互作用
一个因素各个水平之间反应量的差异随其他因素的不同水平而发生变化的现象。
SST=SSR+SSE+SSC+SSRC(交互效应误差平方和)
参考: