[统计学笔记九] 方差分析(ANOVA)

[统计学笔记九] 方差分析(ANOVA)

方差分析(Analysis of Variance,简称ANOVA)


方差分析(ANOVA)又称“变异数分析”或“F检验”,是R.A.Fister发明的,用于两个及两个以上样本均数差别的显著性检验。

由于各种因素的影响,研究所得的数据呈现波动状。

造成波动的原因可分成两类:一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。

方差分析的定义:

方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。


方差分析的基本思想

通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。

从形式上看,方差分析是比较多个总体的均值是否相等,但本质上它所研究的是变量之间的关系。

在研究一个或者多个分类型自变量与一个数值型因变量之间的关系时,方差分析是其中的主要方法之一。这与回归分析方法有很多相同之处,但是又有本质区别。

方差分析不仅可以提高检验的效率,同时由于它将所有的样本信息结合在一起,因此增加了分析的可靠性。

为什么呢?

例如,设4个总体的均值分别为 \mu 1\mu 2\mu 3\mu 4,如果用一般假设检验方法,如t检验,一次只能研究两个样本,要检验4个总体的均值是否相等,需要两两比较,作出6次检验。

检验1:H{_{0}}: \mu 1 = \mu 2

检验2:H{_{0}}: \mu 1 = \mu 3

检验3:H{_{0}}: \mu 1 = \mu 4

检验4:H{_{0}}: \mu 2 = \mu 3

检验5:H{_{0}}: \mu 2 = \mu 4

检验6:H{_{0}}: \mu 3 = \mu 4

很显然,这样的比较十分繁琐!如果 \alpha = 0.05,即每次检验犯第I类错误的概率都是 0.05,作多次检验会使得犯第I类错误的概率相应增加,检验完成时,犯第I类错误的概率会大于 0.05,即连续作6次检验犯第I类错误的概率为:

1-\left ( 1-\alpha \right )^{6} = 0.265,而置信水平则会降低到 0.735 (即 0.95^{6})。

一般来说,随着增加个体显著性检验的次数,偶然因素导致差别的可能性也会增加。方差分析方法则是同时考虑所有的样本,因此排除了错误积累的概率,从而避免拒绝了一个真实的原假设。

举例:有三台机器生产规格相同的铝合金薄板,为检验三台机器生产薄板的厚度是否相同,随机从每台机器生产的薄板中各抽取了5个样品,测得结果如下:

问题: 三台机器生产薄板的厚度是否有显著差异?

这个问题通过方差分析来解决。

在Excel中,生成以上三台机器样品数据一 ~ 样品数据五 的 方差分析表

SS表示平方和,df为自由度,MS表示均方,F为检验的统计量,P-value 为用于检验的P值,F{_{crit}} 为给定的 \alpha 水平下的临界值。

进行决策时,可以将方差分析表中的 P值与显著水平 \alpha 的值进行比较。

从方差分析表,进行方差分析时:

若:F > F_{\alpha },则拒绝原假设 H{_{0}}

若:F < F_{\alpha },则不拒绝原假设 H{_{0}}

也可以通过,P 和 \alpha 的关系判断:

若:P < \alpha,则拒绝 H{_{0}}

若:P > \alpha,则不拒绝 H{_{0}}

在本例中,从方差分析表中,可以看出:

因为 (2,12)=3.89 < 32.92,故拒绝 认为各台机器生产的薄板厚度有显著差异 

这里用到了假设检验和单因素方差分析的原理。


方差分析的分类

单因素方差分析

根据资料设计类型的不同,有以下两种方差分析的方法:

1、对成组设计的多个样本均数比较,应采用完全随机设计的方差分析,即单因素方差分析

2、对随机区组设计的多个样本均数比较,应采用配伍组设计的方差分析,即两因素方差分析

单因素方差分析(One Way ANOVA)

单因素方差分析是指对单因素试验结果进行分析,检验因素对试验结果有无显著性影响的方法。

单因素方差分析是两个样本平均数比较的引伸,它是用来检验多个平均数之间的差异,从而确定因素对试验结果有无显著性影响的一种统计方法。

双因素方差分析法(Two-way analysis of variance)

双因素方差分析法是一种统计分析方法,这种分析方法可以用来分析两个因素的不同水平对结果是否有显著影响,以及两因素之间是否存在交互效应。一般运用双因素方差分析法,先对两个因素的不同水平的组合进行设计试验,要求每个组合下所得到的样本的含量都是相同的。

在实际问题的研究中,有时需要考虑两个因素对实验结果的影响。例如饮料销售,除了关心饮料颜色之外,我们还想了解销售地区是否影响销售量,如果在不同的地区,销售量存在显著的差异,就需要分析原因。采用不同的销售策略, 使该饮料品牌在市场占有率高的地区继续深入人心,保持领先地位;在市场占有率低的地区,进一步扩大宣传,让更多的消费者了解、接受该产品。若把饮料的颜色看作影响销售量的因素A,饮料的销售地区则是影响因素B。对因素A和因素B同时进行分析,就属于双因素方差分析的内容, 双因素方差分析是对影响因素进行检验,究竟是一个因素在起作用,还是两个因素都起作用,或是两个因素的影响都不显著。

分析的步骤

两类方差分析的基本步骤相同,只是变异的分解方式不同,对成组设计的资料,总变异分解为组内变异和组间变异(随机误差),即:SS总=SS组间+SS组内,而对配伍组设计的资料,总变异除了分解为处理组变异和随机误差外还包括配伍组变异,即:SS总=SS处理+SS配伍+SS误差。整个方差分析的基本步骤如下:

1、建立检验假设;

H0:多个样本总体均数相等;
H1:多个样本总体均数不相等或不全等。
  检验水准为0.05。

2、计算检验统计量F值;

3、确定P值并作出推断结果。


方差分析的应用条件

应用方差分析对资料进行统计推断之前应注意其使用条件,包括:

1、可比性。若资料中各组均数本身不具可比性则不适用方差分析。

2、正态性。即偏态分布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。

3、方差齐性。即若组间方差不齐则不适用方差分析。多个方差的齐性检验可用Bartlett法,它用卡方值作为检验统计量,结果判断需查阅卡方界值表。

方差分析主要用于:

1、均数差别的显著性检验;

2、分离各有关因素并估计其对总变异的作用;

3、分析因素间的交互作用;

4、方差齐性检验。

发布了619 篇原创文章 · 获赞 185 · 访问量 66万+

猜你喜欢

转载自blog.csdn.net/seagal890/article/details/105021319
今日推荐