统计学习之方差分析

零、案例说明

为了检验某小学六年级教学质量的差异,从该小学六年级的三个班级中分别选取一定数量的学生,分成三个组(三个样本),对他们期末考试的平均分进行统计分析。如果实验显示每个每组的均值相同,即三个班期末考试的成绩差异不大,则表明该小学六年级不同班级的教学质量没有差异,and vice versa。

每个样本组的平均分分别为 \m{\mu _{1}}^{},\m{\mu _{2}}^{}\m{\mu _{3}}^{}方差分别为 \m{\sigma _{1}}^{2},\m{\sigma _{2}}^{2},\m{\sigma _{3}}^{2}

给出零假设 ^{{H_{0}}^{}}\m{\mu _{1}}^{}=\m{\mu _{2}}^{} =\m{\mu _{3}}^{}

备择假设 ^{{H_{1}}^{}} :样本组的均值不全相等

方差分析将会依据观测数据判定假设是否成立。

进行方差分析有3个假定条件:

  1. 每个样本的值服从正态分布
  2. 每个样本的方差 ^{{\sigma _{}}^{2}} 相同
  3. 每个样本中的个体相互独立

假定零假设正确,\m{\mu _{1}}^{}=\m{\mu _{2}}^{} =\m{\mu _{3}}^{} ,三个样本均值相等,同时根据假定条件中的2:样本的方差相同,是不是可以看成——三个样本均取自均值 \m{\mu _{1}}^{}=\m{\mu _{2}}^{} =\m{\mu _{3}}^{} ,方差为 ^{{\sigma _{}}^{2}} 的同一总体。

方差分析的核心是中心极限定理。

从均值为 \mu ,方差为 ^{{\sigma _{}}^{2}} 的总体中抽取样本容量为 n 的样本组,每个样本组的均值服从均值 \bar{x} = \mu ,方差 \sigma _{\bar{x}}^{2} = \sigma ^{2} /n 的正态分布。(中心极限定理)

这里需要澄清样本和总体的概念:总体有三个,分别是三个班级的所有学生,从三个总体中分别抽取出样本容量为n的三个集合,是我们所谓的样本。如下图

经过观测,如果样本的均值差异较大,可以推出,每个总体的均值不同;如果样本均值相等,每个总体的均值可能很接近。

这里的一个隐含推理就是:三个样本来自同一总体,即将整个六年级看做一个整体,不存在班级差异。这样,在抽取的样本量相同的假定条件下,抽样符合中心极限定理。可以推测样本均值的分布符合正态分布,在某一区间内的概率会大。

正态分布曲线

若 \bg_white ^{{H_{0}}^{}}成立,我们所得的三个班级是这个曲线上的某三个点,正态分布的均值是三个样本的均值的平均数,即 \mu = \sum_{i}^{k} \mu _{i}/k

正态分布的方差可用如下公式进行估计

三个样本来自不同总体

\bar{x} 有三个不同的分布。如果将三个班看做一个总体,则总体的方差也会更大,总体的方差可用三个样本方差的均值来估计:

^{{\sigma _{}}^{2}} = \sum_{i}^{k} _{\sigma }^{2} /k ,称为 ^{{\sigma _{}}^{2}} 的组内估计。

应用

给定显著性水平 \alpha ,F分布对应的临界值为 F_{a} ,当 F = \frac{MSTR}{(MSE))} > F_{a} 时,拒绝 H_{0}

一、什么是方差分析?(方差分析的定义)

方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。

1、基本概念:因子、水平 

方差分析(analysis of variance,ANOVA)是分析类别变量对数值因变量影响的一种统计方,其中类别变量称为因子,类别变量的值称为处理或水平。接受处理的对象或实体称为实验单元,方差分析的原理:通过对数据误差的分析来判断类别自变量对数值因变量的影响效果是否显著。

2、方差分析分类:单因素方差分析、双因素方差分析、协方差分析

单因素方差分析

线性模型:y_{ij} = \mu _{i} + \varepsilon _{ij}其中 y_{ij} 表示第i个处理的第j个观察值; \mu _{i} 表示第i个处理的平均值, \varepsilon _{ij} 表示第i个处理的第j个观察值的随机误差。

然后根据统计量F计算出P值,与置信水平做出判断。

双因素方差分析

双因子方差分析只从与单因子方差分析不同的角度,简单描述:模型较复杂:(是否考虑交互效应r可分为两种情况)

考虑交互效应的误差分解
考虑交互效应的误差分解
考虑交互效应的双因子方差分析表

协方差分析

协方差分析亦称“共变量(数)分析”。方差分析的引申和扩大。基本原理是将线性回归与方差分析结合起来,调整各组平均数和 F 检验的实验误差项,检验两个或多个调整平均数有无显著差异,以便控制在实验中影响实验效应(因变量)而无法人为控制的协变量(与因变量有密切回归关系的变量)在方差分析中的影响。例如,在研究某种教学方法(实验变量)对学业成绩(实验效应)的影响时,被试的原有知识基础同时影响学业成绩,但往往在实验中难以选取具备相同知识基础的被试参加实验,可用协方差分析从学业成绩的总变异中将归因于被试知识基础差异的部分划分出去,便于确切地分析教学方法对学业成绩的影响,其中被试的知识基础就是协变量

二、为什么需要方差分析?

三、方差分析有哪些应用?

方差分析在工业、农业、经济、生物、医学等领域的很多实际问题都可以用方差分析来解决,方差分析模型作为一种重要的线性模型,具有巨大的研究意义。随着经济科学的快速发展,方差分析在各行各业扮演重要角色

四、参考文献

  1. 百度百科-方差分析
  2. 案例说明-林橘子
  3. 方差分析:单因子和双因子-herain
发布了44 篇原创文章 · 获赞 6 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/zkyxgs518/article/details/104459882