T检验与Z检验

五.T检验和Z检验


参考文献:

[1].t检验原理
[2]:什么是原假设?什么是备择假设?
[3]:T检验还是Z检验
[4]:统计学离散型变量和连续型变量有什么区别?
[5]:经典比较篇之一:为什么要做比较分析?
[6]:假设检验之z-检验,t-检验,卡方检验

0. 检验学习先知知识

离散变量与连续变量

变量按其数值表现是否连续

	连续变量是一直叠加上去的,增长量可以划分为固定的单位,即:1,2,3......例如:一个人的身高,首先长到1.51,然后才能长到1.52153......。
	而离散变量则是通过计数方式取得的,即是对所有要统计的对象进行技术,增长量非固定的,如:一个地区的企业数目可以是今年只有一家,而第二年开了十家;一个企业的职工人数今年只有10人,第二年一次招聘了20人等。

变量值的变动幅度不同

	对离散变量,如果变量值的变动幅度小,就可以一个变量值对应一组,称单项式分组。如居民家庭按儿童数或人口数分组,均可采用单项式分组。
   离散变量如果变量值的变动幅度很大,变量值的个数很多,则把整个变量值一次划分为几个区间,各个变量值则按其大小确定所归并的区间,区间的距离称为组距,这样的分组称为组距式分组。
	也就是说,离散变量根据情况既可以用单项式分组,也可以用组距式分组。在组距式分组中,相邻组既可以有确定的上下限,也可将相邻组的祖限重叠。

扩展资料

1. 离散变量是指其数值只能用自然数或整数单位计算的则为离散变量。例如,企业个数、职工人数、设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得。
2. 连续变量是在一定区间内可以任意取值的变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。例如,生产零件的规格尺寸、人体测量的身高、体重、胸围等为连续变量,其数值只能用测量或计量的方法取得。
3. 离散变量的概率分布,常用的有二项分布、泊松(Poisson)分布。其余的还有两点分布、几何分布、超几何分布等概率分布。

为什么要做比较分析

什么是比较分析

所谓比较分析,就是运用假设检验原理,通过抽样,对总体的某些参数(常用均值或方差)的大小进行比较,得出因子的不同状态对结果是否产生显著影响。比较对象可以是连续数据,也可以是离散数据。这种比较只给出“是”与“否”的结论,不试图给出具体的差异值。

为什么要做比较分析

这是一个最常见的问题,我在最初学习的时候也有此疑问。要想比较均值,直接把两个均值拿出来比较一下大小不就行了,干嘛还要做假设、定分布、算p值呢?这不是脱那啥放那啥吗。

深入学习后,渐渐理解了其中的道理。

对于我们要研究的对象,其真相可能永远未知,我们只是通过抽样来管中窥豹,但谁也无法肯定研究对象就是这样或者那样的。也就是说,我们抽样所反映出来的状态可能是对的,也可能是错的,所以我们给出了置信区间,意思就是说,我们也不知道具体是多少,但我们可以给出个范围,虽然没有十足的把握,但也有九成半的把握说总体的状态落在这个范围内。

以双样本t-检验(这个说法不严谨,但已经约定俗成了,以至于有些书上和统计软件中也这么说)为例,如果两个范围离得很远,就像这样,

image-20200722140744470

t检验

	t检验是以t分布为理论基础,对一个或两个样本的数值变量资料进行假设检验常用的方法,属于参数检验。

1.假设检验

假设建设的概念与分类

	假设检验亦称显著性检验,是利用样本信息,根据一定的概率水准,推断指标(统计量)与总体指标(参数)、不同样本指标间的差别有无意义的统计方法。

参数检验与非参数检验

	参数检验是依赖总体分布的具体形式的统计方法,简称参数法。常用的参数法有X^2检验、t检验、F检验等。使用条件是抽样总体的分布已知。
	优点:能充分利用样本信息;检验效率较高。
	缺点:应用条件限制较多;手工计算繁琐。
	
   非参数检验是一类不依赖总体分布的具体形式的统计方法。如Ridit分析、秩和检验、符号检验、中位数检验、序贯试验、等级相关分析等。
	优点:对总体的分布形式不要求
       可用于不能精确测量的资料
       易于理解和掌握、计算简便
	缺点:不能充分利用资料所提供的信息,使检验效率降低。

单因素分析与多因素分析

	单因素分析亦称一元分析,是在主要的非处理因素相同的条件下,不管影响结果的处理因素(如病人年龄、病情、辩证分型、病理类型、药物剂型、用药途径、疗程等)有多少,每次仅分析一个处理因素与效应之间关系的统计方法。
	多因素分析亦称多变量分析或多元分析,是研究多因素和多指标之间的关系以及具有这些因素的个体之间关系的一种统计方法。

无效假设与备择假设

	无效假设:记为H0,即样本均数所代表的总体均数μ与已知的总体均数μ0相等。样本均数与μ0的差异是由抽样误差引起,无统计学意义。
   备择假设:记为H1,即样本均数所代表的总体均数μ与μ0不相等,样本均数与μ0的差异是本质性差异,有统计学意义。
	假设检验的基本思想:概率性质的反证法。根据所考察问题的要求提出原假设和备择假设,为了检验原假设是否正确,先假定原假设是正确的情况下,构造一个小概率事件,然后根据抽取的样本去检验这个小概率事件是否发生。

	如果在一次试验中小概率事件竟然发生了,我们就怀疑原假设原假设的正确性,从而拒绝原假设如果在一次试验中小概率事件没有发生,则没有理由怀疑原假设原假设的正确性,因此接受原假设。

一图解释流
image-20200722105154035

确立原假设与备择假设时应遵循以下两个原则:

  1. 原假设是在一次试验中有绝对优势出现的事件,而备择假设在一次试验中不易发生(或几乎不可能发生)的事件。因此,在进行单侧检验时,最好把原假设取为预想结果的反面,即把希望证明的命题放在备择假设上。
  2. 将可能犯的严重错误看作第一类错误,因为犯第一类错误的概率可以通过a的大小来控制。犯第二类错误的概率夕是无法控制的。如医生对前来问诊的病人作诊断时,可能会犯“有病看成无病”或者“无病看成有病’的错误,相比较而言,“无病看成有病“的错误更严重,故应将“问诊人有病”作为原假设。而在某项疾病普查中,将“被检查人有病’作为原假设就不恰当了。

假设检验基本概念
假设检验:

  • 什么是假设:对总体参数(均值,比例等)的具体数值所作的陈述。比如我认为新的配方的药效要比原来的更好
  • 什么是假设检验:先对总体的参数提出某种假设,然后利用样本的信息判断假设是否成立的过程。比如,上面的假设我是要接受还是拒绝。

假设检验的应用:

  • 推广新的教育方案后,教学效果是否有所提高
  • 醉驾判定为刑事犯罪后是否会使得交通事故减少
  • 男生和女生在选文理科时是否存在性别因素影响

显著性水平:

  • 一个概率值,原假设为真时,拒绝原假设的概率,表示为alpha常用取值为0.01,0.05,0.10
  • 一个公司要来招聘了,本来实际有200个人准备荤一荤,但是公司希望有5%的人是浑水摸鱼进来的,所以可能会有4个人混进来,所谓显著性水平alpha,就是你允许最多有多大比例浑水摸鱼的通过你的测试。

假设检验的步骤:

  • 提出假设
  • 确定适当的检验统计量
  • 规定显著性水平
  • 计算检验统计量的值
  • 做出统计决策

原假设与备选假设:

  • 待检验的假设又叫原假设,也可以叫做零假设,表示为H0.(零假设其实就是表示原假设一般都是说没有差异,没有改变)
  • 与原假设对比的假设叫做备选假设,表示为H1
  • 一般在比较的时候,主要有等于,大于,小于

检验统计量:

  • 计算检验的统计量
  • 根据给定的显著性水平,查表得出相应的临界值
  • 将检验统计量的值与显著性水平的临界值进行比较
  • 得出拒绝或不拒绝原假设的结论

检验中常说的小概率:

  • 在一次试验中,一个几乎不可能发生的事件发生的概率
  • 在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设
  • 小概率由我们事先确定

P值:

  • 是一个概率值
  • 如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率
  • 左侧检验时,P-值为曲线上方小于等于检验统计量部分的面积
  • 右侧检验时,P-值为曲线上方大于等于检验统计量部分的面积

左侧检验与右侧检验:

  • 当关键词有不得少于/低于的时候用左侧,比如灯泡的使用寿命不得少于/低于700小时时
  • 当关键词有不得多于/高于的时候用右侧,比如次品率不得多于/高于5%时

双侧检验:

image-20200722144723296

检验结果:
image-20200722144746299

img

img

img

2.单样本t检验

适用范围

	单样本t检验亦称样本均数与总体均数的比较的t检验。用于从正态总体中获得含量为n的样本,算得均数和标准差,判断其总体均数μ是否与某个已知总体均数μ0相同。
	已知总体均数一般为标准值、理论值或经大量观察得到的较稳定的指标值。

适用条件

	1. 对正态分布的数值变量资料,需用t检验。
	2. 对于非正态分布的资料,若经过变量变换成正态分布,可按t检验处理;否侧,用非参数检验的方法。

正态性检验的方法

image-20200722110829678

计算公式
image-20200722110916665

检验步骤
image-20200722110942260

image-20200722110954276

3. 配对设计资料均数的t检验

配对设计

	配对设计是将观察单位按照某些特征(如性别、年龄、病情等可疑混杂因素)配成条件相同或相似的对子,每对中的两个观察单位随机分配到两个组,给与不同的处理,观察指标的变换。
	1. 同一观察单位实验(或治疗)前后的比较;
	2. 同一样品用两种方法检验结果的比较;
	3. 配对的两个观察单位分别接受处理后的数据比较。

4. 独立样本的t检验与t’检验

一图流看懂独立样本的t检验与t’检验的关系

image-20200722115512659

独立样本资料

	独立样本资料是在两个总体里分别随机抽样,或将同一总体里抽取的观察对象随机分为两组,采取不同的处理得到的资料。

独立样本的t检验与t’检验

	独立样本t检验亦称两样本t检验或成组t检验。与t'检验均适用于完全随机化设计两独立样本的比较,目的是推断两独立样本均数所代表的未知总体均数μ1与μ2是否有差别

独立样本的方差齐性检验

	两个样本均数的假设检验,除了要求样本资料来自正态分布或近似正态分布,还要求两个样本的总体方差相等,称为方差齐性。

应用条件

两个样本均来自正态分布的总体。

计算公式
image-20200722112940232

检验步骤
image-20200722113031896

image-20200722113038126

image-20200722113046318

image-20200722113054961

image-20200722113103799

独立样本t检验

应用条件

1. 样本个体测量值相互独立,即独立性。
2. 两个样本所代表的总体均数服从正态分布,即正态性。
3. 总体方差相等,即方差齐性。

计算公式

image-20200722113644869

检验步骤
image-20200722113700125

image-20200722113836479

image-20200722113847163

image-20200722113855297

t’检验

  • 成组样本均数的比较,若方差不齐,可以采取3种方式处理:
  1. 经过数据变换使方差齐,然后进行t检验;
  2. 采用近似t检验——t’检验;
  3. 基于秩次的非参数检验方法。

image-20200722114134486

image-20200722114145070

image-20200722114150919

image-20200722114157521

image-20200722114206006

image-20200722114212983

image-20200722114220963

image-20200722114226550

5. t检验还是z检验

  • Z分布是T分布的特殊形式, 用不太严格的统计估计,故T检验可以包括Z检验。

个人理解:

​ 两者虽然有微妙的联系,但个人认同的是,当样本容量较少且少于30的时候使用t检验,当样本容量较大且大于30的时候使用z检验。

​ 因为t检验事实上是对样本进行抽样计算的,在拥有较大数据的基础上即样本容量足够大,我们直接使用z检验就对了。

猜你喜欢

转载自blog.csdn.net/weixin_44293582/article/details/107513539