医学统计学总结

医学统计学总结

一.绪论

1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。

2,医学统计学的主要内容:

1) 统计研究设计 调查研究设计和实验研究设计

2) 医学统计学的基本原理和方法 研究设计和数据处理中的基本统计理论和方法。A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。

3)医学多元统计方法 多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。

3,统计工作步骤:

1) 设计 明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。

2) 搜集材料

A, 搜集材料的原则 及时、准确、完整

B, 统计资料的来源 医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。

C, 资料贮存

3) 整理资料 a检查核对b设计分组c拟定整理表d归表

4) 分析资料 统计分析包括统计描述和统计推断

4,同质(homogeneity):指被研究指标的影响因素相同。

变异(variation):同质基础上的各观察单位间的差异。

变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项特征进行测量或观察,这种特征称为变量

变量值:变量的观察结果或测量值。

变量类型

变量值表现

实例

资料类型

数值变量

离散型

定量测量值,有计量单位

产前检查次数

计量资料

连续型

身高

分类变量

无序

二分类

对立的两类属性

性别(男女)

计数资料

多分类

不相容的多类属性

血型(A,B,O,AB)

有序

多分类

类间有程度差异的属性

受教育程度(小学,中学,高中,大学…)

等级资料

5,总体(population) 根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总体具有的基本特征是:同质性

样本(sample) 从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代表性。代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。

统计量(statistics)描述样本变量值特征的指标(

样本率,

样本均数,

样本标准差)。

参数(parameter)描述总体变量值特征的指标(

总体率,

标准差,

总体均数)。

抽样误差(sampling error):由于个体差异的存在,即使在同一整体中随机抽取若干样本,各样本的统计量往往不等,统计量与参数也会有所不同。这种因抽样研究引起的差异称抽样误差。

随机事件(random event)对随机试验的各种可能结果的集合。

概率(probability) 描述随机事件发生的可能性大些哦的一个度量。

小概率事件 若随机事件A的概率P(A)≤α,习惯上,α=0.05时,就称A为小概率事件。其统计学意义是小概率事件在一次随机试验中认为不会发生。

抽样误差

1,抽样误差(sampling error) 由抽样而造成的样本统计量与总体参数之间的差异或各样本统计量之间的差异。在医学统计学中,常把由抽样造成的样本均数与总体均数间的差异称为均数的抽样误差;由抽样造成的样本率与总体率之间的差异称为率的抽样误差。

2,样本均数的标准差

(简称标准误,standard error) 反映均数的抽样误差大小的指标。

大,抽样误差大;反之,

小,抽样误差小。

(3.1)

实际工作中

往往未知的,可用样本标准差s作

的估计值,计算标准误的估计值

(3.2)

3,标准误的用途:a,衡量样本均数的可靠性;b,估计总体均数的置信区间;3,用于均数的假设检验。

4,标准误的估计值

的用途:

a,描述抽样误差的大小;

b,总体参数的估计;

c,用来进行假设检验。

5,率的抽样误差:由抽样造成的样本率与总体率的差异称为率的抽样误差。

衡量率的抽样误差大小的指标是率的标准误

越小,率的抽样误差越小;

越大,率的抽样误差越大。

(3.3)

其中

为总体率。实际工作中,由于

往往是未知的,可用样本率p作

的估计值,计算率的标准误

的估计值

(3.4)。

标准差(s)

标准误

计算公式s=

(1)表示观察值的变异程度

(1)估计均数的抽样误差的大小

(2)计算变异系数CV=

100%

(2)估计总体均数的可信区间

(3)确定医学参考值范围

(3)进行假设检验

(4)计算标准误

简述标准差、标准误的区别与联系?

区别:(1)含义不同:标准差S表示观察值的变异程度,描述个体变量值(x)之间的变异度大小,S越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。标准误

估计均数的抽样误差的大小,是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。(2)与n的关系不同: n增大时,S趋于σ(恒定),标准误减少并趋于0(不存在抽样误差)。(3)用途不同:标准差表示x的变异度大小、计算变异系数、确定医学参考值范围、计算标准误等,标准误用于估计总体均数可信区间和假设检验。

联系:二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。

标准差:

标准误:

二.分布

正态分布

1,正态分布的函数

其中

为总体均数,

为总体标准差,

为圆周率,

为自然对数的底,且仅

为变量。以

为横轴,以

为纵轴,当均数和标准差已知时即可绘出正态分布曲线。

为应用方便,将式中

进行变量变换,使原来的正态分布变为

的标准正态分布,亦称

分布。

被称为标准正态变量或标准正态离差,将

代入上述公式即得标准正态分布的密度函数

(2.17)

(2.18)

2,正态分布的特征

(1)正态曲线(normal curve)在横轴上方均数处最高。

(2)正态分布以均数为中心,左右对称。

(3)正态分布有2个参数(parameter),即均数

(位置)和标准差

(形状)。当

固定不变时,

越大,曲线沿横轴越向右移动;反之,

越小,则曲线沿横轴越向左移动。当

固定不变时,

越大,曲线越平阔;

越小,曲线越尖峭。通常用N(

)表示均数为

、方差为

的正态分布。用(0,1)表示标准正态分布。(4)正态分布在

1

处各有一个拐点。(5)正态曲线下面积的分布有一定规律。

3,常用的两个区间:

1.96

2.58

的区间面积分别占总面积的95%及99%。

4,正态分布的应用

1),制定医学参考值范围

a,正态分布法 适用于正态或近似正态分布的资料 双侧界值:

;单侧上界:

,或单侧下界:

b,对数正态分布法 适用于对数正态分布资料 双侧界值:

;单侧上界:

,或单侧下界

c,百分位数法 常用于偏态分布资料及资料中一端或两端无确切数值的资料。双侧界值:

;单侧上界:

,或单侧下界:

2)正态分布是多种统计方法的理论基础 如t分布,F分布,

分布都是在正态分布的基础上推导出来的,

分布也是以正态分布为基础的。另外t分布,二项分布,poisson分布的极限为正态分布,一定条件下可按正态分布原理处理。

t分布

1,t分布:

(3.5)

t分布的特征为:

1. 以0为中心,左右对称的单峰分布。

2. t分布曲线形态变化与自由度的大小有关。自由度

越小,则t值越分散,曲线越低平;自由度

逐渐增大时,则t分布逐渐逼近正态分布(标准正态分布)。当

=

时,t分布为u分布。t界值表附图中非阴影部分面积的概率为:

2,总体均数的估计:用样本指标估计总体参数称为参数估计,是统计推断的一个重要方面。总体均数的估计有2种方法。一是直接用统计量

估计总体参数

,称为点值估计。由于抽样误差的存在,此法很难估计准确。二是区间估计(interval estimation)法。区间估计是按一定的概率100(1-

)%估计总体均数所在的范围,亦称可信区间(confidence interval,CI)。常取的可信度为95%和99%,即95%可信区间和99%可信区间。计算方法有3种:

(1)

未知且n小 按t分布原理用式(3.6)计算可信区间。

由于

代入,得

则总体均数的100(1-

)%可信区间的通式为:

(3.6)或写成 (

)。

(2)

未知,但n足够大时(n>100) t分布逼近u分布,按正态分布原理,用式(3.7)估计可信区间。

) (3.7)

(3)

已知 按正态分布原理,用式(3.8)估计可信区间。

)(3.8)

标准正态分布(u分布)与t分布有何异同?

答:相同点:t分布和标准正态分布(u分布)都是以0为中心的正态分布。标准正态分布是t分布的特例(自由度是无限大时)。

不同点:t分布为抽样分布,u分布为理论分布;t分布比标准正态分布的峰值低,且尾部翘得更高;t分布受自由度大小的影响,随着自由度的增大,逐渐趋近于标准正态分布;t分布有无数条曲线,而u分布只有唯一一条曲线。

二项分布

1,二项分布(binomial distribution)是对只具有2种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。

二项分布概率公式:

(3.9)

式中n为独立的贝努力试验次数,

为成功的概率,(1-

)为失败的概率,X为在n次贝努力试验中出现“成功”的次数,

表示在n次试验中出现X的各种组合数,在此称为二项系数(binomial coefficient)。

2,二项分布的应用条件:

(1)各观察单位只能具有相互对立的一种结果,如阳性或阴性,生存或死亡。

(2)已知发生某一结果(阳性)的概率为

,其对立结果的概率为1-

,实际工作中要求

是从大量观察中获得比较稳定的数值。

(3)n次试验在相同条件下进行,且各个观察单位的观察结果相互独立。

3,二项分布的性质:

A,二项分布的均数和标准差 在二项分布的资料中,

和n已知时,它的均数

及其标准差

如下:

=n

(3.11)

(3.12)

若均数和标准差不用绝对数表示,而是用率表示时,即对式(3.11)(3.12)分别除以n,得:

(3.13)

(3.14)

是样本率的标准误的理论值,当

未知时,常用样本率p作为

的估计值,则:

(3.15)

B,二项分布的累计概率 二项分布的累计概率(cumulative probability)常用的有左侧累计和右侧累计2种方法。

从阳性率为

的总体中随机抽取n个个体,则

(1)最多有k例阳性的概率

(3.16)

(2)最少有k例阳性的概率

(3.17)

D,二项分布的形状取决于

和n的大小:

(1)当

=0.5时,分布对称;当

<0.5时,分布呈正偏态,且固定n时,

越小,分布越偏;当

>0.5时,分布呈负偏态,且固定n时,

越大,分布越偏。

(2)对固定的

,分布随n的增大趋于对称。

4,总体率的估计

总体率的估计也有点估计和区间估计,点估计是简单地用样本率来估计总体率;区间估计是求出总体率的可能范围。样本率的理论分布和样本含量n、阳性率p的大小有关,所以需要根据n和p的大小不同,分别选用下列2种方法。

(一)查表法 当样本含量n较小,如n≤50,特别是p很接近于0或1时,按二项分布的原理估计总体率的可信区间。

(二)正态近似法 当样本含量n足够大,且样本率p或1-p均不太小,如np与n(1-p)均大于5时,样本率的p的抽样分布近似正态分布,总体率

的可信区间可按下列式(3.17)进行估计。

(3.17)

Poisson分布

1,Poisson分布 泊松分布是在

很小,样本含量n趋向于无穷大时,二项分布的极限形式。更多地用于研究单位时间、单位人群、单位空间内,某罕见事件发生的次数的分布。

X=0,1,2

(3.19)

式中

=n

为Poisson分布的总体均数,X为单位时间或单位空间内某事件的发生数,e为自然对数的底,约等于2.71828。在实际运算中,P(X)亦可按式(3.20)作递推计算。

(3.20)

2,Poisson分布应用条件:

A, 要求事件的发生是相互独立

B, 发生的概率相等

C, 结果是二分类

3,Poisson分布的性质:

A, 该分布是一种单参数的离散型分布,其参数为

,它表示单位时间或空间内某件事平均发生的次数,又称强度参数。

B, Poisson分布的方差

和均数

相等,即

=

C, Poisson分布的累计概率

(1) 最多为k次的概率

(2) 最少为k次的概率

4,Poisson分布的图形

已知

,就可按公式计算得出X=0,1,2,

时的P(X)值,以X为横坐标,以P(X)为纵坐标作图,即可会出Poisson分布的图形。

值越小,分布越偏,随着

的增大,分布越趋于对称,当

=20时,分布接近正态分布,当

=50时,可以认为Poisson分布呈正态分布N(

)按正态分布处理。

5,Poisson分布具有可加性

6,总体参数的估计

由样本均数(样本计数)X估计总体均数

也有点(值)估计和区间估计,区间估计的方法,需视样本计数(样本均数)X的大小而定,X小时用查表法,X大时用正态近似法。

(一)查表法

当样本计数X

时,用X值查附表poisson分布

的可信区间,可得总体均数

的95%或99%可信区间。

(二)正态近似法

当样本计数X>50时,可用正态近似原理下面公式求总体均数

的95%或99%可信区间

正态分布、二项式和泊松分布的关系

二项分布(binomial distribution):对只具有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。Poisson分布是在π很小,样本含量n趋于无穷大时,二项分布的极限形式。当v=∞时,t分布即为u分布,趋向正态分布。

可信区间与参考值范围的区别

意义、计算公式和用途均不同。(1)参考值范围是指同质总体内包括百分之几十个体值的估计范围。而可信区间是指在百分之几十的可信度估计的总体参数的所在范围。(2)同样的百分之几十,参考值范围是样本范围,可信区间是指可信度范围,二者有着本质的不同。(3)从意义来看,95%参考值范围是指同质总体内包括95%个体值的估计范围,而总体均数95%可信区间是指按95%可信度估计的总体均数的所在范围。(4)从计算公式看,若指标服从正态分布,95%参考值范围的公式是:

±1.96s。总体均数95%可信区间的公式是:

。前者用标准差,后者用标准误。前者用1.96,后者用α为0.05,自由度为v的t界值。(5)从用途上看,可信区间用来估计总体均数,参考值范围用来判断观察对象的某项指标是否正常。

简述检验假设与可信区间的联系与区别

答:(1)可信区间用于推断总体参数所在的范围,假设检验用于推断总体参数是否不同。前者估计总体参数的大小,后者推断总体参数有无质的不同。(2)可信区间也可回答假设检验的问题。但可信区间不能提供确切的P值范围,只能给出在α水准上有无统计意义。(3)可信区间还可提示差别有无实际意义。

统计图表

1,绘制统计图的基本要求:

A, 根据资料性质和分析目的据顶适当图形。

B, 标题应说明资料的内容、时间和地点,一般位于图的下方。

C, 图的纵、横轴应注明标目及对应单位,尺度应等距或具有规律性,一般自左而右、自下而上、由小到大。

D, 为使图形美观并便于比较,统计图的长宽比例一般为7:5,有时为了说明问题也可以变动。

E, 比较、说明不同的事物时,可用不同颜色或线条表示,并常附图例说明,但不宜过多。

2,常用统计图的适用条件与绘制

1. 条图(bar graph) 用等宽长条的高度表示按性质分类资料各类别的数值大小,用于表示它们之间的对比关系。

2. 圆图(pie graph) 圆形图适用于百分构成比资料,表示事物各组成部分所占的比重或构成。

3. 百分条图(percent bar) 意义及适用资料同圆图,也称构成条图。

4. 线图(line graph) 线图适用于连续性资料,以不同的线段升降来表示资料的变化,并可表明一事物随另一食物(时间)而变动的情况。

5. 直方图(histogram) 直方图用于表达连续性资料的频数分布。

6. 散点图(scatter diagram) 散点图以直角坐标系中各点的密集程度和趋势来表示两现象间的关系。常用在对资料进行相关分析之前适用。

单变量资料

一,数值变量

统计描述

1,频数表的编制 求全距 定组段和组距 列频数表 画频数图

2,频数分布的两个重要特征:集中趋势和离散趋势

3,频数分布可以分为正态分布和偏态分布

4,频数表的用途:揭示资料分布类型和分布特征,以便选取适当的统计方法;便于进一步计算指标和统计处理;便于发现某些特大或者特小的可疑值。

5,集中趋势的描述:均数 几何均数 中位数 百分位数

6,均数(mean):算术均数的简称。常用

=

=

表示。

7,中位数(median):一组由小到大按顺序排列的观察值中位次居中的数值,用M表示。可用于描述任何分布,特别是偏态分布资料以及频数分布的一端或两端无确切数据资料的中心位置。

8,百分位数(percentile)是一种位置指标,用

表示。一个百分位数P

将一组观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。可用于确定非正态分布资料的医学参考值范围。

9,离散趋势的描述:全距(range) 四分位数间距(quartile) 方差 标准差

10,全距(range) 亦称极差,为一组同质观察值中最大值和最小值之差。反映个体差异的范围,优点是计算简单,缺点是:1)只考虑最大最小值之间的差异,不能反映组内其他观察值的变异度;2)样本含量相差悬殊时不宜用全距比较。

11,四分位数间距(quartile) 上四分位数与下四分位数之差。常用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。

12,方差(variance)离均差的平方和表示。

13,标准差(standard variance)的作用:a,估计变量值的离散程度 b,计算变异系数 c,与均数结合,估计变异值的频数分布范围 d,计算标准误

(总体) s=

(样本)

14,变异系数(coefficient of variation) 常用于比较度量单位不同或均数相差悬殊的两组或多组资料的变异度。CV=

100%

假设检验

1,假设检验(hypothesis test)亦称显著性检验(significance test),其基本思想是先对总体的参数或分布做出某种假设,如设总体均数(或率)为一定值;两总体均数(或率)相等;总体服从正态分布或两分布相同等,然后根据样本信息选用适当的方法,推断此假设应当拒绝或不拒绝。

2,假设检验的一般步骤:

(1)建立假设和确定检验水准:根据实际情况确定单、双侧检验,建立假设,确定检验水准;

(2)选定检验方法和计算统计量:根据设计的类型及研究目的选择合适的检验方法并计算出对应的统计量;

(3)确定P值并做出推断结论。若t≥tα,v,则P≤α,按检验水准,拒绝H0,接受H1,尚可认为差异显著有统计学意义;相反则差异不显著,无统计学意义

3,假设检验时应注意的事项:

(1)要有严密的抽样研究设计;样本必须是从同质总体中随机抽取的,要保证组间的均衡性和资料的可比性,可能影响结果的非处理因素在对比组间应尽可能相同或相近;

(2)正确选择检验方法;根据现有的资料类型、设计类型、分析目的、样本含量等因素选用适当的检验方法,如不符合条件可做适当转换;

(3)正确理解“差别无显著性”的含义,差别有统计学意义,不能理解为两者差差大,也不能理解为所分析的指标在实际应用上就有“显著效果”。

(4)检验假设的推断结论为概率结论,不能绝对化:检验水准人为规定,是相对的,报告结论时应列出检验统计量和P值的确切范围。

(5)注意是单侧检验还是双侧检验

I型错误和II型错误

I型错误(type I error)拒绝了实际上成立的

,即样本原本来自

的总体,由于抽样的偶然性得到了较大的t值,所以拒绝了

,接受了

,这类弃真错误称为第一类错误,犯第一类错误的概率是

II型错误(type II error)是不拒绝实际上不成立的

,即“存伪”即样本原本来自

的总体,但是由于抽样的偶然性,得到了较小的t值,得到了较大的P值,没有拒绝

,这类存伪错误称为第二类错误,犯第二类错误的概率是1-

正态性检验:用均数和标准差描述资料的分布特征,对例数n较小的样本进行t检验时,首先要求样本取自正态分布的总体。

两个方差的齐性检验:两样本均数比较的t检验和多个样本均数比较的方差分析要求各样本所来自的总体方差相等。两样本方差的齐性检验:

(4.12)

式中

为较大的样本方差,

为较小的样本方差,

为分子的自由度,

为分母的自由度,相应的样本例数分别为

。当两总体方差齐同时,F值一般不会离1太远;若算得的F值较大,大于我们规定的界值时,就认为两样本所在总体的方差不齐。

t检验

t检验:常用于总体标准差未知且样本含量较小时样本均数与总体均数的比较,成组设计的 两个小样本的均数的比较及配对设计的两样本均数的比较。

t检验的应用条件:a,n≤50 b,样本来自正态分布的总体 c,两样本均数比较时要求两样本总体方差相等。

1,单样本t检验(one sample t-test):样本均数与已知总体均数比较,目的是推断样本所代表的未知总体均数

与已知总体均数

有无差别。

) (4.1)

式中

为样本均数,

为已知总体均数,s为样本标准差,n为样本含量,

为自由度。

步骤如下(可为u检验)

1)建立假设,确定检验水准。

H0:μ=μ0 H1:μ≠μ0

α=0.05

2)计算统计量。

已知,(总体均数)μ0=,n=,

=,s=

3)确定P值,做出推断结论。

按v=n-1,查t界值表,得P>0.05(或P<0.05),按α检验水准,不拒绝H0(或拒绝H0,接受H1),即根据本资料尚不能(可以)认为?与?有差异。

2,配对设计资料的t检验 分为3种情况:①将受试对象按一定条件配成对子(同种属、同体重、同年龄、同性别等),再随机分配每对中的2个受试对象到不同的处理组;②同一受试对象分别接受2种不同处理,其目的是推断2种处理的效果有无差别;③同一受试对象处理前后的比较,其目的是推断某种处理有无作用。

配对设计资料的t检验(paired t-test for dependent samples)的基本思路:首先计算出各对差值d的均数

,当2种处理结果无差别或某种处理不起作用时,理论上差值的总体均数

应该为0,故可将配对设计资料的t检验视为样本均数

与总体均数

的比较。

(4.2)

式中

为样本中各对差值d的均数,

为样本差值的标准差,n为对子数,

为自由度。

先列表求差值d和

1)建立假设,确定检验水准。

H0:μd =0 H1:μd≠0

α=0.05

2)计算统计量。

已知,n=,∑d=,∑

=

3)确定P值,做出推断结论。

按v=n-1,查t界值表,得P>0.05(或P<0.05),按α检验水准,不拒绝H0(或拒绝H0,接受H1),即根据本资料尚不能(可以)认为?。

3,成组设计资料两样本均数比较的t检验(two-sample t-test for independent samples):在临床医学研究中,进行配对设计比较困难,一般分别从2个总体中随机抽样,进行成组设计两样本均数的比较,目的是推断2个总体均数是否相等。所比较的两个样本含量最好相等,此时抽样误差最小。

(4.3)

可为t,u检验

1)建立假设,确定检验水准。

:μ1=μ2

:μ1≠μ2

α=0.05

2)计算统计量。

已知,n1=,∑X1=,∑

=,n2=,∑X2=,∑

=

1=∑X1/n1=,

2=∑X2/n2=

(已知,n1=,

1=,s1=,n2=,

2=,s2=

3)确定P值,做出推断结论。

按v=n1+n2-2,查t界值表,得P>0.05(或P<0.05),按α检验水准,不拒绝H0(或拒绝H0,接受H1),可以认为?的差别无(或有)统计学意义。

检验

u检验(u-test,或Z-test):用检验统计量u来命名的。用于样本含量n足够大(n>50),或n虽小但总体标准差

已知时的样本均数与总体均数的比较、成组设计两样本均数的比较。

1,单样本u检验(one sample u-test):

(4.4)

式中

为样本均数,

为已知总体均数,s为样本标准差,n为样本含量。

2,成组设计的两样本均数比较的u检验(two-sample u-test for independent samples):

(4.5)

式中

分别为两样本均数,

为两样本均数差值的标准误,

为分别为两样本的方差,

分别为两样本例数。

标准正态分布(u分布)与t分布有何异同?

答:相同点:t分布和标准正态分布(u分布)都是以0为中心的正态分布。标准正态分布是t分布的特例(自由度是无限大时)。不同点:t分布为抽样分布,u分布为理论分布;t分布比标准正态分布的峰值低,且尾部翘得更高;t分布受自由度大小的影响,随着自由度的增大,逐渐趋近于标准正态分布;t分布有无数条曲线,而u分布只有唯一一条曲线。

方差分析

1,方差分析的基本思想:按研究目的和设计类型,将总变异中的离均差平方和SS和自由度

分别分解成相应的若干部分,然后求得各相应部分的变异;由于其中的组内(或误差)变异主要反映个体差异或抽样误差,其他各部分的变异与之比较得出统计量F值,根据F值的大小确定P值,并做出推断。

2,方差分析的优点:

(1)不受比较组数的限制,可比较多组均数

(2)可同时分析多个因素的作用

(3)可分析同类间的交互作用

3,方差分析的应用范围:

(1)2个或多个样本均数间的比较

(2)分析2个或多个因素间的交互作用

(3)回归方程的线性假设检验

(4)多元线性回归分析中偏回归系数的假设检验

(5)两样本方差齐性检验

完全随机设计的方差分析:

是将总变异中的离均差平方和SS和自由度

分别分解成组间和组内两部分,SS

/

和SS

/SS

分别为组间变异(MS

)和组内变异(MS

),两者之比即为统计量F。

(1)总离均差平方和及自由度:

SS

=

(5.2)

=

(5.3)

(2)组间离均差平方和、自由度和均方:

SS

=

(5.4)

=

(组数-1) (5.5)

MS

=

(5.6)

(3)组内离均差平方和、自由度和均方:

SS

=SS

-SS

(5.7)

=N-k (样本量-组数) (5.8)

MS

=

(5.9)

当方差分析的推断结果为拒绝H0,接受H1,各总体均数不同或不全相同时,应对均数进一步两两比较,即多重比较(multiple comparisons)。可用q 检验进行分析:

(5.14)

式中

为方差分析的组内均方,若为两因素或两因素以上的方差分析,则为误差项均方

分别为两样本的样本含量。

配伍组设计资料的方差分析

配伍组设计亦称随机区组设计(randomized block design),其多个样本均数比较可用无重复数据的两因素方差分析(two-way ANOVA)。2个因素是指主要的研究因素和配伍组因素。两因素的方差分析是把总变异中的离均差平方和与自由度分别分解成处理组间、配伍组间和误差三部分。计算公式如下:

变异来源

离均差平方和

自由度

均方MS

F

-C

处理组间

k-1

配伍组间

b-1

误差

SS

-SS

-SS

(k-1)(b-1)

为配伍组数

二,分类变量

统计描述 常用相对数,即率,构成比,和相对比对分类资料进行统计描述

1,率(rate):率又称频率指标,它说明某现象发生的频率或强度

率=

2,构成比(proportion):又称构成指标,它说明一事物内部各组成部分所占的比重或分布,常以百分数表示

构成比=

3,相对比(relative ratio)亦称比,是A,B 2个有关指标之比,说明A和B 的若干倍或百分之几,是相对数的最简单形式。A,B性质可相同可不同。

相对比=

4,应用相对数时应注意的事项:

(一) 计算相对数的分母不宜过小。

(二) 分析时不能以构成比代替率。

(三) 对观察单位数不等的几个率,不能直接用相加求其平均率。

(四) 资料的对比应注意可比性。

(五) 对样本率(或构成比)的比较应遵循随机抽样,要做假设检验。

(六) 区别清分子分母。

5,率的u检验

1),样本率与总体率比较:目的是推断样本率所代表的总体率

与某已知总体率

是否相等。根据资料的不同情况,可以采用不同的假设检验方法:①若

很小,可用Poisson分布原理做检验;②若

不太靠近0或1时,可用二项分布原理做检验;当样本含量n足够大时,或

,二项分布逼近正态分布,可用u检验计算其样本检验统计量。

(6.1)

式中p为样本率,

为已知总体率(常为理论值或标准值),n为样本含量。

2),两样本率比较:两个样本率作比较的目的是推断两个样本各自代表的两总体率是否相等,当两个样本满足正态近似条件且样本含量较大时,可用u检验,其公式:

(6.2)

式中

分别为两个样本率,

分别为两样本含量,

为两个样本率之差的标准误,

为合并阳性率,

为两个样本阳性例数。

四格表资料的

检验

适用于分类变量资料中推断两个或多个总体率(或构成比)之间有无差别,两个分类指标之间有无相关关系的检验以及检验频数分布的拟合优度。

(6.3)

式中A代表实际频数,T代表理论频数。格子理论频数

可用同样方法求得,其计算公式为:

(6.4)

(6.5)

四格表资料的专用公式:

(6.6)

式中a、b、c、d分别为四格表的实际频数=a+b+c+d。

四格表的

值的校正。

①当所有T>5,n>40时用上述公式;

②当有1<T<5,且n>40时,需进行连续性校正:

(6.7)

(6.7)

或n<40时,需用四格表资料的确切概率法。

行×列表资料的

检验

(6.9)

式中n是总例数,A是每个格子的实际频数,

分别为某格子对应的行合计和列合

行×列表

检验注意事项

(1)X2检验要求理论频数不宜太小,否则将导致偏性。一般认为行X列表资料中不宜有1/5以上的格子理论数小于5,或有一个格子理论数小于1。处理方法:最好的方法是增加样本例数,以增大理论频数;且精确概率法;进行合理的合并;删除理论频数太小的行和列,后两种方法将损失一定的信息并影响样本的随机性。

(2)单向有序列行X列表的统计处理:当效应按强弱分为若干个级别,试验结果整理为单向有序行列表,在比较各处理组的效应有无差别时,宜用秩和检验或Ridit分析。

(3)当多个样本率比较的

检验。结论为拒绝H0,只能认为各总体率或总体构成比之间总的说来有差别,但不能说明它们彼此间都有差别,或某两者间有差别。若要进一步解决此问题,可用卡方分割法。

配对四格表资料的卡方检验

(一)关联性分析:

(1)建立假设检验,确定检验水准。

H0:两种方法的检验结果无关系

H1:两种方法的检验结果有关系

α=0.05

(2)计算统计量X2值。

①n>=40,T>=5,

②n>=40,1<T<5,

③n<40或T<1,四格表确切概率法。

(3)确定P值,做出推断结论。

X2>3.84,P<0.05,按α=0.05检验水准,拒绝H0,接受H1,可以认为两种方法的检验结果有关系。

(二)差别性检验:

(1)建立假设检验,确定检验水准。

H0:两总体的B=C

H1:两总体的B不等于C

α=0.05

(2)计算统计量X2值。

①b+c>40时:

②b+c<40时,

(3)确定P值,做出推断结论。

X2>3.84,P<0.05,按α=0.05检验水准,拒绝H0,接受H1,可以认为两种方法的检验结果有差别。

(X20.05(1)=3.84, X20.005(1)=7.88)

非参数检验

参数检验和非参数检验的优缺点:

参数检验的优点是对资料的分析利用充分,统计分析的效率高;缺点是对资料的要求高,适用范围有限。非参数检验的优点:(1)适用范围广,对变量的类型和分布无特殊要求,不受总体分布的限制;(2)对数据的要求不严,对某些指标不便准确测定的资料也可应用;(3)方法简便,易于理解和掌握。缺点是如果对符合参数检验的资料用了非参数检验,因不能充分利用资料提供的信息,会使检验效能低于非参数检验;若要使检验效能相同,往往需要更大的样本含量。

配对设计的符号秩和检验

Wilcoxon符号秩和检验(Wilcoxon signed rank test)是推断其差值是否来自中位数为零的总体的方法,可用于配对设计差值的比较和单一样本与总体中位数的比较。

(一)基本思想 其假设

是差值的总体中位数等于0,备择假设

是差别的总体中位数不等于0,如果差别太大,就拒绝

;反之,不拒绝

(二)方法步骤:1,建立检验假设,确定检验水准;2,计算检验统计量T值:a,求各对的差值;b,编秩;c,求秩和,确定统计量T;3,确定P值,做出推断结论。

完全随机设计两样本比较的秩和检验

亦称两个样本比较的秩和检验,利用两样本观察值的秩和来推断样本分别代表的总体分布是否相同。

成组设计多样本比较的秩和检验

利用多个样本的秩和来推断各样本分别代表的总体的分布有无差别。

配伍组设计的秩和检验M检验

秩和检验步骤:

(1) 建立检验假设,确定检验水准。

H0:?和?的?总体分布相同。

H1:?和?的?总体分布不同。

(2) 计算统计量T值。

1)编秩 将2组数据由小到大统一编秩,相同数据取平均秩次。

2)求秩和,确定统计量T 2组秩次分别相加,若两组例数相等,则任取一组的秩和为统计量;若两组例数不等,则以样本例数较小者对应的秩和为统计量。

3)确定P值,做出推断结论。

查T界值表(成组设计用),若T值在界值范围内,P>0.05,按α=0.05检验水准,不拒绝H0,可以认为两者的总体分布相同;若T值<=界值或在界值范围外,P<=0.05,按α=0.05检验水准,,拒绝H0,接受H1,可以认为两的分布位置不同。

如n1或n2-n1超出了成组设计T界值的范围,可用正态近似检验:

如相同秩次较多(>25%),应校正:

uc=?>1.96,P<0.05。按α=0.05检验水准,,拒绝H0,接受H1,可以认为两的分布位置不同。

非参数统计检验的适用条件:

(1)资料不符合参数统计法的应用条件(总体为正态分布、且方差相等)或总体分布类型未知;(2)等级资料;(3)分布呈明显偏态又无适当的变量转换方法使之满足参数统计条件;(4)在资料满足参数检验的要求时,应首选参数法,以免降低检验效能。

直线回归方程的应用

(1)定量描述两变量之间的依存关系;(2)利用回归议程进行预测;(3)利用回归议程进行统计控制。

应用直线回归的注意事项:

(1)作回归分析要有实际意义;

(2)直线回归分析的资料,一般要求因变量Y是来自正态分布总体的随机变量,自变量X可以是正态随机变量,也可以是精确测量和严格控制的值.

(3)进行回归分析时,应先绘制散点图,如提示有直线趋势,可作线性回归分析,否则应考虑作数据转换或进行非线性回归;

(4)对离群值应检查核对,予以修正或剔除;

(5)回归直线不要外延。

简述直线相关与回归的区别与应用。

答:区别:(1)资料要求不同,相关要求两个变量是双变量正态分布;回归要求应变量Y服从正态分布,而自变量X是能精确测量和严格控制的变量。(2)统计意义不同,相关反映两变量间的伴随关系这种关系是相互的,对等的;不一定有因果关系;回归则反映两变量间的依存关系,有自变量与应变量之分,一般将“因”或较易测定、变异较小者定为自变量。这种依存关系可能是因果关系或从属关系。(3)分析目的不同,相关分析的目的是把两变量间直线关系的密切程度及方向用一统计指标表示出来;回归分析的目的则是把自变量与应变量间的关系用函数公式定量表达出来。

联系:(1)变量间关系的方向一致,对同一资料,其r与b的正负号一致。(2)假设检验等价,对同一样本,tr=tb,由于tb计算较复杂,实际中常以r的假设检验代替对b的检验。(3)相关和回归可以相互解释,相关系数的平方r2(又称决定系数)是回归平方和与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分。(4)对于II型回归,r与b值可相互换算,

简述相关系数和回归系数的联系与区别。

答:区别:(1)两种系数的意义不同:回归系数是表明两个变量之间数量上的依存关系,回归系数越大回归直线越陡峭,表示应变量随自变量变化越快;相关系数是表明两个变量之间相关的方向和紧密程度的,相关系数越大,两个变量的关联程度越大。(2)r与b有区别,回归系数b表示X每增(减)一个单位,Y平均改变b个单位;相关系数r说明具有直线关系,收集整理的两个变量间相关关系的密切程度与相关方向。(3)计算公式不一样

。(4)取值范围不一样:-∞<b<+∞,-1≤r≤1。(5)单位不同:b有单位,r没有单位。

联系:(1) r与b值可相互换算,

;(2) r与b正负号一致;(3)r与b的假设检验等价;(4)回归可解释相关。相关系数的平方r2(又称决定系数)是回归平方和与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分。

判别分析:是根据一批已知类别的样品多指标观察数据,制定出一个分类标准,以指导对未知类别煌新个体归类的多元统计分析方法。

协方差分析:是把直线回归分析与方差分析结合焉的一种统计分析方法,用来消除混杂因素对处理效应的影响,提高分析结果的真实性,属多元统计方法范畴。

思想:将因变量Y的残差分为两部分,即为修正均数间的变异和组内残差。应用条件:A.各样本来自正态分布总体,且总体方差相等;B.各处理组的总体直线回归系数相等,且都不为0。

Fisher准则:从方差分析的观点,要求投影点的类间方差与类内方差之比最大。

猜你喜欢

转载自blog.csdn.net/qq_67692062/article/details/134905503