目录
- 中心极限定理
- 随机抽样
- 置信区间
第一部分—中心极限定理
中心极限定理是统计学中的一个非常重要的定理,与大数定理描述某个值的收敛趋势不同,中心极限定理描述的是某种形式的随机变量之和的分布。
什么是中心极限定理
中心极限定理指的是给定一个任意分布的总体,从总体中随机抽取样本量为n的样本,一共抽取N次,然后求出N组样本的均值,这些样本的均值的分布接近正态分布。简而言之,不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。
举个小例子:比如要统计中国人的身高,想知道中国人的平均身高。一个一个的量肯定是不现实的,所以需要抽样调查,抽取一定容量的样本,比如每组抽取100个人,一共抽取5000组,求出每组个体的平均身高,根据中心极限定理,这些平均身高呈现出正态分布。数据越多,越接近正态分布。最后,我们就可以用样本均值来估计总体的均值。
注:使用中心极限定理时,并不要求总体本身服从正态分布,可以是任意分布,每组的容量要足够大,但也不要太大,一般认为是大于30即可
第二部分—随机抽样
我们想研究一个总体的某些参数,比如说,均值(平均特征)、方差(分散特征)、中位数、众数,不可能把总体的每一个个体都一一研究,只能抽样,抽取的样本能代表总体,有两个条件:一是抽样的这个个体必须是随机的;二是样本中的每个个体被抽中的概率相同。所有顾名思义,“随机抽样”。比如,我们抽取了一个样本量为n的随机样本,即为
,其中,每个
,i=1,2,…,n,为一个服从总体分布的随机变量,而每一个随机变量都是独立同分布的。一般而言,在概率论中,我们都假设总体服从某一分布,然后研究它的特性和相关计算。虽然我们不知道总体的分布,但它却是本身存在的,我们做抽样,就是要用抽取样本的特性来估计总体的特性。我们需要随机抽样,这些被抽取出来的样本,每个都是一个随机变量,它们之间是相互独立且同分布与总体的分布的。反过来说,总体分布和这些随机变量的分布也是同分布的,从这里也许我们可以发掘出一些抽样数据的意义。
我们首先要区别总体和样本关于某些特性的不同,下面列举三个最常见最重要的三个特征–平均特征、分散性特征、分布比例特征:
总体的参数,比如,均值,方差都是固定值,但是抽取样本的统计量,根据抽取的样本的变化,会得到不同的结果,进一步说,抽样统计量是一个随机变量,而且是服从总体分布的随机变量,我们将抽样统计量的分布情况,叫做抽样分布。
点估计量:所谓点估计就是由样本x1,x2,…xn确定一个统计量 用它来估计总体的未知参数 ,称为总体参数的估计量。当具体的样本抽出后,可求出样本参数的值。用它做为总体参数的估计值,称做总体参数的点估计,实际上它就是总体未知参数的近似值。
总体均值的点估计量
用样本均值估计总体均值,即
其中,样本均值
总体方差的点估计量
*不能有惯性思维,认为样本均值可以估计总体均值,那样本方差就可以估计总体方差。Why?因为数据集的方差所度量的是数值与均值的偏离程度,样本所含的数据量一般要远远小于总体所包含的数据量,因此,与总体中的数值偏离均值的程度相比,样本中的数据更有可能分布在均值周围,也就是说,样本包含极端值的可能性较小,所以样本方差估计的结果会偏小
一般的,我们用,
为基于样本的总体方差点估计量,这个公式与样本的方差公式很像,但比样本方差更接近总体方差。
总体方差的点估计量通常用
表示,有
其中,
均值的抽样分布
我们从所有的样本中得到的样本均值形成一个分布,即为均值的抽样分布。设x1,x2,x3,…,xn为X的独立观察结果,因此,每一个观察结果具有相同的期望和方差。之前,讲过独立观察结果的期望和方差的计算方法。
首先,写出
的计算公式
期望
为
最后有,
同理,方差
的计算公式为
最后有,
根据中心极限定理,如果X的样本很大,则
的分布近似为正态分布。
1.二项分布的均值:
如果有
,其中n大于30(此处我在前面的中心极限定理里强调过),我们已经知道,
,根据中心极限定理,有,
2.泊松分布的均值:
如果有
,n大于30,同时,
,根据中心极限定理,有,
第三部分—置信区间
为什么要引进置信区间
当总体的规模较大时,我们常常用采用抽样统计的方法,用点估计量估计总体均值、方差。但对于研究数学的人来说,这样做似乎不太严谨,样本的选取也会影响最后的结果。那我们想,与其给出一个精确值作为总体均值的估计值,不如采用另外一种方法,指定一个区间,使得总体均值在这个区间内。
置信水平和置信区间
1. 定义
设总体X的分布函数F(X;
),
未知,对给定值
,有两个统计量
使得
则
称为
的置信水平为
的双侧置信区间;
分别为双置信下限和双置信上限。
2.求解置信区间
- 选择总体统计量
- 求出其抽样分布
- 决定置信水平
- 求出置信上下限
举个栗子:
比如,我们测试了一款糖果的口味持续时间均值的点估计量为62.7分钟,同时总体方差的点估计量为25分钟。现在我们要求出口味持续时间均值的置信区间。
- 选择总体统计量,这里我们选择为口香糖口味持续时间的均值构建一个置信区间,就是为总体均值 构建一个置信区间。
- 求出所选统计量的抽样分布。根据前面的知识,我们已经知道,均值的抽样分布的期望和方差为: 的值未知, 的值可以根据样本进行估计。此时
- 决定置信水平。置信水平说明这个置信区间包含总体统计量的可能性大小。这里设置为95%,表明总体均值处于置信区间中的概率为0.95.置信区间越宽,置信区间包含总体的几率越大。但置信区间太宽的话,就会失去意义。
- 求出置信上下限。通过计算,我们知道,
图片来源:http://www.360doc.com/content/18/0317/16/15033922_737796626.shtml
利用 的分布我们可以求出a和b的值。为了能够利用正态表,先要对 进行标准化, 其中, N(0,1)
此时,P(a<Z<b)=0.95.