第二次任务

目录

  • 中心极限定理
  • 随机抽样
  • 置信区间

第一部分—中心极限定理

中心极限定理是统计学中的一个非常重要的定理,与大数定理描述某个值的收敛趋势不同,中心极限定理描述的是某种形式的随机变量之和的分布。

什么是中心极限定理

中心极限定理指的是给定一个任意分布的总体,从总体中随机抽取样本量为n的样本,一共抽取N次,然后求出N组样本的均值,这些样本的均值的分布接近正态分布。简而言之,不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。
举个小例子:比如要统计中国人的身高,想知道中国人的平均身高。一个一个的量肯定是不现实的,所以需要抽样调查,抽取一定容量的样本,比如每组抽取100个人,一共抽取5000组,求出每组个体的平均身高,根据中心极限定理,这些平均身高呈现出正态分布。数据越多,越接近正态分布。最后,我们就可以用样本均值来估计总体的均值。
注:使用中心极限定理时,并不要求总体本身服从正态分布,可以是任意分布,每组的容量要足够大,但也不要太大,一般认为是大于30即可

第二部分—随机抽样

我们想研究一个总体的某些参数,比如说,均值(平均特征)、方差(分散特征)、中位数、众数,不可能把总体的每一个个体都一一研究,只能抽样,抽取的样本能代表总体,有两个条件:一是抽样的这个个体必须是随机的;二是样本中的每个个体被抽中的概率相同。所有顾名思义,“随机抽样”。比如,我们抽取了一个样本量为n的随机样本,即为 X 1 , X 2 ,   , X n X_{1},X_{2},\cdots ,X_{n} ,其中,每个 X i X_{i} ,i=1,2,…,n,为一个服从总体分布的随机变量,而每一个随机变量都是独立同分布的。一般而言,在概率论中,我们都假设总体服从某一分布,然后研究它的特性和相关计算。虽然我们不知道总体的分布,但它却是本身存在的,我们做抽样,就是要用抽取样本的特性来估计总体的特性。我们需要随机抽样,这些被抽取出来的样本,每个都是一个随机变量,它们之间是相互独立且同分布与总体的分布的。反过来说,总体分布和这些随机变量的分布也是同分布的,从这里也许我们可以发掘出一些抽样数据的意义。
我们首先要区别总体和样本关于某些特性的不同,下面列举三个最常见最重要的三个特征–平均特征、分散性特征、分布比例特征:
在这里插入图片描述
总体的参数,比如,均值,方差都是固定值,但是抽取样本的统计量,根据抽取的样本的变化,会得到不同的结果,进一步说,抽样统计量是一个随机变量,而且是服从总体分布的随机变量,我们将抽样统计量的分布情况,叫做抽样分布
点估计量:所谓点估计就是由样本x1,x2,…xn确定一个统计量 用它来估计总体的未知参数 ,称为总体参数的估计量。当具体的样本抽出后,可求出样本参数的值。用它做为总体参数的估计值,称做总体参数的点估计,实际上它就是总体未知参数的近似值。

总体均值的点估计量

用样本均值估计总体均值,即 μ ^ = x ˉ \hat{\mu }=\bar{x}
其中,样本均值 x ˉ = x n \bar{x}=\frac{\sum x}{n}

总体方差的点估计量

*不能有惯性思维,认为样本均值可以估计总体均值,那样本方差就可以估计总体方差。Why?因为数据集的方差所度量的是数值与均值的偏离程度,样本所含的数据量一般要远远小于总体所包含的数据量,因此,与总体中的数值偏离均值的程度相比,样本中的数据更有可能分布在均值周围,也就是说,样本包含极端值的可能性较小,所以样本方差估计的结果会偏小
一般的,我们用, σ 2 ^ = ( x x ˉ ) 2 n 1 \hat{\sigma ^{2}}=\frac{\sum (x-\bar{x})^{2}}{n-1}
σ 2 ^ \hat{\sigma ^{2}} 为基于样本的总体方差点估计量,这个公式与样本的方差公式很像,但比样本方差更接近总体方差。
总体方差的点估计量通常用 s 2 s^{2} 表示,有 σ 2 ^ = s 2 \hat{\sigma ^{2}}=s^{2} 其中, s 2 = ( x x ˉ ) 2 n 1 s^{2}=\frac{\sum (x-\bar{x})^{2}}{n-1}

均值的抽样分布

我们从所有的样本中得到的样本均值形成一个分布,即为均值的抽样分布。设x1,x2,x3,…,xn为X的独立观察结果,因此,每一个观察结果具有相同的期望和方差。之前,讲过独立观察结果的期望和方差的计算方法。
首先,写出 x ˉ \bar{x} 的计算公式 x ˉ = X 1 + X 2 + + X n n \bar{x}=\frac{X_{1}+X_{2}+\cdots +X_{n}}{n} 期望 E ( x ˉ ) E(\bar{x}) E ( x ˉ ) = E ( X 1 + X 2 + + X n n ) E(\bar{x})=E(\frac{X_{1}+X_{2}+\cdots +X_{n}}{n})
最后有, E ( X ˉ ) = 1 n ( n μ ) = μ E(\bar{X})=\frac{1}{n}(n\mu )=\mu
同理,方差 σ 2 \sigma ^{2} 的计算公式为 V a r ( X ˉ ) = V a r ( X 1 + X 2 + + X n n ) = V a r ( X 1 + X 2 + X n ) n 2 Var(\bar{X})=Var(\frac{X_{1}+X_{2}+\cdots +X_{n}}{n})=\frac{Var(X_{1}+X_{2}+\cdots X_{n})}{n^{2}}
最后有, V a r ( X ˉ ) = V a r ( X 1 + X 2 + X n ) n 2 = σ 2 n Var(\bar{X})=\frac{Var(X_{1}+X_{2}+\cdots X_{n})}{n^{2}}=\frac{\sigma ^{2}}{n}
根据中心极限定理,如果X的样本很大,则 X ˉ \bar{X} 的分布近似为正态分布。
1.二项分布的均值:
如果有 X B ( n , p ) X\sim B(n,p) ,其中n大于30(此处我在前面的中心极限定理里强调过),我们已经知道, μ = n p , σ 2 = n p ( 1 p ) \mu =np,\sigma ^{2}=np(1-p) ,根据中心极限定理,有, X ˉ N ( n p , p ( 1 p ) ) \bar{X}\sim N(np,p(1-p))
2.泊松分布的均值:
如果有 X P o ( λ ) X\sim Po(\lambda ) ,n大于30,同时, μ = σ 2 = λ \mu=\sigma ^{2}=\lambda ,根据中心极限定理,有, X ˉ N ( λ , λ n ) \bar{X}\sim N(\lambda,\frac{\lambda }{n})

第三部分—置信区间

为什么要引进置信区间

当总体的规模较大时,我们常常用采用抽样统计的方法,用点估计量估计总体均值、方差。但对于研究数学的人来说,这样做似乎不太严谨,样本的选取也会影响最后的结果。那我们想,与其给出一个精确值作为总体均值的估计值,不如采用另外一种方法,指定一个区间,使得总体均值在这个区间内。

置信水平和置信区间

1. 定义
设总体X的分布函数F(X; θ \theta ), θ \theta 未知,对给定值 α ( ( 0 < α < 1 ) ) \alpha((0<\alpha<1) ) ,有两个统计量 θ ^ L = θ ^ L ( X 1 ,   , X n ) \hat{\theta }_{L}=\hat{\theta }_{L}(X_{1},\cdots ,X_{n}), θ ^ U = θ ^ U ( X 1 ,   , X n ) \hat{\theta }_{U}=\hat{\theta }_{U}(X_{1},\cdots ,X_{n}), 使得 P { θ ^ L ( X 1 ,   , X n ) < θ < θ ^ U ( X 1 ,   , X n ) } 1 α P\left \{ \hat{\theta }_{L}(X_{1},\cdots ,X_{n})< \theta < \hat{\theta }_{U}(X_{1},\cdots ,X_{n}) \right \}\geq 1-\alpha ( θ ^ L , θ ^ U ) (\hat{\theta }_{L},\hat{\theta }_{U}) 称为 θ \theta 的置信水平为 1 α 1-\alpha 的双侧置信区间; θ ^ L , θ ^ U \hat{\theta }_{L},\hat{\theta }_{U} 分别为双置信下限和双置信上限。
2.求解置信区间

  1. 选择总体统计量
  2. 求出其抽样分布
  3. 决定置信水平
  4. 求出置信上下限

举个栗子:
比如,我们测试了一款糖果的口味持续时间均值的点估计量为62.7分钟,同时总体方差的点估计量为25分钟。现在我们要求出口味持续时间均值的置信区间。

  1. 选择总体统计量,这里我们选择为口香糖口味持续时间的均值构建一个置信区间,就是为总体均值 μ \mu 构建一个置信区间。
  2. 求出所选统计量的抽样分布。根据前面的知识,我们已经知道,均值的抽样分布的期望和方差为: E ( X ˉ ) = μ E(\bar{X})=\mu V a r ( X ˉ ) = σ 2 n Var(\bar{X})=\frac{\sigma ^{2}}{n} μ \mu 的值未知, σ 2 \sigma ^{2} 的值可以根据样本进行估计。此时 X ˉ N ( μ , s 2 n ) \bar{X}\sim N(\mu ,\frac{s^{2}}{n})
  3. 决定置信水平。置信水平说明这个置信区间包含总体统计量的可能性大小。这里设置为95%,表明总体均值处于置信区间中的概率为0.95.置信区间越宽,置信区间包含总体的几率越大。但置信区间太宽的话,就会失去意义。
  4. 求出置信上下限。通过计算,我们知道, X ˉ N ( μ , 0.25 ) \bar{X}\sim N(\mu ,0.25) 在这里插入图片描述
    图片来源:http://www.360doc.com/content/18/0317/16/15033922_737796626.shtml
    利用 X ˉ \bar{X} 的分布我们可以求出a和b的值。为了能够利用正态表,先要对 X ˉ \bar{X} 进行标准化, Z = X ˉ μ 0.25 Z=\frac{\bar{X}-\mu }{\sqrt{0.25}} 其中, Z Z\sim N(0,1)
    此时,P(a<Z<b)=0.95.

猜你喜欢

转载自blog.csdn.net/weixin_40238600/article/details/85875155