第二次任务

目录

中心极限定理

随机抽样

置信区间

第一部分—中心极限定理

中心极限定理是统计学中的一个非常重要的定理，与大数定理描述某个值的收敛趋势不同，中心极限定理描述的是某种形式的随机变量之和的分布。

什么是中心极限定理

中心极限定理指的是给定一个任意分布的总体，从总体中随机抽取样本量为n的样本，一共抽取N次，然后求出N组样本的均值，这些样本的均值的分布接近正态分布。简而言之，不管总体是什么分布，任意一个总体的样本平均值都会围绕在总体的整体平均值周围，并且呈正态分布。
举个小例子：比如要统计中国人的身高，想知道中国人的平均身高。一个一个的量肯定是不现实的，所以需要抽样调查，抽取一定容量的样本，比如每组抽取100个人，一共抽取5000组，求出每组个体的平均身高，根据中心极限定理，这些平均身高呈现出正态分布。数据越多，越接近正态分布。最后，我们就可以用样本均值来估计总体的均值。
注：使用中心极限定理时，并不要求总体本身服从正态分布，可以是任意分布，每组的容量要足够大，但也不要太大，一般认为是大于30即可

第二部分—随机抽样

我们想研究一个总体的某些参数，比如说，均值（平均特征）、方差（分散特征）、中位数、众数，不可能把总体的每一个个体都一一研究，只能抽样，抽取的样本能代表总体，有两个条件：一是抽样的这个个体必须是随机的；二是样本中的每个个体被抽中的概率相同。所有顾名思义，“随机抽样”。比如，我们抽取了一个样本量为n的随机样本，即为 $X_{1},X_{2},\cdots ,X_{n}$ ，其中，每个 $X_{i}$ ，i=1,2,…,n，为一个服从总体分布的随机变量,而每一个随机变量都是独立同分布的。一般而言，在概率论中，我们都假设总体服从某一分布，然后研究它的特性和相关计算。虽然我们不知道总体的分布，但它却是本身存在的，我们做抽样，就是要用抽取样本的特性来估计总体的特性。我们需要随机抽样，这些被抽取出来的样本，每个都是一个随机变量，它们之间是相互独立且同分布与总体的分布的。反过来说，总体分布和这些随机变量的分布也是同分布的，从这里也许我们可以发掘出一些抽样数据的意义。
我们首先要区别总体和样本关于某些特性的不同，下面列举三个最常见最重要的三个特征–平均特征、分散性特征、分布比例特征：
在这里插入图片描述
总体的参数，比如，均值，方差都是固定值，但是抽取样本的统计量，根据抽取的样本的变化，会得到不同的结果，进一步说，抽样统计量是一个随机变量，而且是服从总体分布的随机变量，我们将抽样统计量的分布情况，叫做抽样分布。
点估计量：所谓点估计就是由样本x1,x2,…xn确定一个统计量用它来估计总体的未知参数，称为总体参数的估计量。当具体的样本抽出后，可求出样本参数的值。用它做为总体参数的估计值，称做总体参数的点估计，实际上它就是总体未知参数的近似值。

总体均值的点估计量

用样本均值估计总体均值，即 $\hat{\mu }=\bar{x}$
其中，样本均值 $\bar{x}=\frac{\sum x}{n}$

总体方差的点估计量

*不能有惯性思维，认为样本均值可以估计总体均值，那样本方差就可以估计总体方差。Why?因为数据集的方差所度量的是数值与均值的偏离程度，样本所含的数据量一般要远远小于总体所包含的数据量，因此，与总体中的数值偏离均值的程度相比，样本中的数据更有可能分布在均值周围，也就是说，样本包含极端值的可能性较小，所以样本方差估计的结果会偏小
一般的，我们用， $\hat{\sigma ^{2}}=\frac{\sum (x-\bar{x})^{2}}{n-1}$
$\hat{\sigma ^{2}}$ 为基于样本的总体方差点估计量，这个公式与样本的方差公式很像，但比样本方差更接近总体方差。
总体方差的点估计量通常用 $s^{2}$ 表示，有 $\hat{\sigma ^{2}}=s^{2}$ 其中， $s^{2}=\frac{\sum (x-\bar{x})^{2}}{n-1}$

均值的抽样分布

我们从所有的样本中得到的样本均值形成一个分布，即为均值的抽样分布。设x1,x2,x3,…,xn为X的独立观察结果，因此，每一个观察结果具有相同的期望和方差。之前，讲过独立观察结果的期望和方差的计算方法。
首先，写出 $\bar{x}$ 的计算公式 $\bar{x}=\frac{X_{1}+X_{2}+\cdots +X_{n}}{n}$ 期望 $E(\bar{x})$ 为 $E(\bar{x})=E(\frac{X_{1}+X_{2}+\cdots +X_{n}}{n})$
最后有， $E(\bar{X})=\frac{1}{n}(n\mu )=\mu$
同理，方差 $\sigma ^{2}$ 的计算公式为 $Var(\bar{X})=Var(\frac{X_{1}+X_{2}+\cdots +X_{n}}{n})=\frac{Var(X_{1}+X_{2}+\cdots X_{n})}{n^{2}}$
最后有， $Var(\bar{X})=\frac{Var(X_{1}+X_{2}+\cdots X_{n})}{n^{2}}=\frac{\sigma ^{2}}{n}$
根据中心极限定理，如果X的样本很大，则 $\bar{X}$ 的分布近似为正态分布。
1.二项分布的均值：
如果有 $X\sim B(n,p)$ ，其中n大于30（此处我在前面的中心极限定理里强调过），我们已经知道， $\mu =np,\sigma ^{2}=np(1-p)$ ,根据中心极限定理，有， $\bar{X}\sim N(np,p(1-p))$
2.泊松分布的均值：
如果有 $X\sim Po(\lambda )$ ，n大于30，同时， $\mu=\sigma ^{2}=\lambda$ ，根据中心极限定理，有， $\bar{X}\sim N(\lambda,\frac{\lambda }{n})$

第三部分—置信区间

为什么要引进置信区间

当总体的规模较大时，我们常常用采用抽样统计的方法，用点估计量估计总体均值、方差。但对于研究数学的人来说，这样做似乎不太严谨，样本的选取也会影响最后的结果。那我们想，与其给出一个精确值作为总体均值的估计值，不如采用另外一种方法，指定一个区间，使得总体均值在这个区间内。

置信水平和置信区间

1. 定义
设总体X的分布函数F(X; $\theta$ )， $\theta$ 未知，对给定值 $\alpha((0<\alpha<1) )$ ，有两个统计量 $\hat{\theta }_{L}=\hat{\theta }_{L}(X_{1},\cdots ,X_{n})，$ $\hat{\theta }_{U}=\hat{\theta }_{U}(X_{1},\cdots ,X_{n})，$ 使得 $P\left \{ \hat{\theta }_{L}(X_{1},\cdots ,X_{n})< \theta < \hat{\theta }_{U}(X_{1},\cdots ,X_{n}) \right \}\geq 1-\alpha$ 则 $(\hat{\theta }_{L},\hat{\theta }_{U})$ 称为 $\theta$ 的置信水平为 $1-\alpha$ 的双侧置信区间； $\hat{\theta }_{L},\hat{\theta }_{U}$ 分别为双置信下限和双置信上限。
2.求解置信区间

选择总体统计量
求出其抽样分布
决定置信水平
求出置信上下限

举个栗子：
比如，我们测试了一款糖果的口味持续时间均值的点估计量为62.7分钟，同时总体方差的点估计量为25分钟。现在我们要求出口味持续时间均值的置信区间。

选择总体统计量，这里我们选择为口香糖口味持续时间的均值构建一个置信区间，就是为总体均值 $\mu$ 构建一个置信区间。
求出所选统计量的抽样分布。根据前面的知识，我们已经知道，均值的抽样分布的期望和方差为： $E(\bar{X})=\mu$ $Var(\bar{X})=\frac{\sigma ^{2}}{n}$ $\mu$ 的值未知， $\sigma ^{2}$ 的值可以根据样本进行估计。此时 $\bar{X}\sim N(\mu ,\frac{s^{2}}{n})$
决定置信水平。置信水平说明这个置信区间包含总体统计量的可能性大小。这里设置为95%，表明总体均值处于置信区间中的概率为0.95.置信区间越宽，置信区间包含总体的几率越大。但置信区间太宽的话，就会失去意义。
求出置信上下限。通过计算，我们知道， $\bar{X}\sim N(\mu ,0.25)$
图片来源：http://www.360doc.com/content/18/0317/16/15033922_737796626.shtml
利用 $\bar{X}$ 的分布我们可以求出a和b的值。为了能够利用正态表，先要对 $\bar{X}$ 进行标准化， $Z=\frac{\bar{X}-\mu }{\sqrt{0.25}}$ 其中， $Z\sim$ N(0,1)
此时，P(a<Z<b)=0.95.

目录