抽样分布的概念

随机抽样(Random Sampling)和随机变量(Random Variable)

我们想研究一个总体(Population)或叫母体的某些参数(Parameter)，比如均值（平均特征）、方差（分散的特征）、中位数（比例的特征），我们很多情况下，不能把所有的个体分别研究，例如我们想研究中国的成年女性罩杯的大小，总不能把所有中国女人的胸都两个两个拿来测吧？所以，我们只能抽样。相对的，如果全面地，一个一个地查，那叫普查。通常，样本总体可能太大，甚至就是抽象无限的，所以普查不可行，我们只能抽样。可是，我们要研究的是总体的特征啊，你只给我个抽样的，你怎么给我保证，你的抽样能代表总体？这是一个关键的问题，这里有两个前提，第一是，抽样这个行为必须是随机的；第二是，样本中的每个个体有相同的概率被抽中。这两点可以统一归纳为一个名词–随机抽样(Random Sampling)。通过随机抽样抽出的样本，例如，我们抽 $n$ 个，他们就是这个总体的容量为 $n$ 的随机样本，记为

X_{1}, X_{2}, X_{3}, \dots, X_{n},

$X_1,X_2,X_3, \cdots ,X_n,$ 其中每个

X_{i}, i = 1, 2, \dots, n

$X_i,i=1,2,\cdots ,n$ 为一个服从总体分布的 随机变量(Random Variable)，每一个随机变量是 独立同分布(Independent and Identically Distributed,i.i.d. or iid or IID)的。什么是独立？独立就是抽取样本的这个行为互相之间没有影响。可是我们都知道，在概率论里我们经常研究的抽小球的问题中，如果小球抽出不放回，则每次的抽取是会影响总体分布的，不同的抽取实验之间也是不独立的。而很多时候我们抽样是不放回的，例如，意见征求的调查中，我们不希望重复问到一个人，这样的抽样是不放回的。所以照这样分析，这个抽样是独立的吗？实际上，对于抽样我们有一个隐含的 无限总体假设，那就是当样本数

n

$n$ 和总体个数

N

$N$ 之比小于

5 %

$5\%$ 时，即

\frac{n}{N} < 0.05

$\frac{n}{N}<0.05$ 时，可以认为总体是无限的，此时抽取出来的样本可以视作对总体分布无影响。那什么是同分布呢？先啰嗦地说一下变量服从分布是什么意思吧。我自己在这一点的理解一开始就是有偏差的，我当时想不明白一个随机变量服从分布是什么意思，一个分布不是要画成一条曲线吗，至少应该有很多点才可以描成一条曲线，然后画出来的曲线像是某个分布的曲线才叫服从吧。实际上，一个变量确实是没办法画成一条曲线，但是却不妨碍它成为曲线的一部分，而我们知道，例如正态分布(Normal Distribution)的曲线，是中间高，两边矮，意思是说在中间分布的比较密集，两边比较稀疏，我们的变量服从这个分布，要求的是抽取出来的这个变量的属性会符合这个分布所描述的特性，例如从所有中国成年男性随机抽取一个人，按照总体的分布，这个人的身高在

170 c m

$170cm$ 概率是比较高的，如果这个人的身高是一个服从总体分布的随机变量，那么这个变量的取值的概率应该是和总体取各值的概率是相近的，这样就叫服从分布。所以，这些随机变量同分布的意思就是，他们取到各个值的概率，都符合总体分布中取到各个值的概率。

一般大学里都是先教概率论再教统计，所以有时候容易忽略总体的数据是难以获得的这一现实，因为在概率论中我们都假设总体就服从某一分布，然后来研究它的一些特性和相关定理和计算的问题。虽然我们不知道总体的分布，但它却是本身就存在的，我们做抽样，就是要用抽样样本的统计特性去估计总体的特性。也是为了达成这个目的，我们需要随机抽样，这些被抽取出来的样本，每个都是一个随机变量，它们之间是相互独立且同分布与总体的分布的。反过来说，总体分布和这些随机变量的分布也是同分布的，从这里也许我们可以发掘出一些抽样数据的意义。

抽样分布大致概念

我们首先要区别总体和样本关于某些特性的不同，下面列举三个最常见最重要的三个特征–平均特征、分散性特征、分布比例特征：

\begin{array}{cc} 总体参数 & 样本统计量 \\ μ & \bar{X} \\ σ & S^{2} \\ p & \hat{p} \end{array}

$\begin{array}{c|c} \text{总体参数} & \text{样本统计量} \\ \hline \mu & \bar{X} \\ \sigma & S^2 \\ p & \hat{p} \end{array}$
上表从上到下分别对应均值、方差、比例三个特性，在总体中我们管它们叫参数，在抽样的样本中我们叫统计量。它们有什么区别？总体的这些参数，之所以敢叫参数，是因为它们是有把握确定的。例如统计全体中国公民的身高，我把十三四亿人的身高全测了一遍，一个不漏，来算平均值，我可以很有自信的说，这就是中国所有公民的平均身高。这样算出来的均值，它可以为你研究这个总体提供一个参考，因此也配得上叫参数。但样本就不一样所以，首先样本容量肯定是小于而且基本上是远小于总体容量的，比方说我们样本容量

n = 500

$n=500$ 好了，那么我一次抽500个人，有可能求出来的平均身高是

175 c m

$175cm$ ，可是我下一次抽，可能只有

160 c m

$160cm$ 了。

所以说，总体的参数，是这个总体固有的，与生俱来的，例如给定一个总体的身高，它的平均身高也就定了，而抽样的统计量却是根据抽样不同而不同的，可能有时候抽的高有时候抽的矮，是有误差的。更进一步的，这些抽样的统计量，如 $\bar{X},S^2,\hat{p}$ ，它们还是随机变量。例如，总体是中国全体公民，每次抽500个人算平均身高（就把每个样本身高累加除以500），这个身高是一个随机变量（实际上，它就是这些样本的函数，当然会是随机变量，因为这些样本都是服从整体分布的随机变量），这个随机变量可能大可能小，但它服从一定的分布。这些抽样统计量的分布情况，就叫做抽样分布。

抽样分布–统计量的分布

有了以上的基础，我们以统计量的均值和方差为例，简要讨论它们的抽样分布。它们的计算式如下：

\bar{X} = \sum_{i = 1}^{n} X_{i}

$\bar{X}=\sum_{i=1}^{n}X_{i}$

S^{2} = \frac{\sum_{i = 1}^{n} X_{i} - \bar{X}}{(n - 1)}

$S^2=\frac{\sum_{i=1}^{n}X_{i}-\bar{X}}{(n-1)}$
样本均值很好理解，就是把所有的样本值相加除以样本容量。但方差要除以

n - 1

$n-1$ 可能就不太好理解了。既然说讨论分布，我们理所应当就应该讨论一下它们的特性，例如均值，方差等。

对，就是要讨论“均值的均值”。

我们说了，以测量身高为例，可能这个均值一会儿大一会儿小，因此，单个样本的均值是没多大意义的。但是我们也说了这个样本的均值是服从一定分布的。例如我们原来的样本服从标准正态分布，那么可以想象的是这个均值也一定会服从正态分布，不过就不一定是标准的了。还是以身高为例吧，假设我们的样本容量是500，我们就把抽500个人测身高算一次实验，那么我们做多次实验，每次实验算平均身高，再把这些平均身高再平均一次，假设我们的实验足够多，最后肯定会得到跟总体一样的平均身高吧。这其实说明了一件事，那就是

E [\bar{X}] = μ

$E[\bar{X}]=\mu$ 即样本的均值的期望等于总体的期望。可以这样理解，对，我们抽500个人，是偶尔会抽到高一点的500个人，但总不可能每次都抽到的都高吧，同理，不可能每次抽到的都矮吧（这里高矮相对总体期望而言），肯定是各种情况都有一点，但是，综合起来，肯定是跟总体的期望差不多的。

那如何理解方差的计算呢？方差就是差异的大小嘛，差异就是跟期望比嘛，我们实在是没有期望，就只好和样本均值比咯。但是我认为关键的地方是要理解为什么要除以一个数。我们还是抽500个人，在中国，要你在街上找1个185的人，很轻松吧，至少不难。要你同时找10个，平均身高185，可能有点难，但还是可能的。这时，我告诉你，给我找500个平均身高185的人……拜托，中国成年男性2010年人口普查平均身高才167……所以嘛，如果500个人，均值要为185，是比随机抽一个人，或10个人均值为185的难度都要大很多对不对，因此，它肯定是更集中分布，也就是那种本来总体就比较少的情况，在样本的均值里面更加小概率出现了。因此它的方差肯定是更小了，要除一个数，那么除什么呢，除 $n-1$ 。为什么？可以看这里
暂时没时间写了，遛了……

随机抽样(Random Sampling)和随机变量(Random Variable)

抽样分布大致概念

抽样分布–统计量的分布

猜你喜欢