样本分布

样本既然是随机变量, 就有一定的概率分布, 这个概率分布就叫作样本分布. 样本分布是样本所受随机性影响的最完整的描述.
要决定样本分布, 就要根据观察值的具体指标的性质 (这往往涉及有关的专业知识), 以及对抽样方式和对试验进行的方式的了解, 此外常常还必须加一些人为的假定

EX1:

一大批产品共有 \(N\) 个, 其中废品 M 个, $N $已知, 而 M 未知. 现在从中抽出 \(n\) 个加以检验, 用以估计 M 或废品率 \(p = \frac{M}{N}\)

(1) 有放回抽样, 即每次抽样后记下结果, 然后将其放回去, 再抽第二个, 直到抽完 $n $个为止. 求样本分布.

(2) 不放回抽样, 即一次抽一个, 依次抽取, 直到抽完 \(n\) 个为止.求样本分布.


\(P\left(X_{i}=1\right)=M / N, P\left(X_{i}=0\right)=(N-M)/N\)

\(P\left(X_{1}=x_{1}, \cdots, X_{n}=x_{n}\right)=\left(\frac{M}{N}\right)^{a}\left(\frac{N-M}{N}\right)^{n-a}\)

\(x_1,\dots,x_n\)都为0或者1,\(\sum\limits_{i=1}^{n}x_i=a\)

采用不放回抽样,

\(\sum\limits_{i=1}^{n}x_i=a\)\(x_1,\dots,x_n\)都为0或者1

\(P\left(X_{1}=x_{1}, X_{2}=x_{2}, \cdots, X_{n}=x_{n}\right)\)
\(=\underbrace{\frac{M}{N} \cdot \frac{M-1}{N-1} \cdots \frac{M-a+1}{N-a+1} }_{x_i=1}\cdot \underbrace{\frac{N-M}{N-a} \cdots \frac{N-M-n+a+1}{N-n+1}}_{x_i=0}\)

EX2:

为估计一物件的重量 a, 用一架天平将它重复称 n 次, 结果记为\(X_{1}, \cdots, X_{n}\) , 求样本\(X_{1}, \cdots, X_{n}\) 的联合分布.


(1) 假定各次称重是独立进行的, 即某次称重结果不受其它次称重结果的影响. 这样 \(X_{1}, \cdots, X_{n}\)就可以认为是相互独立的随机变量.

(2) 假定各次称重是在 “相同条件” 下进行的, 可理解为每次用同一天平, 每次称重由同一人操作, 且周围环境 (如温度、湿度等)都相同. 在这个假定下, 可认为 \(X_{1}, \cdots, X_{n}\) 是同分布的. 在上述两个假定下, \(X_{1}, \cdots, X_{n}\) 是 n 个独立同分布的随机变量, 即为简单随机样本.

由概率论中的中心极限定理可知这种误差近似服从正态分布. 再假定天平没有系统误差, 则可进一步假定此误差为均值为 0 的正态分布. 可以把X 1 (它可视为物重 a 加上称量误差之和) 的概率分布为 \(N\left(a, \sigma^{2}\right)\)

\(f\left(x_{1}, \cdots, x_{n}\right)=(\sqrt{2 \pi} \sigma)^{-n} \exp \left\{-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-a\right)^{2}\right\}\)


正态总体样本均值和样本方差的分布

设随机变量\(X_{1}, \cdots, X_{n} i.i.d. \sim N\left(a, \sigma^{2}\right), \quad c_{1}, c_{2}, \cdots, c_{n}\)为常数

\(T=\sum\limits_{k=1}^{n} c_{k} X_{k} \sim N\left(a \sum_{k=1}^{n} c_{k}, \sigma^{2} \sum_{k=1}^{n} c_{k}^{2}\right)\)


\(c_{1}=\cdots=c_{n}=1 / n,T=\frac{1}{n} \sum_{i=1}^{n} X_{i}=\bar{X}\)

\(\bar{X} \sim N\left(a, \sigma^{2} / n\right)\)


猜你喜欢

转载自www.cnblogs.com/zonghanli/p/12375756.html