第三章、估计
统计推断
随机变量
- 离散变量:取值有限
- 连续变量:取值是一个区间内的连续值
样本均值和方差
格利文科定理:随着样本的增加,经验分布函数随着样本的增加而收敛于其真实的分布函数。即,可以用样本的均值代替总体的均值,样本的方差代替总体的方差。
X¯=1n∑i=1nXi
s2=1n−1∑i=1n(Xi−X¯)2
抽样分布复习
卡方分布(n为自由度)
Xi∼N(0,1) X=∑i=1nX2i
X∼χ2(n)
E(X)=n D(X)=2n
- t分布
X∼N(0,1) Y∼χ2(n)
XYn‾‾√∼t(n)
F分布
X∼χ2(n) Y∼χ2(m)
XnYm∼F(n,m)
均值和方差的点估计
根据格利文科定理,用样本的xx代替总体的xx。
均值和方差的区间估计
- 置信区间:在某种程度上确信这个区间会包含真正的总体参数
- 置信水平(置信度):1-α
- 显著性水平:α
中心极限定理与拉普拉斯极限定理:
limn→∞P{∑ni=1Xi−nμn‾√σ}=ϕ(x)
即:
∑ni=1Xi−nμn‾√σ∼N(0,1)
X¯−μσ/n‾√∼N(μ,σ2n) ∗
ps.*式子即为正态单样本总体的一个抽样分布。
拉普拉斯中心极限定理
X~B(n,p),则对于有限区间(a,b):
limn→∞P{a<xn−npnp(1−p)‾‾‾‾‾‾‾‾‾√≤b}=ϕ(b)−ϕ(a)
即:
Xn−npnp(1−p)‾‾‾‾‾‾‾‾‾√∼N(0,1)
Xnn−pp(1−p)/n‾‾‾‾‾‾‾‾‾‾√∼N(0,1)
均值的区间估计:
- 正态总体,方差σ已知(N):根据独立同分布的中心极限定理,样本均值服从以下的分布
X¯−μσ/n‾√∼N(0,1)⟺X¯∼N(μ,σ2n)
−zα2 ≤ X¯−μσ/n‾√ ≤ zα2
⟹X¯−σn‾√zα2 ≤ μ ≤ X¯+σn‾√zα2
X¯−μs/n‾√∼t(n)
−tα2 ≤ X¯−μs/n‾√ ≤ tα2
⟹X¯−σn‾√zα2 ≤ μ ≤ X¯+σn‾√tα2
- 总体比例:依据拉普拉斯定理,p为统计的频率,π为总体的概率,可得
p−πp(1−p)/n‾‾‾‾‾‾‾‾‾‾√∼N(0,1)