【参考资料】
【1】《概率论和梳理统计》
备注: 近期发现参数估计、假设检验相关点还是记不清,抽一点时间根据课本复习一下。
1 总体与样本
定义: 若随机变量$X_1, X_2, \dots , X_3
相互独立,且每一个X_i
与X具有相同的分布,则n维随机变量(X_1, X_2, \dots , X_n)
为来自X的==样本==。它的观测值(x_1, x_2, \dots, x_n)
为==样本观测值==,n为==样本容量==。(X_1, X_2, \dots , X_n)$能取值的全部集合称为样本空间,其观测值为空间中的一个点。
若总体X是连续随机变量,其概率密度函数为f(X),那么
(X1,X2,…,Xn)的联合概率密度为:
f∗(x1,x2,…,xn)=i=1∏nf(xi)
备注:这里要注意的是取样本的时候,每取一次就是一个随机变量,它不同于联合概率分布。
统计量
样本均值:
xˉ=n1i=1∑nxi
样本方差:
Sn2=n1i=1∑n(Xi−Xˉ)2
k阶原点矩:
Ak=n1i=1∑nXik
k阶中心矩:
Bk=n1i=1∑n(Xi−Xˉ)k
2 抽样分布
总体正态分布的线性函数
定理: 设总体符合正态分布
N(u,σ2),
(X1,X2,…,Xn)为来自此总体的样本,那么统计量
Y=i=1∑naiXi也符合正态分布,即
Y∼N(ui=1∑nai,σ2i=1∑nai2)
卡方分布(
χ2分布)
定义: 设随机变量
X1,X2,…,Xn相互独立,且服从标准正态分布N(0,1),则称
χ2=i=1∑nXi2为服从自由度n的
χ分布,记作
χ2∼χ2(n)
性质1:
E(χ2)=n 以及
D(χ2)=2n
性质2: 若
χ12∼χ2(n)、
χ22∼χ2(m),两者相互独立,有
χ12+χ22∼χ2(n+m)
t分布
定义: 设随机变量
X∼N(0,1),
Y∼χ2(n)且X、Y相互独立,称随机变量
T=Y/n
X为自由度为n的t分布,记作
T∼t(n)
性质1: E(T)=0,以及
D(T)=n−2n
性质2: 当
n→∞时,其概率密度函数无限趋近与标准正态分布,即
ϕ(x)=2π
1ex2/2
F分布
定义: 设
X∼χ2(m),
Y∼χ2(n),X和Y相互独立,则称随机变量
F=Y/nX/m为服从第一自由度为m、第二自由度为n的F分布,记作
F∼F(m,n)。
性质1:
E(F)=n−2n,以及
D(F)=m(n−2)2(n−4)n2(2m+2n−4)
性质2: 若
F∼F(m,n),则
F1∼F(n,m)
性质3: 设
F∼F(1,n),
T∼t(n),则
F=T2
3 参数的点估计
实际问题中总体分布已经知道,但该分布的一些具体参数未知,解决这类问题我们称之为参数估计。其中利用已有样本的某种函数得到的数值来估计总体样本的参数,叫做“点估计”。
矩估计法
利用统计量的值求解未知参数,举例如下:
求解:总体符合[a, b]的均匀分布,有样本
(X1,X2,…,Xn),求解a、b两个未知参数。
第一步: 列出矩估计等式
⎩⎪⎨⎪⎧u1=E(X)=2a+bv2=D(X)=12(b−a)2
第二步: 求解方程组,得到
{a=u1+3v2
b=u1−3v2
第三步: 将
(X1,X2,…,Xn)的矩估计值带入
u1v2得到a和b的解
极大似然估计法
设存在未知参数
θ的总体X概率分布密度为
f(x;θ),则样本的似然函数是
L(θ)=L(x1,x2,…,xn;θ)=∏i=1nf(xi;θ)。
极大似然估计法的思路就是认为该参数能够得到似然函数的最大值,即有最大的概率存在。举例:
求解:总体的分布密度函数为
f(xi;k)={(k+2)xk+100<x<1other
有样本
(X1,X2,…,Xn) ,求未知参数k。
第一步: 构造似然函数
L(k)=i=1∏n(k+2)xik+1
第二步: 两边取ln,并通过对k的导数求极值
ln(L(k))=nln(k+2)+(k+1)i=1∑nlnxi
∂k∂ln(L(k))=k+2n+i=1∑nlnxi=0
k=−2−i=1∑nlnxin
第三步: 由其二阶导数小于0,可以此时k是极大似然估计得到的参数。备注:这个值与矩估计得到的结果不一样!!
3 参数的区间估计
定义: 设
θ是总体的未知参数,
(X1,X2,…,Xn)是总体的样本,若给定常数a(0 < a < 1),可以确定两个统计量
θ=θ(X1,X2,…,Xn)和
θˉ=θˉ(X1,X2,…,Xn)使得
P(θ<θ<θˉ)<1−a称随机区间
[θ,θˉ]为参数
θ的1-a置信区间或区间估计。1-a为置信度。
举例(重要):
++备注:此处为
σ2已知,求u的置信区间 的例子++
有总体分布
X∼N(u,4),均值u未知,已知X一组容量为n=25的样本均值
xˉ=7.50,求这个样本均值置信度为1-a = 0.95的置信区间。
第一步:构造一个新的样本函数,使得新的样本函数不依赖参数
U=σXˉ−un
∼N(0,1)
第二步: 依据标准正态分布的双侧分位数,得到
P(∣σXˉ−un
∣<ua/2)=1−a
第三步:根据上式得到u的1-a置信区间为
(Xˉ−n
σua/2,Xˉ+n
σua/2)
第四步:通过查表可以知道
u0.025=1.96,带入后即可得到区间值
单正态分布区间估计 –
σ2已知,求u的置信区间
构造:
U=σXˉ−un
∼N(0,1)
单正态分布区间估计 –
σ2未知,求u的置信区间
构造:
T=SXˉ−un
∼t(n−1)
其中
S2是
σ2的无偏估计值
单正态分布区间估计 – u已知,求
σ2的置信区间
构造:
χ2=σ21i=1∑n(Xi−u)2∼χ2(X)
单正态分布区间估计 – u未知,求
σ2的置信区间
构造:
χ2=σ21i=1∑n(Xi−u)2=σ2nSn2∼χ2(n−1)
4 假设检验
总体均值u的假设检验 –
σ2已知,求u的置信区间
设
(X1,X2,…,Xn)为取自总体X的一个样本,样本均值为
Xˉ,
u0为已知常数。
第一步:确定假设
检验原假设
H0:u=u0,备择假设
H1:u̸=u0
第二步: 选择检验统计量
U=σXˉ−un
∼N(0,1)
第三步:判断拒绝域
备注:上图印刷不清楚,中间应该是1-a,其中a是显著性水平,诸如0.05
由
P(∣U∣≥ua/2)=a得到
∣u∣=∣σ/n
xˉ−u0∣≥ua/2
备注:上面式子有口语表述即,若随机变量U大于或小于
ua/2那么它的概率将小于a,即可以被拒绝。
第四步:通过查找标准正态分布表获取
ua/2的值,并判断当前的样本均值带入U后是否符合拒绝域。