概率与统计,参数估计(部分)

随机变量分类

  • 离散型随机变量
  • 连续型随机变量

随机变量的矩:
X是一个随机变量对于任何正整数n,定义
E ( X n ) = p ( x ) x n d x E(X^n)=\int p(x)x^ndx

  • 一阶矩:n=1,E(X)期望(原点矩)
  • 二阶矩:n=2, E ( X 2 ) E ( X ) 2 E(X^2)-E(X)^2 方差 (中心矩)

特征函数:
ϕ X ( t ) = E ( e i t X ) \phi_X(t)=E(e^{itX}) = n = 0 E ( X n ) n ! ( i t ) n \sum_{n=0}^{∞}\frac{E(X^n)}{n!} (it)^n

在这里插入图片描述
更多关于特征函数
协方差:(多个随机变量之间的关系)
X,Y为两个独立随机变量,协方差为0
E x y = y x x y p x y d x d y = y p y x p ( x ) d x d y = y p ( y ) E ( x ) d y = E ( x ) y p ( y ) d y = E ( x ) E ( y ) { E(x,y)=∫_y∫_xxyp(x,y)dxdy = ∫yp(y)∫xp(x)dxdy = ∫yp(y)E(x)dy =E(x) ∫yp(y)dy =E(x)E(y) }

c o v ( x , y ) = E ( x y ) E ( x ) E ( y ) = 0 { cov(x,y) = E(xy)-E(x)E(y) = 0}

x,y的相关系数(夹角cosα)
c o v x y / v a r x v a r y {cov(x,y)/\sqrt{var(x)var(y)}}

概率分布与特征函数的关系:
对于任何X, ϕ x ( t ) \phi_x(t)都存在
ϕ ( 0 ) = E ( e 0 ) = 1 , ϕ ( t ) 1 t \phi(0)=E(e^0)=1,且\mid\phi(t)\mid\leq1,\forall t
ϕ ( t ) \phi(t)是一致连续函数
ϕ X ( t ) = ϕ X ( t ) , X ϕ X ( t ) \phi_X(t)=\phi_-X(t),所以如果X关于中心对称,那么\phi_X(t)就是一个实函数
X n ϕ X ( t ) n E ( X n ) = ( i ) n ϕ ( n ) ( 0 ) 如果X的n阶矩存在,那么\phi_X(t)至少n阶可微,并且E(X^n)=(-i)^n\phi^{(n)}(0)
X Y ϕ X + Y ( t ) = ϕ X ( t ) ϕ Y ( t ) 如果X,Y是两个独立随机变量,那么\phi_{X+Y}(t)=\phi_X(t)\phi_Y(t)
ϕ X ( t ) = ϕ Y ( t ) , X Y 如果\phi_X(t)=\phi_Y(t),那么X,Y服从同一个分布
X n ϕ x n ( t ) ϕ ( t ) , ϕ ( t ) 0 X ( t ) , 使 X n X ( t ) 如果{X_n}是一个随机变量序列,而且\phi_{x_n}(t)逐点收敛于一个函数\phi_∞(t),如果\phi_∞(t)在0处连续,那么存在一个分布X_∞(t),使得X_n按分布收敛于X_∞(t)

特殊分布的特征函数:
p ( a ) = 1 , ϕ ( t ) = e i a t 独点分布p(a)=1,\phi(t)=e^{iat}
p ( 1 ) = p ( 1 ) = 1 / 2 , ϕ ( t ) = c o s ( t ) 两点分布p(-1)=p(1)=1/2,\phi(t)=cos(t)
f ( x ) = 1 2 Π e x 2 2 , ϕ ( t ) = e t 2 2 正态分布,概率密度函数f(x)=\frac{1}{\sqrt{2}Π}e^{-\frac{x^2}{2}},\phi(t)=e^{-\frac{t^2}{2}}
p ( n ) = e λ λ n n ! ϕ ( t ) = e λ ( 1 e i t ) 泊松分布p(n)=e^{-\lambda}\frac{\lambda^n}{n!},\phi(t)=e^{-\lambda(1-e^{it})}

重要极限:
l i m n ( 1 + 1 / n ) n e = l i m n ( 1 + 1 / n ) n e x = l i m n ( 1 + x / n ) n l i m n ( 1 + x / n ) n = l i m n [ ( 1 + x / n ) n / x ] x = l i m n [ ( 1 + 1 / m ) m ] x = e x {lim_{n\to\infty} (1+1/n)^n }存在,且定义e = lim_{n\to\infty} (1+1/n)^n,于是定义e^x = lim_{n\to\infty} (1+x/n)^n, lim_{n\to\infty} (1+x/n)^n = lim_{n\to\infty} [(1+x/n)^{n/x}]^x = lim_{n\to\infty} [(1+1/m)^m]^x = e^x

大数定律:

平均值收敛于期望

X是随机变量,μ是X的期望, σ \sigma 是X的方差, { X k } k = 1 \{X_k\}_{k=1}^{∞}

是服从X的独立同分布随机变量,那么 X n = k = 1 n X k n \overline{X}_n=\frac{\sum_{k=1}^{n}X_k}{n} 依概率收敛于μ。也就是说对于任何 ε \varepsilon >0有
lim x P ( X n μ > ε ) = 0 \lim_{x\to\infty}P(\mid\overline{X}_n-μ\mid>\varepsilon)=0
因为X具有一阶矩,所以特征函数 ϕ X ( t ) ϕ X ( t ) = 1 + i μ t + o ( t ) \phi_X(t)存在一阶泰勒展开\phi_X(t)=1+iμt+o(t) ,于是
ϕ X ( t ) = E ( e x p ( i t i = 1 n x i n ) ) = i = 1 n E ( e x p ( i t X / n ) ) = ( 1 + i μ t / n + o ( t / n ) n ) \phi_{\overline{X}}(t)=E(exp(it\frac{\sum_{i=1}^{n}x_i}{n}))=\prod_{i=1}^{n}E(exp(itX/n))=(1+iμt/n+o(t/n)^n)
于是
lim n ϕ X ( t ) = lim n ( 1 + i μ t / n + o ( t / n ) ) n \lim_{n\to\infty}\phi_{\overline{X}}(t)=\lim_{n\to\infty}(1+iμt/n+o(t/n))^n
这就是独点分布的特征函数,所以 X \overline{X} 按分布收敛于独点分布。
收敛于一个常数,因为 lim x P ( X n μ > ε ) = 0 \lim_{x\to\infty}P(\mid\overline{X}_n-μ\mid>\varepsilon)=0
X \overline{X} 收敛于一个常数,所以 X \overline{X} =μ,也就是验证了
平均值收敛于期望值

中心极限定理:

X是随机变量, ϕ ( X ) \phi(X) 是X的特征函数, { X k } k = 1 \{X_k\}_{k=1}^{∞}

是服从X的独立同分布随机变量,那么
服从正态分布
z n = x σ ( x n μ ) z_n = \frac{\sqrt{x}}{\sigma}(\overline{x_n} μ)
依分布收敛于正态分布N(0,1)
也就是说对于任何 ε \varepsilon >0有
lim n P ( Z n z ) = Φ ( z ) , z \lim_{n\to\infty}P(Z_n<z)=\Phi(z),\forall z
其中 Φ \Phi 是标准正态分布的分布函数。

x的二阶泰勒展开式
ϕ x t = 1 + i μ t σ 2 t 2 + o ( t 2 ) {\phi x(t) = 1 + iμt - \frac{{\sigma}}{2} t^2 + o(t^2) }
Y = x μ ) / σ 令 Y = (x-μ)/\sigma
E Y = E [ x μ σ ] = 1 σ E ( x μ ) = 1 σ ( E ( X ) μ = 0 {E(Y)= E[\frac{{x-μ}}{\sigma}] =\frac{{1}}{\sigma}E(x-μ) = \frac{{1}}{\sigma}(E(X)-μ} =0
E ( Y 2 ) = E ( x μ σ ) 2 = 1 σ 2 [ E ( X 2 ) 2 μ E ( x ) + μ 2 ] = 1 σ 2 [ E ( X 2 ) μ 2 ] = 1 σ 2 σ 2 = 1 {E(Y^2) = E(\frac{{x-μ}}{\sigma})^2 =\frac{{1}}{\sigma^2}[E(X^2) -2μE(x)+μ^2]= \frac{{1}}{\sigma^2}[E(X^2)-μ^2]}= \frac{{1}}{\sigma^2}\sigma^2=1
则, E ( Y ) = 0 , E ( Y 2 ) = 1 , E(Y)=0,E(Y^2)=1,于是有
ϕ Y ( t ) = 1 1 2 t 2 + o ( t 2 ) \phi_Y(t)=1- \frac{1}{2}t^2+o(t^2)
因为 Z n = n Y Z_n = {\sqrt{n}}\overline{Y} ,所以
ϕ Z n ( t ) = E ( e x p ( i t i = 1 n Y i / n ) ) = ( 1 1 2 n t 2 + o ( t 2 / n ) ) n \phi_{Z_n(t)}=E(exp(it\sum_{i=1}^{n}Y_i/\sqrt{n}))=(1-\frac{1}{2n}t^2+o(t^2/n))^n
Z n = n i = 1 n Y i , 1 n Y i , ϕ Y ( t ) t t / n Z n Z_n =\sqrt{n}\sum_{i=1}^{n}Y_i,最后就是\frac{1}{\sqrt{n}}Y_i,把\phi_Y(t) 的t换成t/\sqrt{n}就是Z_n的函数方程
于是
lim n ϕ z n ( t ) = lim n ( 1 t 2 2 n + o ( t 2 / n ) ) n = e 1 2 t 2 \lim_{n\to\infty}\phi_{z_n}(t)=\lim_{n\to\infty}(1- \frac{t^2}{2n}+o(t^2/n))^n=e^{-\frac{1}{2}t^2}
是一个正态分布的特征函数,所以 Z n Z_n 按分布收敛于正态分布。

参数估计

  • 点估计
    矩估计
    极大似然估计
  • 区间估计

点估计性质:

相合性

:当样本数量趋于无穷时,估计量收敛于参数真实值。
例:当我们求解参数 θ \theta 的方程时,为什么最大值就是参数的值?
θ 0 \theta_0 ,求极大值,就是要证明 θ 0 \theta_0 就是极大值。
最大化参数函数方程 l x ( θ ) l_x(\theta) ,也就是最大化 1 n l x ( θ ) { \frac{1}{n}l_x(\theta)} 是一样的。
1 n l x ( θ ) = 1 n i = 1 n l x i θ = 1 n i = 1 n l n ( f θ ( x i ) ) {{ \frac{1}{n}l_x(\theta)}=\frac{1}{n}\sum_{i=1}^{n}l_{x_i}(\theta)= \frac{1}{n}\sum_{i=1}^{n}l_n(f_\theta(x_i))}
这个无穷求和就收敛于期望(大数定律)
E l n ( f θ ( x ) ) = x l n ( f θ ( x ) ) f θ 0 ( x ) d x E(l_n(f_\theta(x)))=∫_xl_n(f_\theta(x))f_{\theta_0}(x)dx
f θ ( x ) f θ 0 ( x ) f_\theta(x)是一个函数,f_{\theta_0}(x)是个值
θ ^ \hat{\theta} 1 n l x ( θ ) \frac{1}{n}l_x(\theta) 的极大值点,所以 l i m θ ^ E l n ( f θ ( x ) ) lim\hat{\theta}收敛于 E(l_n(f_\theta(x)))的极大值点
所以我们只需要证明 θ 0 \theta_0 确定是 E l n ( f θ ( x ) ) E(l_n(f_\theta(x))) 的极大值点,因为 l n ( x ) l_n(x)是个凹函数,根据琴生不等式我们有:
x l n ( f θ ( x ) ) f θ 0 ( x ) d x x l n ( f θ 0 ( x ) ) f θ 0 ( x ) d x = x l n ( f θ ( x ) / f θ 0 ( x ) ) f θ 0 ( x ) d x l n ( x f θ ( x ) f θ 0 ( x ) f θ 0 ( x ) d x ) = l n ( x f θ ( x ) d x ) = l n ( 1 ) = 0 {∫_xl_n(f_\theta(x))f_{\theta_0}(x)dx-∫_xl_n(f_{\theta_0}(x))f_{\theta_0} (x)dx}=∫_xl_n(f_\theta(x)/f{\theta_0}(x))f_{\theta_0}(x)dx \leq l_n(∫_x \frac{f_\theta(x)}{f_{\theta_0}(x)}f_{\theta_0}(x)dx)=ln(∫_xf_\theta(x)dx)=ln(1)=0
所以: E l n ( f θ ( x ) ) E l n ( f θ 0 ( x ) ) 0 E(l_n(f_\theta(x)))-E(l_n(f_{\theta_0}(x)))\leq 0
θ 0 E l n ( f θ ( x ) ) \theta_0就是E(l_n(f_\theta(x))的极大值点

所以求解参数方程的极大值就是求参数的真实值。

无偏性

:对于有限的样本,估计量所符合的分布之期望等于参数真实值。
例:方差的估计:
E 1 n i = 1 n ( x i x ) 2 = E ( 1 n i = 1 n ( x i μ + μ x ) 2 ) = E 1 n i = 1 n ( x i μ 2 ) E ( ( μ x ) 2 ) = E ( ( x i μ ) 2 ) E ( ( μ x ) 2 ) = σ 2 v a r ( ( x ) ) σ 2 E( \frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2)=E( \frac{1}{n}\sum_{i=1}^{n}(x_i-μ+μ-\overline{x})^2)=E( \frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2)-E((μ-\overline{x})^2)=E((x_i-μ)^2)-E((μ-\overline{x})^2)=\sigma^2 -var((\overline{x}))\leq\sigma^2
E ( ( x i μ ) 2 ) = E ( x i 2 2 μ x i + μ 2 ) = E ( x i 2 ) 2 μ E ( x i ) + μ 2 = E ( x ) 2 μ 2 = σ 2 E((x_i-μ)^2) = E(x_i^2-2μx_i +μ^2)=E(x_i^2)-2μE(x_i)+μ^2=E(x)^2-μ2=\sigma^2
E ( 1 n i = 1 n ( x i μ + μ x ) 2 n ) = i = 1 n ( x i μ ) 2 n + i = 1 n ( μ x ) 2 n + i = 1 n 2 ( x i μ ) ( μ x ) n = E ( 1 n i = 1 n ( x i μ ) 2 ) + E ( ( μ x ) 2 ) + ( 2 E ( μ x ) 2 ) E( \frac{1}{n}\sum_{i=1}^{n}\frac{(x_i-μ+μ-\overline{x})^2}{n})=\sum_{i=1}^{n}\frac{(x_i-μ)^2}{n}+\sum_{i=1}^{n}\frac{(μ-\overline{x})^2}{n}+\sum_{i=1}^{n}\frac{2(x_i-μ)(μ-\overline{x})}{n}= E(\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2)+E((μ-\overline{x})^2)+(-2E(μ-\overline{x})^2)
E ( 2 ( μ x ) i = 1 n ( ( x i μ ) n ) = E ( 2 ( μ x ) ( x μ ) ) = 2 E ( μ x ) 2 E(2(μ-\overline{x})\sum_{i=1}^{n}( \frac{(x_i-μ)}{n})=E(2(μ-\overline{x})(\overline{x}-μ))=-2E(μ-\overline{x})^2
所以我们倾向于低估 σ 2 \sigma^2 ,那么我们低估的这个值 v a r ( ( x ) ) var((\overline{x})) 等于多少?

Y i = X i μ Y_i=X_i-μ ,那么 x μ = Y \overline{x}-μ=\overline{Y} ,所以 E ( ( μ x ) 2 ) = E ( ( Y ) 2 ) E((μ-\overline{x})^2)=E((\overline{Y})^2)
Y的特征函数是
ϕ Y ( t ) = e x p ( t 2 σ 2 2 ) \phi _Y(t)=exp(\frac{-t^2\sigma^2}{2})
所以
ϕ Y ( t ) = ( e x p ( t 2 σ 2 2 n 2 ) ) n = e x p ( t 2 ( σ / n ) 2 2 ) \phi _{\overline{Y}}(t)=(exp( \frac{-t^2\sigma^2}{2n^2}))^n=exp( \frac{-t^2(\sigma/\sqrt{n})^2}{2})
ϕ Y ( t ) = E ( e x p ( i t Y ) ) = E ( e k = 1 n Y k n i t ) = E ( k = 1 n e Y k n i t ) = k = 1 n E ( e Y k n i t ) = k = 1 n Φ Y k ( t n ) = ( ϕ Y ( ( t n ) ) n \phi _{\overline{Y}}(t)=E(exp(it\overline{Y}))=E(e^{\sum_{k=1}^{n}\frac{Y_k}{n}it})=E(\prod_{k=1}^ne^{\frac{Y_k}{n}it})=\prod_{k=1}^nE(e^{\frac{Y_k}{n}it})=\prod_{k=1}^n\Phi _{Y_k}(\frac{t}{n})=(\phi _Y((\frac{t}{n}))^n
于是:
v a r ( x ) = v a r ( Y ) = σ 2 / n var(\overline{x})=var(\overline{Y})=\sigma^2/n ,所以
E ( 1 n i = 1 n ( x i x ) 2 = σ 2 v a r ( ( x ) ) = σ 2 σ 2 / n = n 1 n σ 2 E(\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2=\sigma^2 -var((\overline{x}))=\sigma^2-\sigma^2/n=\frac{n-1}{n}\sigma^2
因此, 1 n 1 i = 1 n ( x i x ) 2 σ 2 \frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})^2才是\sigma^2的无偏估计值。

另一种方法:中误差
假设误差:
Δ i = l i X \Delta_i=l_i-X\dots
将各式取和再除以次数n,
[ Δ ] n = l n X \frac{[\Delta]}{n}=\frac{l}{n}-X ,
然后平方: [ Δ Δ ] n 2 = ( x x ) 2 \frac{[\Delta\Delta]}{{n}^2}=(\overline{x}-x)^2
改正数: v i = x l i v_i=\overline{x}-l_i\dots

由于①②得:
Δ i = v i + ( x x ) \Delta_i=-v_i+(\overline{x}-x)

[ Δ Δ ] n = [ v v ] n + 2 ( x x ) [ v ] n + ( x x ) 2 \frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n}}+\frac{2(\overline{x}-x)[v]}{n}+(\overline{x}-x)^2

由于改正值之和为0, [ v ] = 0 [v]=0

[ Δ Δ ] n 2 = ( x x ) 2 \frac{[\Delta\Delta]}{{n}^2}=(\overline{x}-x)^2

[ Δ Δ ] n = [ v v ] n + ( x x ) 2 \frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n}}+(\overline{x}-x)^2

[ Δ Δ ] n = [ v v ] n + [ Δ Δ ] n 2 \frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n}}+\frac{[\Delta\Delta]}{{n}^2}

[ Δ Δ ] n [ Δ Δ ] n 2 = [ v v ] n \frac{[\Delta\Delta]}{{n}}-\frac{[\Delta\Delta]}{{n}^2}=\frac{[vv]}{{n}}

n [ Δ Δ ] n 2 [ Δ Δ ] n 2 = [ v v ] n \frac{n[\Delta\Delta]}{{n}^2}-\frac{[\Delta\Delta]}{{n}^2}=\frac{[vv]}{{n}}

( n 1 ) [ Δ Δ ] n 2 = [ v v ] n \frac{(n-1)[\Delta\Delta]}{{n}^2}=\frac{[vv]}{{n}}

[ Δ Δ ] n = [ v v ] n 1 \frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n-1}}

m 2 = [ v v ] n 1 m^2=\frac{[vv]}{{n-1}}

m = [ v v ] n 1 m=\sqrt{\frac{[vv]}{{n-1}}}

有效性

:如果两个参数估计量 θ ^ θ ˇ \hat{\theta},\check{\theta} 既是相合的,又是无偏的,那么他们两个中方差较小的那一个比较好,如果 v a r ( θ ^ ) v a r ( θ ˇ ) var(\hat{\theta}) \geq var(\check{\theta}) ,那么我们就认为 θ ˇ \check{\theta} 比较好。
例:
x 1 x n x_1\dots\dots x_n ,来自均值为μ,方差为 σ 2 \sigma^2 的总体分布的简单样本, ω 1 ω n \omega_1\dots \dots \omega_n 为已知的非负权值,且满足 ω i = 1 \sum \omega_i=1 ,试比较μ两个估计 x i = 1 n ω i \overline{x}和\sum_{i=1}^{n}\omega_i的大小
因为 v a r ( x ) = σ 2 n , v a r ( ω i x i ) = i = 1 n ω i 2 σ 2 var(\overline{x})=\frac{\sigma^2}{n},var(\sum\omega_ix_i )=\sum_{i=1}^{n}\omega_i^2\sigma^2 ,也就是求 1 n i = 1 n ω i 2 \frac{1}{n}\leq\sum_{i=1}^{n}\omega_i^2 ,由于柯西不等式: i = 1 n a i 2 i = 1 n b i 2 ( i = 1 n a i b i ) 2 \sum_{i=1}^{n}a_i^2\sum_{i=1}^{n}b_i^2\geq(\sum_{i=1}^{n}a_ib_i)^2 ,令 a i = 1 , b i = ω i a_i=1,b_i=\omega_i , ( 1 + + 1 ) ( ω 1 2 + + ω n 2 ) ( ω 1 + + ω n ) 2 (1+\dots +1)(\omega_1^2+\dots+\omega_n^2)\geq(\omega_1+\dots+\omega_n)^2
n ω i 2 1 ( 1 ) n\sum\omega_i^2\geq1(权重之和为1)
所以: ω i 2 1 n \sum\omega_i^2\geq\frac{1}{n} ,也就说明了 v a r ( x ) var(\overline{x})是更好的

渐进正态性

当样本趋于无穷时,去中心化去量纲化的估计量符合标准正态分布。

置信区间估计

发布了12 篇原创文章 · 获赞 1 · 访问量 989

猜你喜欢

转载自blog.csdn.net/fksfdh/article/details/103748156