概率与统计，参数估计（部分）

随机变量分类

离散型随机变量
连续型随机变量

随机变量的矩：
X是一个随机变量对于任何正整数n，定义
$E(X^n)=\int p(x)x^ndx$

一阶矩：n=1,E(X)期望（原点矩）
二阶矩：n=2, $E(X^2)-E(X)^2$ 方差 (中心矩)

特征函数：
$\phi_X(t)=E(e^{itX})$ = $\sum_{n=0}^{∞}\frac{E(X^n)}{n!} (it)^n$

在这里插入图片描述
更多关于特征函数
协方差：（多个随机变量之间的关系）
X，Y为两个独立随机变量，协方差为0
${ E（x，y）=∫_y∫_xxyp（x，y）dxdy = ∫yp（y）∫xp(x)dxdy = ∫yp(y)E(x)dy =E(x) ∫yp(y)dy =E(x)E(y) }$

${ cov(x,y) = E(xy)-E(x)E(y) = 0}$

x,y的相关系数（夹角cosα）
${cov（x，y）/\sqrt{var（x）var（y）}}$

概率分布与特征函数的关系:
对于任何X， $\phi_x(t)都存在$
$\phi(0)=E(e^0)=1,且\mid\phi(t)\mid\leq1，\forall t$ ，
$\phi(t)是一致连续函数$ ，
$\phi_X(t)=\phi_-X(t),所以如果X关于中心对称，那么\phi_X(t)就是一个实函数$
$如果X的n阶矩存在，那么\phi_X(t)至少n阶可微，并且E(X^n)=(-i)^n\phi^{(n)}(0)$
$如果X，Y是两个独立随机变量，那么\phi_{X+Y}(t)=\phi_X(t)\phi_Y(t)$
$如果\phi_X(t)=\phi_Y(t),那么X，Y服从同一个分布$
$如果{X_n}是一个随机变量序列，而且\phi_{x_n}(t)逐点收敛于一个函数\phi_∞(t),如果\phi_∞(t)在0处连续，那么存在一个分布X_∞(t),使得X_n按分布收敛于X_∞(t)$

特殊分布的特征函数：
$独点分布p(a)=1,\phi(t)=e^{iat}$
$两点分布p(-1)=p(1)=1/2,\phi(t)=cos(t)$
$正态分布，概率密度函数f(x)=\frac{1}{\sqrt{2}Π}e^{-\frac{x^2}{2}},\phi(t)=e^{-\frac{t^2}{2}}$
$泊松分布p(n)=e^{-\lambda}\frac{\lambda^n}{n!}，\phi(t)=e^{-\lambda(1-e^{it})}$

重要极限：
${lim_{n\to\infty} (1+1/n)^n }存在，且定义e = lim_{n\to\infty} (1+1/n)^n，于是定义e^x = lim_{n\to\infty} (1+x/n)^n， lim_{n\to\infty} (1+x/n)^n = lim_{n\to\infty} [(1+x/n)^{n/x}]^x = lim_{n\to\infty} [(1+1/m)^m]^x = e^x$

大数定律：

平均值收敛于期望

X是随机变量，μ是X的期望， $\sigma$ 是X的方差， $\{X_k\}_{k=1}^{∞}$

是服从X的独立同分布随机变量，那么 $\overline{X}_n=\frac{\sum_{k=1}^{n}X_k}{n}$ 依概率收敛于μ。也就是说对于任何 $\varepsilon$ >0有
$\lim_{x\to\infty}P(\mid\overline{X}_n-μ\mid>\varepsilon)=0$
因为X具有一阶矩，所以特征函数 $\phi_X(t)存在一阶泰勒展开\phi_X(t)=1+iμt+o(t)$ ,于是
$\phi_{\overline{X}}(t)=E(exp(it\frac{\sum_{i=1}^{n}x_i}{n}))=\prod_{i=1}^{n}E(exp(itX/n))=(1+iμt/n+o(t/n)^n)$
于是
$\lim_{n\to\infty}\phi_{\overline{X}}(t)=\lim_{n\to\infty}(1+iμt/n+o(t/n))^n$
这就是独点分布的特征函数，所以 $\overline{X}$ 按分布收敛于独点分布。
收敛于一个常数，因为 $\lim_{x\to\infty}P(\mid\overline{X}_n-μ\mid>\varepsilon)=0$
$\overline{X}$ 收敛于一个常数，所以 $\overline{X}$ =μ，也就是验证了
平均值收敛于期望值

中心极限定理：

X是随机变量， $\phi(X)$ 是X的特征函数， $\{X_k\}_{k=1}^{∞}$

是服从X的独立同分布随机变量，那么
服从正态分布
$z_n = \frac{\sqrt{x}}{\sigma}(\overline{x_n} μ)$
依分布收敛于正态分布N(0,1)
也就是说对于任何 $\varepsilon$ ＞0有
$\lim_{n\to\infty}P(Z_n＜z)=\Phi(z),\forall z$
其中 $\Phi$ 是标准正态分布的分布函数。

x的二阶泰勒展开式
${\phi x（t） = 1 + iμt - \frac{{\sigma}}{2} t^2 + o(t^2) }$
$令 Y = （x-μ)/\sigma$
${E（Y）= E[\frac{{x-μ}}{\sigma}] =\frac{{1}}{\sigma}E(x-μ) = \frac{{1}}{\sigma}(E(X)-μ} =0$
${E(Y^2) = E(\frac{{x-μ}}{\sigma})^2 =\frac{{1}}{\sigma^2}[E(X^2) -2μE(x)+μ^2]= \frac{{1}}{\sigma^2}[E(X^2)-μ^2]}= \frac{{1}}{\sigma^2}\sigma^2=1$
则， $E(Y)=0,E(Y^2)=1,于是有$
$\phi_Y(t)=1- \frac{1}{2}t^2+o(t^2)$
因为 $Z_n = {\sqrt{n}}\overline{Y}$ ,所以
$\phi_{Z_n(t)}=E(exp(it\sum_{i=1}^{n}Y_i/\sqrt{n}))=(1-\frac{1}{2n}t^2+o(t^2/n))^n$
$Z_n =\sqrt{n}\sum_{i=1}^{n}Y_i,最后就是\frac{1}{\sqrt{n}}Y_i,把\phi_Y(t) 的t换成t/\sqrt{n}就是Z_n的函数方程$
于是
$\lim_{n\to\infty}\phi_{z_n}(t)=\lim_{n\to\infty}(1- \frac{t^2}{2n}+o(t^2/n))^n=e^{-\frac{1}{2}t^2}$
是一个正态分布的特征函数，所以 $Z_n$ 按分布收敛于正态分布。

参数估计

点估计
矩估计
极大似然估计
区间估计

点估计性质：

相合性

：当样本数量趋于无穷时，估计量收敛于参数真实值。
例：当我们求解参数 $\theta$ 的方程时，为什么最大值就是参数的值？
求 $\theta_0$ ,求极大值，就是要证明 $\theta_0$ 就是极大值。
最大化参数函数方程 $l_x(\theta)$ ,也就是最大化 ${ \frac{1}{n}l_x(\theta)}$ 是一样的。
${{ \frac{1}{n}l_x(\theta)}=\frac{1}{n}\sum_{i=1}^{n}l_{x_i}（\theta）= \frac{1}{n}\sum_{i=1}^{n}l_n(f_\theta(x_i))}$
这个无穷求和就收敛于期望（大数定律）
$E（l_n(f_\theta(x))）=∫_xl_n(f_\theta(x))f_{\theta_0}(x)dx$
$f_\theta(x)是一个函数，f_{\theta_0}(x)是个值$
而 $\hat{\theta}$ 是 $\frac{1}{n}l_x(\theta)$ 的极大值点，所以 $lim\hat{\theta}收敛于 E（l_n(f_\theta(x))）的极大值点$
所以我们只需要证明 $\theta_0$ 确定是 $E（l_n(f_\theta(x))）$ 的极大值点，因为 $l_n(x)是个凹函数，根据琴生不等式我们有：$
${∫_xl_n(f_\theta(x))f_{\theta_0}(x)dx-∫_xl_n(f_{\theta_0}(x))f_{\theta_0} (x)dx}=∫_xl_n(f_\theta(x)/f{\theta_0}(x))f_{\theta_0}(x)dx \leq l_n(∫_x \frac{f_\theta(x)}{f_{\theta_0}(x)}f_{\theta_0}(x)dx)=ln(∫_xf_\theta(x)dx)=ln(1)=0$
所以： $E（l_n(f_\theta(x))）-E（l_n(f_{\theta_0}(x))）\leq 0$
$\theta_0就是E（l_n(f_\theta(x))的极大值点$

所以求解参数方程的极大值就是求参数的真实值。

无偏性

：对于有限的样本，估计量所符合的分布之期望等于参数真实值。
例：方差的估计：
$E（ \frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2）=E( \frac{1}{n}\sum_{i=1}^{n}(x_i-μ+μ-\overline{x})^2)=E（ \frac{1}{n}\sum_{i=1}^{n}(x_i-μ）^2)-E((μ-\overline{x})^2)=E((x_i-μ)^2)-E((μ-\overline{x})^2)=\sigma^2 -var((\overline{x}))\leq\sigma^2$
$E((x_i-μ)^2) = E(x_i^2-2μx_i +μ^2)=E(x_i^2)-2μE(x_i)+μ^2=E(x)^2-μ2=\sigma^2$
$E( \frac{1}{n}\sum_{i=1}^{n}\frac{(x_i-μ+μ-\overline{x})^2}{n})=\sum_{i=1}^{n}\frac{(x_i-μ)^2}{n}+\sum_{i=1}^{n}\frac{(μ-\overline{x})^2}{n}+\sum_{i=1}^{n}\frac{2(x_i-μ)(μ-\overline{x})}{n}= E(\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2)+E((μ-\overline{x})^2)+(-2E(μ-\overline{x})^2)$
$E(2(μ-\overline{x})\sum_{i=1}^{n}( \frac{(x_i-μ)}{n})=E(2(μ-\overline{x})(\overline{x}-μ))=-2E(μ-\overline{x})^2$
所以我们倾向于低估 $\sigma^2$ ，那么我们低估的这个值 $var((\overline{x}))$ 等于多少？

令 $Y_i=X_i-μ$ ,那么 $\overline{x}-μ=\overline{Y}$ ，所以 $E((μ-\overline{x})^2)=E((\overline{Y})^2)$
Y的特征函数是
$\phi _Y(t)=exp(\frac{-t^2\sigma^2}{2})$
所以
$\phi _{\overline{Y}}(t)=(exp( \frac{-t^2\sigma^2}{2n^2}))^n=exp( \frac{-t^2(\sigma/\sqrt{n})^2}{2})$
$\phi _{\overline{Y}}(t)=E(exp(it\overline{Y}))=E(e^{\sum_{k=1}^{n}\frac{Y_k}{n}it})=E(\prod_{k=1}^ne^{\frac{Y_k}{n}it})=\prod_{k=1}^nE(e^{\frac{Y_k}{n}it})=\prod_{k=1}^n\Phi _{Y_k}(\frac{t}{n})=(\phi _Y((\frac{t}{n}))^n$
于是：
$var(\overline{x})=var(\overline{Y})=\sigma^2/n$ ,所以
$E(\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2=\sigma^2 -var((\overline{x}))=\sigma^2-\sigma^2/n=\frac{n-1}{n}\sigma^2$
因此， $\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})^2才是\sigma^2的无偏估计值。$

另一种方法：中误差
假设误差：
$\Delta_i=l_i-X\dots$ ①
将各式取和再除以次数n，
$\frac{[\Delta]}{n}=\frac{l}{n}-X$ ,
然后平方： $\frac{[\Delta\Delta]}{{n}^2}=(\overline{x}-x)^2$
改正数： $v_i=\overline{x}-l_i\dots$ ②

由于①②得：
$\Delta_i=-v_i+(\overline{x}-x)$

$\frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n}}+\frac{2(\overline{x}-x)[v]}{n}+(\overline{x}-x)^2$

由于改正值之和为0, $[v]=0$

$\frac{[\Delta\Delta]}{{n}^2}=(\overline{x}-x)^2$

$\frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n}}+(\overline{x}-x)^2$

$\frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n}}+\frac{[\Delta\Delta]}{{n}^2}$

$\frac{[\Delta\Delta]}{{n}}-\frac{[\Delta\Delta]}{{n}^2}=\frac{[vv]}{{n}}$

$\frac{n[\Delta\Delta]}{{n}^2}-\frac{[\Delta\Delta]}{{n}^2}=\frac{[vv]}{{n}}$

$\frac{(n-1)[\Delta\Delta]}{{n}^2}=\frac{[vv]}{{n}}$

$\frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n-1}}$

$m^2=\frac{[vv]}{{n-1}}$

$m=\sqrt{\frac{[vv]}{{n-1}}}$

有效性

：如果两个参数估计量 $\hat{\theta}，\check{\theta}$ 既是相合的，又是无偏的，那么他们两个中方差较小的那一个比较好，如果 $var(\hat{\theta}) \geq var(\check{\theta})$ ,那么我们就认为 $\check{\theta}$ 比较好。
例：
设 $x_1\dots\dots x_n$ ,来自均值为μ，方差为 $\sigma^2$ 的总体分布的简单样本， $\omega_1\dots \dots \omega_n$ 为已知的非负权值，且满足 $\sum \omega_i=1$ ,试比较μ两个估计 $\overline{x}和\sum_{i=1}^{n}\omega_i的大小$ ：
因为 $var(\overline{x})=\frac{\sigma^2}{n},var(\sum\omega_ix_i )=\sum_{i=1}^{n}\omega_i^2\sigma^2$ ,也就是求 $\frac{1}{n}\leq\sum_{i=1}^{n}\omega_i^2$ ，由于柯西不等式： $\sum_{i=1}^{n}a_i^2\sum_{i=1}^{n}b_i^2\geq(\sum_{i=1}^{n}a_ib_i)^2$ ,令 $a_i=1,b_i=\omega_i$ , $(1+\dots +1)(\omega_1^2+\dots+\omega_n^2)\geq(\omega_1+\dots+\omega_n)^2$
$n\sum\omega_i^2\geq1(权重之和为1)$
所以： $\sum\omega_i^2\geq\frac{1}{n}$ ,也就说明了 $var(\overline{x})是更好的$

渐进正态性

当样本趋于无穷时，去中心化去量纲化的估计量符合标准正态分布。

置信区间估计

fksfdh

发布了12 篇原创文章 · 获赞 1 · 访问量 989

私信关注