参数估计（点估计和区间估计）

1.1 点估计

点估计的理解示意图
下图中样本均值就是对总体均值的点估计

1.1.1 矩估计

关于什么是矩？可以参考马同学。传送门：如何理解概率论中的“矩”？
根据大数定律，样本矩会依概率收敛于总体矩，故可以用样本矩替代总体矩，从而完成对总体参数的点估计
$\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_i \xrightarrow{P} EX\\ ~\\ A_2=\frac{1}{n}\sum_{i=1}^{n}X_i^2 \xrightarrow{P} EX^2\\ ~\\ B_2=\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2 \xrightarrow{P} DX$

1.1.2 最大似然估计（MLE）

关于什么是似然？之前笔者大概了解了一下，但并不深入。传送门：区分概率与似然

似然函数 $L(\theta)$ 指的是样本（ $X_n$ ）取到观测值（ $x_n$ ）的概率
离散型
$\begin{align*} L(\theta)&=P\{X_1=x_1，X_2=x_2，\cdots，X_n=x_n\} \\ &\overset{\text{独立}}{=}P\{X_1=x_1\} P\{X_2=x_2\} \cdots P\{X_n=x_n\}\\ \end{align*}$
连续型（样本落在观测值邻域内的概率）

$\begin{align*} L(\theta)&=P\{X_1\in U(x_1)，X_2\in U(x_2)，\cdots，X_n\in U(x_n)\}\\ &=f(x_1,\theta)\Delta x_1\cdot f(x_2,\theta)\Delta x_2\cdots f(x_n,\theta)\Delta x_n\\ &=f(x_1,\theta)f(x_2,\theta)\cdots f(x_n,\theta)\cdot\Delta x_1\Delta x_2\cdots\Delta x_n\\ &\Delta x_1\Delta x_2\cdots\Delta x_n\text{与}\theta无关，丢弃\\ L(\theta)&=f(x_1,\theta)f(x_2,\theta)\cdots f(x_n,\theta) \end{align*}$
最大似然的思想：概率越大的事情频率越高

引例：假设箱子内5个球，随机摸球10次，每次摸1个，摸后放回，共10次，若出现2黑8红，估计这个箱子中1黑4红，当然这个估计可能是错的，也可能是其他情况，但也不影响最大似然的正确性，只是说出现1黑4红这种情况的概率是最大的。

求最大似然步骤
在 $\theta$ 的取值范围内找 $\hat{\theta}$ 使得 $L(\hat{\theta})$ 最大

1.1.3 估计量的评选标准

未知参数 $\theta$ 的估计量 $\hat{\theta}$ ，判断这个估计量准不准有三个标准
无偏性

若 $E(\hat{\theta})=\theta$ ，则 $\hat{\theta}$ 是 $\theta$ 的无偏估计量

未知参数的无偏估计量不唯一
无论何种总体，都有以下结论

注意：
若 $\hat{\theta}$ 是 $\theta$ 的无偏估计量，则 $g(\hat{\theta})$ 未必是 $g(\theta)$ 的无偏估计

有效性

$\hat{\theta_1}、\hat{\theta_2}$ 均为 $\theta$ 的无偏估计（有效性的前提是要有无偏性），若 $D(\hat{\theta_1})\leq D(\hat{\theta_2})$ ，则称 $\hat{\theta_1}$ 比 $\hat{\theta_2}$ 更有效

一致性

若 $\hat{\theta}\overset{P}{\rightarrow}\theta$ （依概率收敛）则称 $\hat{\theta}$ 是 $\theta$ 的一致估计量

1.2 区间估计

区间估计：估计总体参数的范围
区间估计的大致步骤：

置信区间 $(\hat{\theta_1}，\hat{\theta_2})$
置信下限： $\hat{\theta_1}$ 、置信上限： $\hat{\theta_2}$
置信度/置信水平： $1-\alpha$

总体X含未知参数 $\theta$ ， $X_1，X_2，\cdots，X_n$ 是来自总体X的样本，对于给定的 $\alpha$ （值很小， $0<\alpha<1$ ），若有两个统计量满足：
$P\{\hat{\theta_1}<\theta<\hat{\theta_2}\}=1-\alpha$
随机区间包含总体参数的可信度为 $1-\alpha$