点估计

设总体 $X$ 的分布函数的形式已知，但它的一个或多个参数未知，借助于总体 $X$ 的一个样本来估计总体未知参数的值得问题称为参数的点估计问题。

举例：
某炸药厂，一天中发生着火现象的次数 $X$ 是一个随机变量，假设 $X$ 服从 $\lambda>0$ 泊松分布,即 $X \sim \pi(\lambda)$ 。根据现有的样本量估计参数 $\lambda$

着火次数k	0 1 2 3 4 5 6 >=7
发生k次着火的天数	75 90 54 22 6 2 1 0

根据 $\lambda=E(X)$ ,以上的数据表示 $X=0$ 出现了75次， $X=1$ 出现了90次…，一共有250个样本

E (X) = \frac{0 \times 75 + 1 \times 90 + 2 \times 54 + 3 \times 22 + 4 \times 6 + 5 \times 2 + 6 \times 1}{250} = 1.22

$E(X)=\frac{0 \times 75+1 \times 90 +2 \times 54+3 \times 22 +4 \times 6 + 5 \times 2+ 6 \times 1}{250}=1.22$
所以估计参数

λ = 1.22

$\lambda=1.22$

点估计：设总体 $X$ 的分布函数 $F(x;\theta)$ 的形式为已知， $\theta$ 是待估参数， $X_{1},X_{2},...,X_{n}$ 是 $X$ 的一个样本， $x_{1},x_{2},...,x_{n}$ 是对应的样本值。点估计问题是构造出一个适当的统计量 $\hat{\theta}(X_{1},X_{2},...,X_{n})$ ,用它的观察值 $\hat{\theta}(x_{1},x_{2},...,x_{n})$ 作为未知参数 $\theta$ 的近似值，称 $\hat{\theta}(X_{1},X_{2},...,X_{n})$ 为 $\theta$ 的估计量， $\hat{\theta}(x_{1},x_{2},...,x_{n})$ 为 $\theta$ 的估计值。
下面介绍两种常用的构造估计量的方法：矩估计和最大似然估计

矩估计法

设 $X$ 为连续型随机变量，其概率密度为 $f(x:\theta_{1}, \theta_{2},...,\theta_{k})$ ;或 $X$ 为离散型随机变量，其概率密度为 $P\{X=x\}=p(x;\theta_{1}, \theta_{2},...,\theta_{k})$ ,其其中 $\theta_{1}, \theta_{2},...,\theta_{k}$ 为待估参数。假设总体 $X$ 前 $k$ 阶矩为：

μ_{l} = E (X^{l}) = \int_{- \infty}^{\infty} x^{l} f (x : θ_{1}, θ_{2}, . . ., θ_{k}) d x, (X 是 连 续 型)

$\mu_{l}=E(X^{l})=\int_{-\infty}^{\infty}x^{l}f(x:\theta_{1}, \theta_{2},...,\theta_{k}) dx,(X是连续型)$

μ_{l} = E (X^{l}) = \sum_{x \in R_{x}} x^{l} p (x; θ_{1}, θ_{2}, . . ., θ_{k}), (X 是 离 散 型)

$\mu_{l}=E(X^{l})=\sum_{x \in R_{x}}x^{l}p(x;\theta_{1}, \theta_{2},...,\theta_{k}),(X是离散型)$

l = 1, 2, \dots, k

$l=1,2,\cdots,k$
其中，

R_{x}

$R_{x}$ 是

x

$x$ 可能取值的范围。

X_{1}, X_{2}, . . ., X_{n}

$X_{1},X_{2},...,X_{n}$ 是来自

X

$X$ 的样本，样本矩为

A_{l} = \frac{1}{n} \sum_{i = 1}^{n} X_{i}^{l}

$A_{l}=\frac{1}{n}\sum_{i=1}^{n}X_{i}^{l}$
样本矩依概率收敛于相应的总体矩

u_{l}

$u_{l}$ ，样本矩的连续函数依概率收敛于相应的总体矩的连续函数。因此，可以使用样本矩作为相应的总体矩的估计量，样本矩的连续函数作为相应的总体矩的连续函数的估计量，此估计法被称为矩估计法。具体做法如下：

{\begin{matrix} μ_{1} = μ_{1} (θ_{1}, θ_{2}, \dots, θ_{k}) \\ μ_{2} = μ_{2} (θ_{1}, θ_{2}, \dots, θ_{k}) \\ \dots \\ μ_{k} = μ_{k} (θ_{1}, θ_{2}, \dots, θ_{k}) \end{matrix}

$\left\{\begin{matrix} \mu_{1}=\mu_{1}(\theta_{1},\theta_{2},\cdots ,\theta_{k})\\ \mu_{2}=\mu_{2}(\theta_{1},\theta_{2},\cdots ,\theta_{k})\\ \cdots\\ \mu_{k}=\mu_{k}(\theta_{1},\theta_{2},\cdots ,\theta_{k}) \end{matrix}\right.$
这是包含

k

$k$ 个未知数

θ_{1}, θ_{2}, \dots, θ_{k}

$\theta_{1},\theta_{2},\cdots ,\theta_{k}$ 的联立方程组。一般来说，可以得到：

{\begin{matrix} θ_{1} = θ_{1} (μ_{1}, μ_{2}, \dots, μ_{k}) \\ θ_{2} = θ_{2} (μ_{1}, μ_{2}, \dots, μ_{k}) \\ \dots \\ θ_{k} = θ_{k} (μ_{1}, μ_{2}, \dots, μ_{k}) \end{matrix}

$\left\{\begin{matrix} \theta_{1}=\theta_{1}(\mu_{1},\mu_{2},\cdots ,\mu_{k})\\ \theta_{2}=\theta_{2}(\mu_{1},\mu_{2},\cdots ,\mu_{k})\\ \cdots\\ \theta_{k}=\theta_{k}(\mu_{1},\mu_{2},\cdots ,\mu_{k}) \end{matrix}\right.$
以

A_{i}

$A_{i}$ 代替上述中的

μ_{i} ， i = 1, 2, \dots, k

$\mu_{i}，i=1,2,\cdots,k$ ,可得：

\hat{θ_{i}} = θ_{i} (A_{1}, A_{2}, \dots, A_{k}), i = 1, 2, \dots, k

$\hat{\theta_{i}}=\theta_{i}(A_{1},A_{2},\cdots, A_{k}),i=1,2,\cdots,k$
分别作为

θ_{i} ， i = 1, 2, \dots, k

$\theta_{i}，i=1,2,\cdots,k$ 的估计量，称为矩估计量，观察值称为矩估计值。

最大似然估计

离散型

设总体 $X$ 属于离散型，分布律 $P\{X=x\}=p(x;\theta),\theta \in \Theta$ 的形式为已知， $\theta$ 为待估参数， $\Theta$ 为 $\theta$ 可能取值的范围。设 $X_{1},X_{2},\cdots,X_{n}$ 为来自 $X$ 的样本， $x_{1},x_{2},\cdots,x_{n}$ 为对应的样本值，它们都是已知的常数。易知样本 $X_{1},X_{2},\cdots,X_{n}$ 取到 $x_{1},x_{2},\cdots,x_{n}$ 的概率，即事件 $\{X_{1}=x_{1},X_{2}=x_{2},\cdots,X_{n}=x_{n}\}$ 发生的概率为：

L (θ) = L (x_{1}, x_{2}, \dots, x_{n}; θ) = \prod_{i = 1}^{n} p (x_{i}; θ), θ \in Θ

$L(\theta)=L(x_{1},x_{2},\cdots,x_{n};\theta)=\prod_{i=1}^{n}p(x_{i};\theta),\theta \in \Theta$
概率值随

θ

$\theta$ 的取值而变化，是

θ

$\theta$ 的函数，

L (θ)

$L(\theta)$ 称为样本的似然函数。
现在我们已经取到了样本值

x_{1}, x_{2}, \dots, x_{n}

$x_{1},x_{2},\cdots,x_{n}$ ，表明取到这一样本值的概率

L (θ)

$L(\theta)$ 比较大。当

θ = θ_{0} \in Θ

$\theta=\theta_{0} \in \Theta$ 时

L (θ)

$L(\theta)$ 取得最大值，而

Θ

$\Theta$ 中的其他值使得

L (θ)

$L(\theta)$ 取得较小的值，所以认为取

θ_{0}

$\theta_{0}$ 为未知参数

θ

$\theta$ 的估计值最为合理，这就是最大似然估计，即：

L (x_{1}, x_{2}, \dots, x_{n}; \hat{θ}) = max_{θ \in Θ} L (x_{1}, x_{2}, \dots, x_{n}; θ)

$L(x_{1},x_{2},\cdots,x_{n};\hat{\theta})=\max_{\theta \in \Theta} L(x_{1},x_{2},\cdots,x_{n};\theta)$
这样的得到的

\hat{θ}

$\hat{\theta}$ 与样本值

x_{1}, x_{2}, \dots, x_{n}

$x_{1},x_{2},\cdots,x_{n}$ 有关，常被记为

\hat{θ} (x_{1}, x_{2}, \dots, x_{n})

$\hat{\theta}(x_{1},x_{2},\cdots,x_{n})$ ,称为参数

θ

$\theta$ 的最大似然估计值，统计量

\hat{θ} (X_{1}, X_{2}, \dots, X_{n})

$\hat{\theta}(X_{1},X_{2},\cdots,X_{n})$ 称为参数

θ

$\theta$ 的最大似然估计量。

连续型

设总体 $X$ 属于连续型，概率密度 $f(x;\theta),\theta \in \Theta$ 的形式为已知， $\theta$ 为待估参数， $\Theta$ 为 $\theta$ 可能取值的范围。设 $X_{1},X_{2},\cdots,X_{n}$ 为来自 $X$ 的样本， $x_{1},x_{2},\cdots,x_{n}$ 为对应的样本值，它们都是已知的常数。易知样本 $X_{1},X_{2},\cdots,X_{n}$ 取到 $x_{1},x_{2},\cdots,x_{n}$ 的概率，即为随机点 $(X_{1},X_{2},\cdots,X_{n})$ 落在点 $(x_{1},x_{2},\cdots,x_{n})$ 的邻域（边长分别为 $dx_{1},dx_{2},\cdots,dx_{n}$ 的 $n$ 维立方体）内的概率近似为：

\prod_{i = 1}^{n} f (x_{i}; θ) d x_{i}

$\prod_{i=1}^{n}f(x_{i};\theta)dx_{i}$
其值随

θ

$\theta$ 的变化而变化，取

θ

$\theta$ 的估计值

\hat{θ}

$\hat{\theta}$ 使得概率取得最大值，但因子

\prod_{i = 1}^{n} d x_{i}

$\prod_{i=1}^{n}dx_{i}$ 与

θ

$\theta$ 无关，故只需要考虑函数：

L (θ) = L (x_{1}, x_{2}, \dots, x_{n}; θ) = \prod_{i = 1}^{n} f (x_{i}; θ)

$L(\theta)=L(x_{1},x_{2},\cdots,x_{n};\theta)=\prod_{i=1}^{n}f(x_{i};\theta)$
的最大值，

L (θ)

$L(\theta)$ 称为样本的似然函数，若

L (x_{1}, x_{2}, \dots, x_{n}; \hat{θ}) = max_{θ \in Θ} L (x_{1}, x_{2}, \dots, x_{n}; θ)

$L(x_{1},x_{2},\cdots,x_{n};\hat{\theta})=\max_{\theta \in \Theta} L(x_{1},x_{2},\cdots,x_{n};\theta)$
则

\hat{θ} (x_{1}, x_{2}, \dots, x_{n})

$\hat{\theta}(x_{1},x_{2},\cdots,x_{n})$ ,称为参数

θ

$\theta$ 的最大似然估计值，统计量

\hat{θ} (X_{1}, X_{2}, \dots, X_{n})

$\hat{\theta}(X_{1},X_{2},\cdots,X_{n})$ 称为参数

θ

$\theta$ 的最大似然估计量。

对数似然方程

确定最大似然估计量的问题归结为求 $L(\theta)$ 的最大值问题。很多情况下， $p(x;\theta)$ 和 $f(x;\theta)$ 关于 $\theta$ 可微，这时 $\hat{\theta}$ 可从方程：

\frac{d L (θ)}{d θ} = 0

$\frac{\mathrm{d} L(\theta)}{\mathrm{d} \theta}=0$ 解得。又因为

L (θ)

$L(\theta)$ 和

\ln L (θ)

$\ln L(\theta)$ 在同一

θ

$\theta$ 处取得极值，因此

θ

$\theta$ 的最大似然估计

θ

$\theta$ 也可以从方程

\frac{d \ln L (θ)}{d θ} = 0

$\frac{ \mathrm{d} \ln L(\theta)}{\mathrm{d} \theta}=0$ 求的，而使用对数方程求解比较方便，称为对数似然方程。

参数估计

点估计

矩估计法

最大似然估计

离散型

连续型

对数似然方程

猜你喜欢