概率论基础知识（三）参数估计

1、矩

矩是用来描述随机变量的某些特征的数字，即求平均值，用大写字母E表示。
矩是更具有一般意义的数字特征。

设有随机变量X，若 $E(|X|^k)<+\infty$ (即：存在且有限)，则称 $\alpha_k=E(X^k)$ ，k=1, 2, …是X的k阶原点矩。

若E(X)存在，且 $E(|X-EX|^k)<+\infty$ ，则称 $\beta_k=E(X-EX)^k,\; k=1,2, ...$ 是X的k阶中心矩。

期望EZ：一阶原点矩
方差DZ：二阶中心距

高阶矩存在，则低阶矩显然存在。

2、点估计之矩估计

点估计
设总体的分布函数为 $F(x, \theta_1, \theta_2, ... , \theta_k)$ （分布已确定，有未知参数），以样本 $X_1, X_2, ... , X_n$ 对未知参数 $\theta_i(i=1, 2, ... , n)$ 构造一个合适的统计量：
$\hat\theta_i=\hat\theta_i(X_1, X_2, ... , X_n)$ 每当有一组具体的样本值 $x_1, x_2, ... , x_n$ ，将一个数值 $\hat\theta_i(X_1, X_2, ... , X_n)$ 作为 $\theta_i$ 的估计（点估计）。

简单来说，就是已知总体分布，由样本推断未知参数。

矩估计
以样本矩作为总体矩的估计。
总体矩：
$a_k=EX^k, b_k=E(X-EX)^k$
样本矩：
$\alpha_k={1 \over n}\sum_{i=1}^nX_i^k, \beta_k={1 \over n}\sum_{i=1}^n(X_i-\hat X)^k$
由大数定律可知：
$\alpha_k\to a_k, \beta_k\to b_k$

3、点估计之极大似然估计法

基本思想：最大可能性原则（似然即是可能性）
在这里插入图片描述
设总体分布已知p(x)，含有一个或n个未知参数 $\theta_1, \theta_2, ... , \theta_n$
$X_1, X_2, ... , X_n$ 为来自该总体的样本；
$x_1, x_2, ... , x_n$ 是样本的观测值。

这相当于事件 ${X_1=x_1, X_2=x_2, ... , X_n=x_n}$ 是最可能发生的事件，我们认为它有最大概率。

样本的（联合）概率密度：
$\prod_{i=1}^np(x, \theta_1, \theta_2, ... , \theta_n)=L(x_1, ... , x_n, \theta_1, \theta_2, ... , \theta_n)$

联合概率密度主要采用微积分方法求解：概率统计“搭台”，微积分“唱戏”。

使似然函数L取到最大值的 $\hat\theta_1, \hat\theta_2, ... , \hat\theta_n$ 称为未知参数 $\theta_1, \theta_2, ... , \theta_n$ 的极大似然估计值。

简单来说，就是：
认为观测值是最有可能发生的样本，故：使其联合概率密度函数最大化时求出的 $\theta$ 是产生当前结果最有可能的 $\theta$ 。

1、若总体X为离散型，其概率分布列为
$P(X=x)=p(x; \theta)$ 其中 $\theta$ 为未知参数。设 $(X_1, X_2.…, X_n)$ 是取自总体的样本容量为n的样本，则 $(X_1, X_2.…, X_n)$ 的联合分布律为 $\prod_{i=1}^np(x_i, \theta)$ 。又设 $(X_1, X_2.…, X_n)$ 的一组观测值为 $(x_1, x_2.…, x_n)$ ，易知样本 $X_1, X_2.…, X_n$ 取到观测值 $x_1, x_2.…, x_n$ 的概率为：
$L(\theta)=L(x_1, x_2.…, x_n;\theta)=\prod_{i=1}^np(x_i, \theta)$ 这一概率随 $\theta$ 的取值而变化，它是 $\theta$ 的函数，称 $L(\theta)$ 为样本的似然函数。
2、若总体X为连续型，其概率密度函数为 $f(x; \theta)$ ，其中 $\theta$ 为未知参数。设 $(X_1, X_2.…, X_n)$ 是取自总体的样本容量为n的简单样本，则 $(X_1, X_2.…, X_n)$ 的联合概率密度函数为 $\prod_{i=1}^nf(x_i, \theta)$ 。又设 $(X_1, X_2.…, X_n)$ 的一组观测值为 $x_1, x_2.…, x_n$ ，则随机点 $(X_1, X_2.…, X_n)$ 落在点 $x_1, x_2.…, x_n$ 的邻边（边长分别为 $dx_1, dx_2, …, dx_n$ 的n维立方体）内的概率近似地为 $\prod_{i=1}^nf(x_i, \theta)dx_i$ 。
考虑函数
$L(\theta)=L(x_1, x_2.…, x_n;\theta)=\prod_{i=1}^nf(x_i, \theta)$
同样， $L(\theta)$ 称为样本的似然函数。
极大似然估计法原理就是固定样本观测值 $x_1, x_2.…, x_n$ ，挑选参数 $\theta$ 使 $L(x_1, x_2.…, x_n;\hat\theta)=maxL(x_1, x_2.…, x_n;\theta)$ 这样得到的 $\hat\theta$ 与样本值有关， $\hat\theta(x1，x2.…，x1)$ 称为参数 $\theta$ 的极大似然估计值，其相应的统计量 $\hat\theta(X_1，X_2…，X_1)$ 称为 $\theta$ 的极大似然估计量。极大似然估计简记为MLE或 $\hat\theta$ 。
问题是如何把参数 $\theta$ 的极大似然估计 $\hat\theta$ 求出。更多场合是利用 $lnL(\theta)$ 是 $L(\theta)$ 的增函数，故 $lnL(\theta)$ 与 $L(\theta)$ 在同一点处达到最大值，于是对似然函数 $L(\theta)$ 取对数，利用微分学知识转化为求解对数似然方程 $\frac{\partial lnL(\theta)}{\partial\theta_j} = 0, j=1, 2, ..., n$ 解此方程并对解做进一步的判断。但由最值原理，如果最值存在，此方程组求得的驻点即为所求的最值点，就可以很到参数的极大似然估计。极大似然估计法一般属于这种情况，所以可以直接按上述步骤求极大似然估计。

对逻辑回归：
二分类任务可看作做了n次独立同分布试验的二项分布。
已知总体概率分布：
$P(y|x; \omega)= \begin{cases} \Phi(X), & \text{if y=1} \\[2ex] 1-\Phi(X), & \text{if y=0} \end{cases}$ 上式可改写为：
$P(y|x; \omega)=\Phi(X)^y(1-\Phi(X))^{(1-y)}$ 因此，联合概率密度为：
$L(\omega)=\prod_{i=1}^np(y^{(i)}|\theta, \omega) =\prod_{i=1}^n\Phi(X^{(i)})^{y^{(i)}}(1-\Phi(X^{(i)}))^{(1-y^{(i)})}$ 取对数可得：
$l(\omega)=\sum_{i=1}^nlnp(y^{(i)}|\theta, \omega) =\sum_{i=1}^ny^{(i)}ln[\Phi(X^{(i)})]+(1-y^{(i)})ln[(1-\Phi(X^{(i)}))]$
对 $L(\omega)$ 求极大值，可求出最有可能的 $\omega$ 。
由于该函数是凸函数，故可采用数值优化算法如梯度下降法、牛顿法求其最优解。

以下采用梯度下降法：
令
$J(\theta) = -l(\omega)=-\sum_{i=1}^ny^{(i)}ln[\Phi(X^{(i)})]+(1-y^{(i)})ln[(1-\Phi(X^{(i)}))]$
$\frac{\partial J(\theta)}{\partial\theta_j} = -\sum_{i=1}^n[y^{(i)}{1\over \Phi(X^{(i)})}-(1-y^{(i)}){1\over (1-\Phi(X^{(i)}))}]\frac{\partial \Phi(X^{(i)})}{\partial\theta_j}$
由于对于sigmoid函数：
$\Phi'(X)=\Phi(X)(1-\Phi(X))$
$\frac{\partial (\omega^Tx+b)}{\partial \omega} = x$
故：
$=-\sum_{i=1}^n[y^{(i)}{1\over \Phi(X^{(i)})}-(1-y^{(i)}){1\over (1-\Phi(X^{(i)}))}]\Phi(X^{(i)})(1-\Phi(X^{(i)}))\frac{\partial X^{(i)}}{\partial\theta_j}$
$=-\sum_{i=1}^n[y^{(i)}(1-\Phi(X^{(i)}))-(1-y^{(i)})\Phi(X^{(i)})]x^{(i)}_j$
从而得到：
$\theta_j:=\theta_j+\eta\sum_{i=1}^n(y^{(i)}-\Phi(X^{(i)}))x^{(i)}_j$
随机梯度下降：
$\theta_j:=\theta_j+\eta(y^{(i)}-\Phi(X^{(i)}))x^{(i)}_j，for\;i\;in\;range(n)$