概率论基础知识(三) 参数估计

概率论基础知识(三) 参数估计

1、矩

矩是用来描述随机变量的某些特征的数字,即求平均值,用大写字母E表示。
矩是更具有一般意义的数字特征。

设有随机变量X,若 E ( X k ) < + E(|X|^k)<+\infty (即:存在且有限),则称 α k = E ( X k ) \alpha_k=E(X^k) ,k=1, 2, …是X的k阶原点矩

若E(X)存在,且 E ( X E X k ) < + E(|X-EX|^k)<+\infty ,则称 β k = E ( X E X ) k ,    k = 1 , 2 , . . . \beta_k=E(X-EX)^k,\; k=1,2, ... 是X的k阶中心矩

期望EZ:一阶原点矩
方差DZ:二阶中心距

高阶矩存在,则低阶矩显然存在。

2、点估计之矩估计

点估计
设总体的分布函数为 F ( x , θ 1 , θ 2 , . . . , θ k ) F(x, \theta_1, \theta_2, ... , \theta_k) (分布已确定,有未知参数),以样本 X 1 , X 2 , . . . , X n X_1, X_2, ... , X_n 对未知参数 θ i ( i = 1 , 2 , . . . , n ) \theta_i(i=1, 2, ... , n) 构造一个合适的统计量:
θ ^ i = θ ^ i ( X 1 , X 2 , . . . , X n ) \hat\theta_i=\hat\theta_i(X_1, X_2, ... , X_n) 每当有一组具体的样本值 x 1 , x 2 , . . . , x n x_1, x_2, ... , x_n ,将一个数值 θ ^ i ( X 1 , X 2 , . . . , X n ) \hat\theta_i(X_1, X_2, ... , X_n) 作为 θ i \theta_i 的估计(点估计)。

简单来说,就是已知总体分布,由样本推断未知参数。

矩估计
以样本矩作为总体矩的估计。
总体矩:
a k = E X k , b k = E ( X E X ) k a_k=EX^k, b_k=E(X-EX)^k
样本矩:
α k = 1 n i = 1 n X i k , β k = 1 n i = 1 n ( X i X ^ ) k \alpha_k={1 \over n}\sum_{i=1}^nX_i^k, \beta_k={1 \over n}\sum_{i=1}^n(X_i-\hat X)^k
由大数定律可知:
α k a k , β k b k \alpha_k\to a_k, \beta_k\to b_k

3、点估计之极大似然估计法

基本思想:最大可能性原则(似然即是可能性)
在这里插入图片描述
设总体分布已知p(x),含有一个或n个未知参数 θ 1 , θ 2 , . . . , θ n \theta_1, \theta_2, ... , \theta_n
X 1 , X 2 , . . . , X n X_1, X_2, ... , X_n 为来自该总体的样本;
x 1 , x 2 , . . . , x n x_1, x_2, ... , x_n 是样本的观测值。

这相当于事件 X 1 = x 1 , X 2 = x 2 , . . . , X n = x n {X_1=x_1, X_2=x_2, ... , X_n=x_n} 最可能发生的事件,我们认为它有最大概率。

样本的(联合)概率密度:
i = 1 n p ( x , θ 1 , θ 2 , . . . , θ n ) = L ( x 1 , . . . , x n , θ 1 , θ 2 , . . . , θ n ) \prod_{i=1}^np(x, \theta_1, \theta_2, ... , \theta_n)=L(x_1, ... , x_n, \theta_1, \theta_2, ... , \theta_n)

联合概率密度主要采用微积分方法求解:概率统计“搭台”,微积分“唱戏”。

使似然函数L取到最大值的 θ ^ 1 , θ ^ 2 , . . . , θ ^ n \hat\theta_1, \hat\theta_2, ... , \hat\theta_n 称为未知参数 θ 1 , θ 2 , . . . , θ n \theta_1, \theta_2, ... , \theta_n 极大似然估计值

简单来说,就是:
认为观测值是最有可能发生的样本,故:使其联合概率密度函数最大化时求出的 θ \theta 是产生当前结果最有可能的 θ \theta

1、若总体X为离散型,其概率分布列为
P ( X = x ) = p ( x ; θ ) P(X=x)=p(x; \theta) 其中 θ \theta 为未知参数。设 ( X 1 , X 2 . , X n ) (X_1, X_2.…, X_n) 是取自总体的样本容量为n的样本,则 ( X 1 , X 2 . , X n ) (X_1, X_2.…, X_n) 的联合分布律为 i = 1 n p ( x i , θ ) \prod_{i=1}^np(x_i, \theta) 。又设 ( X 1 , X 2 . , X n ) (X_1, X_2.…, X_n) 的一组观测值为 ( x 1 , x 2 . , x n ) (x_1, x_2.…, x_n) ,易知样本 X 1 , X 2 . , X n X_1, X_2.…, X_n 取到观测值 x 1 , x 2 . , x n x_1, x_2.…, x_n 的概率为:
L ( θ ) = L ( x 1 , x 2 . , x n ; θ ) = i = 1 n p ( x i , θ ) L(\theta)=L(x_1, x_2.…, x_n;\theta)=\prod_{i=1}^np(x_i, \theta) 这一概率随 θ \theta 的取值而变化,它是 θ \theta 的函数,称 L ( θ ) L(\theta) 为样本的似然函数。
2、若总体X为连续型,其概率密度函数为 f ( x ; θ ) f(x; \theta) ,其中 θ \theta 为未知参数。设 ( X 1 , X 2 . , X n ) (X_1, X_2.…, X_n) 是取自总体的样本容量为n的简单样本,则 ( X 1 , X 2 . , X n ) (X_1, X_2.…, X_n) 的联合概率密度函数为 i = 1 n f ( x i , θ ) \prod_{i=1}^nf(x_i, \theta) 。又设 ( X 1 , X 2 . , X n ) (X_1, X_2.…, X_n) 的一组观测值为 x 1 , x 2 . , x n x_1, x_2.…, x_n ,则随机点 ( X 1 , X 2 . , X n ) (X_1, X_2.…, X_n) 落在点 x 1 , x 2 . , x n x_1, x_2.…, x_n 的邻边(边长分别为 d x 1 , d x 2 , , d x n dx_1, dx_2, …, dx_n 的n维立方体)内的概率近似地为 i = 1 n f ( x i , θ ) d x i \prod_{i=1}^nf(x_i, \theta)dx_i
考虑函数
L ( θ ) = L ( x 1 , x 2 . , x n ; θ ) = i = 1 n f ( x i , θ ) L(\theta)=L(x_1, x_2.…, x_n;\theta)=\prod_{i=1}^nf(x_i, \theta)
同样, L ( θ ) L(\theta) 称为样本的似然函数。
极大似然估计法原理就是固定样本观测值 x 1 , x 2 . , x n x_1, x_2.…, x_n ,挑选参数 θ \theta 使 L ( x 1 , x 2 . , x n ; θ ^ ) = m a x L ( x 1 , x 2 . , x n ; θ ) L(x_1, x_2.…, x_n;\hat\theta)=maxL(x_1, x_2.…, x_n;\theta) 这样得到的 θ ^ \hat\theta 与样本值有关, θ ^ ( x 1 x 2. x 1 ) \hat\theta(x1,x2.…,x1) 称为参数 θ \theta 的极大似然估计值,其相应的统计量 θ ^ ( X 1 X 2 X 1 ) \hat\theta(X_1,X_2…,X_1) 称为 θ \theta 的极大似然估计量。极大似然估计简记为MLE或 θ ^ \hat\theta
问题是如何把参数 θ \theta 的极大似然估计 θ ^ \hat\theta 求出。更多场合是利用 l n L ( θ ) lnL(\theta) L ( θ ) L(\theta) 的增函数,故 l n L ( θ ) lnL(\theta) L ( θ ) L(\theta) 在同一点处达到最大值,于是对似然函数 L ( θ ) L(\theta) 取对数,利用微分学知识转化为求解对数似然方程 l n L ( θ ) θ j = 0 , j = 1 , 2 , . . . , n \frac{\partial lnL(\theta)}{\partial\theta_j} = 0, j=1, 2, ..., n 解此方程并对解做进一步的判断。但由最值原理,如果最值存在,此方程组求得的驻点即为所求的最值点,就可以很到参数的极大似然估计。极大似然估计法一般属于这种情况,所以可以直接按上述步骤求极大似然估计。

对逻辑回归:
二分类任务可看作做了n次独立同分布试验的二项分布。
已知总体概率分布:
P ( y x ; ω ) = { Φ ( X ) , if y=1 1 Φ ( X ) , if y=0 P(y|x; \omega)= \begin{cases} \Phi(X), & \text{if y=1} \\[2ex] 1-\Phi(X), & \text{if y=0} \end{cases} 上式可改写为:
P ( y x ; ω ) = Φ ( X ) y ( 1 Φ ( X ) ) ( 1 y ) P(y|x; \omega)=\Phi(X)^y(1-\Phi(X))^{(1-y)} 因此,联合概率密度为:
L ( ω ) = i = 1 n p ( y ( i ) θ , ω ) = i = 1 n Φ ( X ( i ) ) y ( i ) ( 1 Φ ( X ( i ) ) ) ( 1 y ( i ) ) L(\omega)=\prod_{i=1}^np(y^{(i)}|\theta, \omega) =\prod_{i=1}^n\Phi(X^{(i)})^{y^{(i)}}(1-\Phi(X^{(i)}))^{(1-y^{(i)})} 取对数可得:
l ( ω ) = i = 1 n l n p ( y ( i ) θ , ω ) = i = 1 n y ( i ) l n [ Φ ( X ( i ) ) ] + ( 1 y ( i ) ) l n [ ( 1 Φ ( X ( i ) ) ) ] l(\omega)=\sum_{i=1}^nlnp(y^{(i)}|\theta, \omega) =\sum_{i=1}^ny^{(i)}ln[\Phi(X^{(i)})]+(1-y^{(i)})ln[(1-\Phi(X^{(i)}))]
L ( ω ) L(\omega) 求极大值,可求出最有可能的 ω \omega
由于该函数是凸函数,故可采用数值优化算法如梯度下降法、牛顿法求其最优解。

以下采用梯度下降法:

J ( θ ) = l ( ω ) = i = 1 n y ( i ) l n [ Φ ( X ( i ) ) ] + ( 1 y ( i ) ) l n [ ( 1 Φ ( X ( i ) ) ) ] J(\theta) = -l(\omega)=-\sum_{i=1}^ny^{(i)}ln[\Phi(X^{(i)})]+(1-y^{(i)})ln[(1-\Phi(X^{(i)}))]
J ( θ ) θ j = i = 1 n [ y ( i ) 1 Φ ( X ( i ) ) ( 1 y ( i ) ) 1 ( 1 Φ ( X ( i ) ) ) ] Φ ( X ( i ) ) θ j \frac{\partial J(\theta)}{\partial\theta_j} = -\sum_{i=1}^n[y^{(i)}{1\over \Phi(X^{(i)})}-(1-y^{(i)}){1\over (1-\Phi(X^{(i)}))}]\frac{\partial \Phi(X^{(i)})}{\partial\theta_j}
由于对于sigmoid函数:
Φ ( X ) = Φ ( X ) ( 1 Φ ( X ) ) \Phi'(X)=\Phi(X)(1-\Phi(X))
( ω T x + b ) ω = x \frac{\partial (\omega^Tx+b)}{\partial \omega} = x
故:
= i = 1 n [ y ( i ) 1 Φ ( X ( i ) ) ( 1 y ( i ) ) 1 ( 1 Φ ( X ( i ) ) ) ] Φ ( X ( i ) ) ( 1 Φ ( X ( i ) ) ) X ( i ) θ j =-\sum_{i=1}^n[y^{(i)}{1\over \Phi(X^{(i)})}-(1-y^{(i)}){1\over (1-\Phi(X^{(i)}))}]\Phi(X^{(i)})(1-\Phi(X^{(i)}))\frac{\partial X^{(i)}}{\partial\theta_j}
= i = 1 n [ y ( i ) ( 1 Φ ( X ( i ) ) ) ( 1 y ( i ) ) Φ ( X ( i ) ) ] x j ( i ) =-\sum_{i=1}^n[y^{(i)}(1-\Phi(X^{(i)}))-(1-y^{(i)})\Phi(X^{(i)})]x^{(i)}_j
从而得到:
θ j : = θ j + η i = 1 n ( y ( i ) Φ ( X ( i ) ) ) x j ( i ) \theta_j:=\theta_j+\eta\sum_{i=1}^n(y^{(i)}-\Phi(X^{(i)}))x^{(i)}_j
随机梯度下降:
θ j : = θ j + η ( y ( i ) Φ ( X ( i ) ) ) x j ( i ) f o r    i    i n    r a n g e ( n ) \theta_j:=\theta_j+\eta(y^{(i)}-\Phi(X^{(i)}))x^{(i)}_j,for\;i\;in\;range(n)

猜你喜欢

转载自blog.csdn.net/olizxq/article/details/82818579