概率论基础知识(三) 参数估计
1、矩
矩是用来描述随机变量的某些特征的数字,即求平均值,用大写字母E表示。
矩是更具有一般意义的数字特征。
设有随机变量X,若
E(∣X∣k)<+∞(即:存在且有限),则称
αk=E(Xk),k=1, 2, …是X的k阶原点矩。
若E(X)存在,且
E(∣X−EX∣k)<+∞,则称
βk=E(X−EX)k,k=1,2,...是X的k阶中心矩。
期望EZ:一阶原点矩
方差DZ:二阶中心距
高阶矩存在,则低阶矩显然存在。
2、点估计之矩估计
点估计
设总体的分布函数为
F(x,θ1,θ2,...,θk)(分布已确定,有未知参数),以样本
X1,X2,...,Xn对未知参数
θi(i=1,2,...,n)构造一个合适的统计量:
θ^i=θ^i(X1,X2,...,Xn)每当有一组具体的样本值
x1,x2,...,xn,将一个数值
θ^i(X1,X2,...,Xn)作为
θi的估计(点估计)。
简单来说,就是已知总体分布,由样本推断未知参数。
矩估计
以样本矩作为总体矩的估计。
总体矩:
ak=EXk,bk=E(X−EX)k
样本矩:
αk=n1i=1∑nXik,βk=n1i=1∑n(Xi−X^)k
由大数定律可知:
αk→ak,βk→bk
3、点估计之极大似然估计法
基本思想:最大可能性原则(似然即是可能性)
设总体分布已知p(x),含有一个或n个未知参数
θ1,θ2,...,θn
X1,X2,...,Xn为来自该总体的样本;
x1,x2,...,xn是样本的观测值。
这相当于事件
X1=x1,X2=x2,...,Xn=xn是最可能发生的事件,我们认为它有最大概率。
样本的(联合)概率密度:
∏i=1np(x,θ1,θ2,...,θn)=L(x1,...,xn,θ1,θ2,...,θn)
联合概率密度主要采用微积分方法求解:概率统计“搭台”,微积分“唱戏”。
使似然函数L取到最大值的
θ^1,θ^2,...,θ^n称为未知参数
θ1,θ2,...,θn的极大似然估计值。
简单来说,就是:
认为观测值是最有可能发生的样本,故:使其联合概率密度函数最大化时求出的
θ是产生当前结果最有可能的
θ。
1、若总体X为离散型,其概率分布列为
P(X=x)=p(x;θ)其中
θ为未知参数。设
(X1,X2.…,Xn)是取自总体的样本容量为n的样本,则
(X1,X2.…,Xn)的联合分布律为
∏i=1np(xi,θ)。又设
(X1,X2.…,Xn)的一组观测值为
(x1,x2.…,xn),易知样本
X1,X2.…,Xn取到观测值
x1,x2.…,xn的概率为:
L(θ)=L(x1,x2.…,xn;θ)=i=1∏np(xi,θ)这一概率随
θ的取值而变化,它是
θ的函数,称
L(θ)为样本的似然函数。
2、若总体X为连续型,其概率密度函数为
f(x;θ),其中
θ为未知参数。设
(X1,X2.…,Xn)是取自总体的样本容量为n的简单样本,则
(X1,X2.…,Xn)的联合概率密度函数为
∏i=1nf(xi,θ)。又设
(X1,X2.…,Xn)的一组观测值为
x1,x2.…,xn,则随机点
(X1,X2.…,Xn)落在点
x1,x2.…,xn的邻边(边长分别为
dx1,dx2,…,dxn的n维立方体)内的概率近似地为
∏i=1nf(xi,θ)dxi。
考虑函数
L(θ)=L(x1,x2.…,xn;θ)=i=1∏nf(xi,θ)
同样,
L(θ)称为样本的似然函数。
极大似然估计法原理就是固定样本观测值
x1,x2.…,xn,挑选参数
θ使
L(x1,x2.…,xn;θ^)=maxL(x1,x2.…,xn;θ)这样得到的
θ^与样本值有关,
θ^(x1,x2.…,x1)称为参数
θ的极大似然估计值,其相应的统计量
θ^(X1,X2…,X1)称为
θ的极大似然估计量。极大似然估计简记为MLE或
θ^。
问题是如何把参数
θ的极大似然估计
θ^求出。更多场合是利用
lnL(θ)是
L(θ)的增函数,故
lnL(θ)与
L(θ)在同一点处达到最大值,于是对似然函数
L(θ)取对数,利用微分学知识转化为求解对数似然方程
∂θj∂lnL(θ)=0,j=1,2,...,n解此方程并对解做进一步的判断。但由最值原理,如果最值存在,此方程组求得的驻点即为所求的最值点,就可以很到参数的极大似然估计。极大似然估计法一般属于这种情况,所以可以直接按上述步骤求极大似然估计。
对逻辑回归:
二分类任务可看作做了n次独立同分布试验的二项分布。
已知总体概率分布:
P(y∣x;ω)=⎩⎨⎧Φ(X),1−Φ(X),if y=1if y=0上式可改写为:
P(y∣x;ω)=Φ(X)y(1−Φ(X))(1−y)因此,联合概率密度为:
L(ω)=i=1∏np(y(i)∣θ,ω)=i=1∏nΦ(X(i))y(i)(1−Φ(X(i)))(1−y(i))取对数可得:
l(ω)=i=1∑nlnp(y(i)∣θ,ω)=i=1∑ny(i)ln[Φ(X(i))]+(1−y(i))ln[(1−Φ(X(i)))]
对
L(ω)求极大值,可求出最有可能的
ω。
由于该函数是凸函数,故可采用数值优化算法如梯度下降法、牛顿法求其最优解。
以下采用梯度下降法:
令
J(θ)=−l(ω)=−i=1∑ny(i)ln[Φ(X(i))]+(1−y(i))ln[(1−Φ(X(i)))]
∂θj∂J(θ)=−i=1∑n[y(i)Φ(X(i))1−(1−y(i))(1−Φ(X(i)))1]∂θj∂Φ(X(i))
由于对于sigmoid函数:
Φ′(X)=Φ(X)(1−Φ(X))
∂ω∂(ωTx+b)=x
故:
=−i=1∑n[y(i)Φ(X(i))1−(1−y(i))(1−Φ(X(i)))1]Φ(X(i))(1−Φ(X(i)))∂θj∂X(i)
=−i=1∑n[y(i)(1−Φ(X(i)))−(1−y(i))Φ(X(i))]xj(i)
从而得到:
θj:=θj+ηi=1∑n(y(i)−Φ(X(i)))xj(i)
随机梯度下降:
θj:=θj+η(y(i)−Φ(X(i)))xj(i),foriinrange(n)