统计推断:参数估计(极大似然估计,MLE)

版权声明:本文就算不是qcy原创,也经过了qcy的一番整理……。不做商业用途。欢迎转载。 https://blog.csdn.net/qcyfred/article/details/88654278

以前总是不能很直觉地理解极大似然估计(MLE),现在把自己作为一个初学者,梳理一下。

见过的很多书、文章,甚至老师在教学的时候,两步,定义(这叫似然函数,记住) + 定理(找参数,使似然函数达到最大,就是MLE估计的参数),连“似然”是个啥意思都不解释,就结束了。然后在求极值点上面苦下功夫。这么教书,都在干嘛呢…学个毛儿啊。

统计推断,感觉像是在坚持一种信念。而这种信念,似乎就是,大概率事件比小概率事件,更容易发生。

引例

例1. 一个箱子里有10个球=9个白球+1个黑球。只让你摸一次,要你猜,你会摸出白球还是黑球呢。

这还用猜吗?肯定是白球啊。肯定本来的意思是100%,其实在这里,仅仅表示你的信念,而已。

例2. 两个箱子,分别装有10个球。A箱子:9白+1黑。B箱:1白+9黑。现在有个人从其中一个箱子里,摸出了一个白球。要你猜,这个人是从A箱子摸的球,还是从B箱子里摸的球。

同样,这还用猜吗?肯定是从A箱子里摸出的球啊。

综合上面两个例子,归纳出一种想法:从已经发生的事件出发,去推断、估计发生导致发生这个事件的一些前置条件。比如,是在什么情况下,最有可能发生这一事件。例1中,如果你猜摸出一个黑球,也没错,毕竟还有10%的正确率呢。但人应该不是傻子,有90%正确率的答案,干嘛不选…。例2中,如果你猜是从B箱子里摸出的球,也没错。只是如果试验者是从A箱子里摸球,会对出现“摸出一个白球”这一现象,更加有利

参数估计:极大似然估计,MLE(maximum likelyhood estimation)

这个名字的意思,极大:最大;似然:相似,像、likelyhood,可能性。

统计学和概率论有点相反的意思。概率论是已知分布计算概率,统计是已知概率(至少说频率,或者说观察值)去猜分布。

如果已知X服从某一分布(如果不知道,你就假设一个,总比没有强),那么这个分布一般是由一些参数决定的。比如二项分布的p,比如正态分布的均值u和标准差sigma,比如泊松分布的lambda。

那么,根据这种信念(与小概率事件相比,认为大概率事件更容易发生。一次试验中,发生的是大概率事件,而不是小概率事件),就可以估计出参数的值,让发生的事件所对应的概率最大。这就是MLE。

正儿八经的MLE

1. 离散情形 

一个盒子里有白球+黑球若干个。白球的比例为p(未知的参数),黑球的比例为1-p。有放回地摸球,摸了100次,出现了70次白球,出现了30次黑球,把这个事件记为事件A。现在叫你估计这个p大概是多少。

已经发生的事件,观察值,当然已知。70次白球,30次黑球。那拍脑袋(PND模型)就知道p=0.7。这个PND,靠谱吗?

用MLE的信念来验证。发生这件事情A的概率是多少呢? P(A)= p^70 + (1-p)^30。可以发现,P(A)会随着p的变化而变化,P(A)是p的一个函数,而p是等待我们估计的参数。

按照MLE的想法,事件A已经发生,那我们应该按照信念,找一个参数p,使得最有利于事件A发生,即找一个p,让A最容易发生。不然PND猜一个p=0.1,也不符合直觉啊。

假如说,有两个人猜p的值。第1个人说,p=0,第2个人说p=0.1。那你赞同哪个人呢?肯定赞同第2个人啊。因为,相比于第1个人的结果,第2个人估计的p更可能让事件A发生。不过,第2个人的结果真的就很好吗?有没有更好的呢?

于是你就一直调整p的值,直到P(A)达到最大值,此时的p就是MLE估计的值。反正p介于[0, 1],你就暴利、枚举去测试咯…

有点学问的人,当然要对P(A)= p^70 + (1-p)^30这个式子做文章了。记P(A)= p^70 + (1-p)^30为L(p)。

p_est = argmax{L(p)}。求最大值,又可导,求个极值、端点值,调出使得L(p)最大的p就好了。不信你求个导计算一下,使得P(A)取得最大的p,还正好就是0.7。和一开始拍脑袋猜的一样。不过注意了,都是猜,MLE也是猜,拍脑袋也是猜。这就是神奇的统计。猜了以后,想方设法,自圆其说…。

这就是离散形式的MLE。

2. 连续情形

一个正态分布随机数发生器,产生了一堆数字(比如,10.5, 35.5, 40.8, 40.2,42.7, ……)。叫你估计均值u和sigma。

也是,找一个u、找一个sigma,让发生这串数字的可能性最大,最可能出现,那不就是极大似然了吗?

只是说,连续情形下,概率不是概率密度这么简单。连续随机变量取单点值的概率为0,定积分所决定的,所以要取很小的一个区间eps。所谓的出现xi的概率差不多是 f(xi; u, sigma) * dx

两点需要非常注意:(1)概率密度的量纲是 1/[dx] , 而不是 [1]。概率的量纲是 [1]。用概率密度来表示密度,差不多就是 f(x) * dx (想想几何概型的含义)。那在计算最大值点的时候,把dx省去了而已。

(2)概率密度函数f的括号里面,我打的是分号,并不是一竖“|”。| 的意思是条件概率,而这个似乎不应该是条件概率,只是在u, sigma这组参数下的f。我如果不写u, sigma,也没关系。写不写都无所谓,写上只是说明了,f是由u和sigma两个未知的固定参数(这不是随机变量,只是不变参数,仅仅是不知道它们的值而已)决定的。而条件概率就不同了,P(A|B)和P(A)明显是两码事,至少看起来B是个随机事件吧。

所以这个事件 P(出现了观察到的这一堆数字) = P(x = x1, x = x2, x = x3, ...; u , sigma)。如果是独立同分布,那还可以拆成概率的乘积。在计算时,省掉x,那就是一堆概率密度函数的乘积,参数是未知的。找出u和sigma,让这个乘积最大,这就是MLE。

猜你喜欢

转载自blog.csdn.net/qcyfred/article/details/88654278