统计推断：参数估计（极大似然估计，MLE）

以前总是不能很直觉地理解极大似然估计（MLE），现在把自己作为一个初学者，梳理一下。

见过的很多书、文章，甚至老师在教学的时候，两步，定义（这叫似然函数，记住） + 定理（找参数，使似然函数达到最大，就是MLE估计的参数），连“似然”是个啥意思都不解释，就结束了。然后在求极值点上面苦下功夫。这么教书，都在干嘛呢…学个毛儿啊。

统计推断，感觉像是在坚持一种信念。而这种信念，似乎就是，大概率事件比小概率事件，更容易发生。

引例

例1. 一个箱子里有10个球=9个白球+1个黑球。只让你摸一次，要你猜，你会摸出白球还是黑球呢。

这还用猜吗？肯定是白球啊。肯定本来的意思是100%，其实在这里，仅仅表示你的信念，而已。

例2. 两个箱子，分别装有10个球。A箱子：9白+1黑。B箱：1白+9黑。现在有个人从其中一个箱子里，摸出了一个白球。要你猜，这个人是从A箱子摸的球，还是从B箱子里摸的球。

同样，这还用猜吗？肯定是从A箱子里摸出的球啊。

综合上面两个例子，归纳出一种想法：从已经发生的事件出发，去推断、估计发生导致发生这个事件的一些前置条件。比如，是在什么情况下，最有可能发生这一事件。例1中，如果你猜摸出一个黑球，也没错，毕竟还有10%的正确率呢。但人应该不是傻子，有90%正确率的答案，干嘛不选…。例2中，如果你猜是从B箱子里摸出的球，也没错。只是如果试验者是从A箱子里摸球，会对出现“摸出一个白球”这一现象，更加有利。

参数估计：极大似然估计，MLE（maximum likelyhood estimation）

这个名字的意思，极大：最大；似然：相似，像、likelyhood，可能性。

统计学和概率论有点相反的意思。概率论是已知分布计算概率，统计是已知概率（至少说频率，或者说观察值）去猜分布。

如果已知X服从某一分布（如果不知道，你就假设一个，总比没有强），那么这个分布一般是由一些参数决定的。比如二项分布的p，比如正态分布的均值u和标准差sigma，比如泊松分布的lambda。

那么，根据这种信念（与小概率事件相比，认为大概率事件更容易发生。一次试验中，发生的是大概率事件，而不是小概率事件），就可以估计出参数的值，让发生的事件所对应的概率最大。这就是MLE。

正儿八经的MLE

1. 离散情形

一个盒子里有白球+黑球若干个。白球的比例为p（未知的参数），黑球的比例为1-p。有放回地摸球，摸了100次，出现了70次白球，出现了30次黑球，把这个事件记为事件A。现在叫你估计这个p大概是多少。

已经发生的事件，观察值，当然已知。70次白球，30次黑球。那拍脑袋（PND模型）就知道p=0.7。这个PND，靠谱吗？

用MLE的信念来验证。发生这件事情A的概率是多少呢？ P(A)= p^70 + (1-p)^30。可以发现，P(A)会随着p的变化而变化，P(A)是p的一个函数，而p是等待我们估计的参数。

按照MLE的想法，事件A已经发生，那我们应该按照信念，找一个参数p，使得最有利于事件A发生，即找一个p，让A最容易发生。不然PND猜一个p=0.1，也不符合直觉啊。

假如说，有两个人猜p的值。第1个人说，p=0，第2个人说p=0.1。那你赞同哪个人呢？肯定赞同第2个人啊。因为，相比于第1个人的结果，第2个人估计的p更可能让事件A发生。不过，第2个人的结果真的就很好吗？有没有更好的呢？

于是你就一直调整p的值，直到P(A)达到最大值，此时的p就是MLE估计的值。反正p介于[0, 1]，你就暴利、枚举去测试咯…

有点学问的人，当然要对P(A)= p^70 + (1-p)^30这个式子做文章了。记P(A)= p^70 + (1-p)^30为L(p)。

p_est = argmax{L(p)}。求最大值，又可导，求个极值、端点值，调出使得L(p)最大的p就好了。不信你求个导计算一下，使得P(A)取得最大的p，还正好就是0.7。和一开始拍脑袋猜的一样。不过注意了，都是猜，MLE也是猜，拍脑袋也是猜。这就是神奇的统计。猜了以后，想方设法，自圆其说…。

这就是离散形式的MLE。

2. 连续情形

一个正态分布随机数发生器，产生了一堆数字（比如，10.5, 35.5, 40.8, 40.2，42.7， ……）。叫你估计均值u和sigma。

也是，找一个u、找一个sigma，让发生这串数字的可能性最大，最可能出现，那不就是极大似然了吗？

只是说，连续情形下，概率不是概率密度这么简单。连续随机变量取单点值的概率为0，定积分所决定的，所以要取很小的一个区间eps。所谓的出现xi的概率差不多是 f(xi; u, sigma) * dx。

两点需要非常注意：（1）概率密度的量纲是 1/[dx] ，而不是 [1]。概率的量纲是 [1]。用概率密度来表示密度，差不多就是 f(x) * dx （想想几何概型的含义）。那在计算最大值点的时候，把dx省去了而已。

（2）概率密度函数f的括号里面，我打的是分号，并不是一竖“|”。| 的意思是条件概率，而这个似乎不应该是条件概率，只是在u, sigma这组参数下的f。我如果不写u, sigma，也没关系。写不写都无所谓，写上只是说明了，f是由u和sigma两个未知的固定参数（这不是随机变量，只是不变参数，仅仅是不知道它们的值而已）决定的。而条件概率就不同了，P(A|B)和P(A)明显是两码事，至少看起来B是个随机事件吧。

所以这个事件 P(出现了观察到的这一堆数字) = P(x = x1, x = x2, x = x3, ...; u , sigma)。如果是独立同分布，那还可以拆成概率的乘积。在计算时，省掉x，那就是一堆概率密度函数的乘积，参数是未知的。找出u和sigma，让这个乘积最大，这就是MLE。

统计推断：参数估计（极大似然估计，MLE）

猜你喜欢