EM概率统计基础(二)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/weixin_38371360/article/details/85265247

前言

前面《EM概率统计基础(一)》简单讲解了后验概率和先验概率之间的关系,得到如下结果:

先验概率乘以似然函数,正比于后验概率

\large Posterior\propto Likelihood\;\ast\;Prior

那么 似然函数是什么,它和概率又有什么关系,希望可以总结总结。

似然函数

Likelihood Function

似然函数也称为似然,是一个关于统计模型参数的函数,也就是这个函数中自变量统计模型的参数。似然函数是关于统计参数的函数,可以用来评估一组统计的参数。

似然函数的定义,它是给定联合样本值\large x 下关于(未知)参数 \large \theta 的函数

\large L\left(\theta|x \right )=f\left(x|\theta \right )

 \large x 表示联合样本随机变量\large X 取到的值,即X=x

\large \theta 是指未知参数,它属于参数空间;

\large f\left(\theta|x \right )是一个密度函数,它表示(给定)\large \theta 下关于联合样本值\large x 的联合密度函数

所以从定义上可以看出似然函数和密度函数完全两个数学对象:前者是关于 \large \theta 的函数,后者是关于\large x 的函数。这里的等号 = 可以理解成函数值形式的相等,而不是两个函数本身是同一个函数。

似然和概率的区别

首先给出一个简便的区分方法,根据定义:

“xxxx的概率”中xxxx只能是概率空间中的事件,即事件(发生)的概率是多少,因为时间具有概率结构从而刻画随机性,所以才能谈概率

“xxxx的似然”中xxxx只能是参数,比如说上文所述的参数等于\large \theta 时的似然是多少。

举个栗子:

已知一个硬币是均匀的(在抛的过程中,正反面的概率相等),那连续10次正面朝上的概率是多少,这是一个概率问题。

如果一个硬币在10次抛落中均正面朝上,那硬币的是均匀的(在抛落中,正反面的概率相等)概率是多少,此时的概率是似然。

Probability is used before data are available to describe possible future outcomes given a fixed value for the parameter (or parameter vector).

Likelihood is used after data are available to describe a function of a parameter (or parameter vector) for a given outcome. 
The likelihood of a set of parameter values, θ, given outcomes x, is equal to the probability of those observed outcomes given those parameter values, that is 
 

有趣的栗子

这个栗子摘自Quora上一个计算机系教授的回答,很有意思。

其将概率密度函数和似然函数之间类比成\large 2^a 与 \large a^2 之间的关系。

假设一个函数为\large a^b的函数,这个函数包含两个变量。

如果设置b = 2,那么可以得到一个关于a的二次函数,即\large a^2

 如果设置为a = 2 ,那么将得到一个指数函数,即\large 2^b

可以看出,这两个函数虽然有着不同的名字,但源自于同一个函数\large a^b

同样的,\large P\left(x|\theta \right )也是一个具有两个变量的函数,如果你将\large \theta设置为常量 ,那么你可以得到一个Probability Function(function of \large x),但如果你设置\large x 为常量,那么你可以得到一个Likelihood Function(function of \large \theta

以下举一个栗子(没错,我超喜欢吃栗子的)

有一个硬币,它有 \large \theta 的概率会正面向上,那么也就有1-\large \theta 的概率会反面向上。\large \theta 存在但未知。此时,你为了获得 \large \theta 的具体数值,你决定做实验:抛这枚硬币10次,得到一个序列x=HHTTHTHHHH

通过概率论基础我们可以得出,出现此序列的概率为:\theta\cdot\theta\cdot\left(1-\theta \right )\cdot\left(1-\theta \right )\cdot\theta\cdot\left(1-\theta \right )\cdot\theta\cdot\theta\cdot\theta\cdot\theta

我们尝试了所有\large \theta 的值,画出了下面的图:

这个曲线就是\large \theta 的似然函数,通过了解在某一假设下,已知数据发生的可能性,来评价到底哪一个假设更加接近于\large \theta 的 真值。

如图所示,最可能的假设是\theta=0.7,但实际上这个实验量太小,无法税负你这个硬币是均质的,但0.7就是最大似然估计,只是因为样本太少而导致最大似然值偏差过大,如果扩充样本空间,H和T的样本数量将趋近于1:1,那最终求得的最大似然估计将接近0.5.

总结

常说的概率指的是给定参数后,预测即将发生的事件的可能性,而似然概率则正好相反,我们关注的量不再是时间的发生概率,而是已知发生了某些事件,我们希望知道参数应该是多少。最大似然概率就是在已知观测数据的前提下,找到使得似然概率最大的参数值。

此篇只是简单介绍了下似然函数和概率之间的区别,下篇希望总结一下极大似然估计(MLE)和极大后验估计(MAP),如果有什么错误,欢迎大佬们批评指正。

参考文献

https://www.quora.com/What-is-the-difference-between-probability-and-likelihood-1/answer/Jason-Eisner?share=cbfeda82&srid=zDgIt

https://blog.csdn.net/jasonwayne/article/details/51824832

猜你喜欢

转载自blog.csdn.net/weixin_38371360/article/details/85265247