【学习笔记】Pattern Recognition&Machine Learning [1.2] Probability Theory(1)贝叶斯理论

    这节讲了概率论中的一些基本概念,这里记录一下对贝叶斯理论的理解。

    首先简单描述一下贝叶斯理论。

    对于一个随机事件,我们首先给出先验分布,不妨设为p(w)。当新的试验D发生时,即我们观察到新的试验结果D时,我们就可以得到关于这个随机事件的更多信息,从而得到后验(posterior)分布p(w|D)(即更新后的p(w))。p(w|D)可通过以下方式计算:

    由条件概率的定义可得 p(w|D)p(D) = p(D|w)p(w)

    变形即得 p(w|D) = p(D|w)p(w)/p(D) (即贝叶斯理论)(*)

    这里p(D|w)是先验分布p(w)下观察到D的可能,这个值与p(D)越接近就说明p(w)越接近频率学派中的“真实值”,也就决定了p(w)的修正幅度,从而是反映了新试验结果对贝叶斯理论中的p(w)的影响。

    p(D|w)可看作是w的函数,也就是所谓“似然函数(likelihood function)”。给出这个定义后,我们可以这样描述贝叶斯理论:

    posterior  likelihood * prior

    但是,我们仍需要计算p(D):

 P(D) = ∫p(D|w)p(w) dw

    在实际情况中,w的分布范围即参数空间是非常大的,这就造成了计算困难,也就限制了贝叶斯理论的推广应用。而现在,随着sample methods的发展,我们可以使用诸如马尔可夫链蒙特卡洛方法等来求近似解。近来,更有效的确定性近似(deterministic approximation)理论框架,如变分贝叶斯和期望传播,也开始发展起来。

猜你喜欢

转载自blog.csdn.net/tendernight1/article/details/80700795