贝叶斯模型的理解(1)

一直以来,都在听说贝叶斯概率模型,这里记录一下自己对贝叶斯概率模型的一些理解。
贝叶斯模型的建立主要有3个概念:1.先验概率。2.最大似然函数。3.后验概率

这3个概念怎么建立联系呢,以投硬币这个简单的例子来理解最好。
例子:
首先为抛硬币制定一个规则:押一块钱,抛10次硬币,出现正面的次数小于等于6次就额外赢得一块钱,否则就是输掉押的一块钱。

1.先验概率:
根据概率论知识:抛硬币实验服从二项分布B(N,p),N是进行的实验的次数,p是发生某种结果的概率,在这里p就是出现正面的概率。
于是在抛硬币实验中,最重要的先验信息就是:抛一次硬币,出现正面和反面的概率,是0.5,或者硬币做了手脚,p不等于0.5。这个概率p就是预先知道的一些模型参数。反正我们是提前知道的,做了手脚还是没做手脚。

2.最大似然函数:在给定的样本数据下,找一个概率分布函数或者概率密度函数(似然函数),使得这些已发生的事件(得到的样本数据),出现的概率是最大的。
在抛硬币的例子中,如果有信息:有个人抛了10次硬币,其中出现了9次正面,一次反面。
那么现在就是要建立一个概率密度函数来解释这个现象。
下面根据先验信息,建立下面的似然函数:
这里写图片描述

y表示正面向上。
我们的目标是:在现有的观测结果——抛了10次硬币,其中出现了9次正面,一次反面:

让P(Y=y|r,N)取最大值。那么 r 究竟等于多少,才能使得P(Y=y|r,N)最大呢?也即 r 究竟取多少,才能使得抛了10次硬币,其中出现了9次正面,一次反面 发生的概率是最大的?
下面式子取得最大值,就能解释“抛了10次硬币,其中出现了9次正面”这个现象。
这里写图片描述
为了更方便地计算最大值,对上面的概率分布取对数log,用L表示,得到下式:
这里写图片描述
L称为似然函数。最大化P(Y=y|r,N) 与 最大化 LogP(Y=y|r,N) 等价。取对数是为了计算上的方便

将 L 对 r 求偏导数,并且令偏导数等于0,其中N=10,y=9。解得 r = 0.9

就是说,r=0.9,才能解释观测到的现象。

这里,大家一定对r是什么感到好奇,其实,r就是抛一次硬币,正面向上的概率p。这里,我们提前已经知道了硬币做了手脚,p不等于0.5,而根据最大释然的概率密度函数的出的p确实不是0.5,符合先验信息。

下面对先验信息,和似然函数做个总结:
在上面我们解释了两个重要的概念:一个是先验信息,另一个是似然函数。所谓先验信息,就是在进行一次试验之前,我们所掌握的一些信息。比如抛硬币试验,我们掌握的先验信息是:

硬币出现正面的概率和出现反面的概率相等,都为0.5

又或者是:

出现正面的概率和出现反面的概率不相等,出现正面的概率要大于出现反面的概率

似然函数则是指,我们现在拥有了一些样本数据,或者说是进行了一些实验,观测到了一些数据。在观测到的这些数据之后,如果基于这些观测到的数据,为这些数据寻找一个合适的模型,确定出该模型中的各个参数的值。比如上面的10次抛硬币试验,9次正面,1次反面,我们采用的模型是二项分布,模型中的参数 r 等于0.9 最为合适。

下一届介绍后验概率的应用。

猜你喜欢

转载自blog.csdn.net/CV_YOU/article/details/79704122