深度学习花书-5.6 贝叶斯统计

5.6 贝叶斯统计

频率学派的观点是,对于一个概率模型参数未知常量

而贝叶斯学派的观点是,参数是未知的变量,它自身也是遵循某个概率分布的,我们只有它的先验分布,需要根据观察到的数据来进行调整。通常来说,如果我们对参数不具有太多确定性的时候,采用高斯分布作为先验是附加条件最小的分布

频率派的典型就是极大似然估计,本质上是一个优化问题。而贝叶斯派是基于贝叶斯公式(如下),最关键是求分母,这通常是一个求积分问题

p ( θ ∣ x ( 1 ) , … , x ( m ) ) = p ( x ( 1 ) , … , x ( m ) ∣ θ ) p ( θ ) p ( x ( 1 ) , … , x ( m ) ) p\left(\boldsymbol{\theta} \mid x^{(1)}, \ldots, x^{(m)}\right)=\frac{p\left(x^{(1)}, \ldots, x^{(m)} \mid \boldsymbol{\theta}\right) p(\boldsymbol{\theta})}{p\left(x^{(1)}, \ldots, x^{(m)}\right)} p(θx(1),,x(m))=p(x(1),,x(m))p(x(1),,x(m)θ)p(θ)

贝叶斯派和频率派的两个重要区别

1. θ \theta θ的不确定性

频率派将 θ \theta θ​​视为一个常数,而贝叶斯派将其视为一个随机变量。频率派是通过评估估计量的方差来评估 θ \theta θ​​的不确定性,而贝叶斯的方法是积分。

2. 贝叶斯先验分布

先验能够影响概率质量密度朝参数空间中偏好先验的区域偏移。贝叶斯派是同时考虑过去的信念和最新的观测来做预测,而频率派则只考虑最新的观测

贝叶斯线性回归

打公式太累。。。就不写了
白板推导系列,强烈推荐,不只是贝叶斯线性回归,up主讲了很多机器学习的数学推导,包括下面的MAP看到这个合集之后我都不想写博客了,讲的太好了。。。

5.6.1 最大后验估计(MAP)

虽然可以利用积分求得贝叶斯公式的分母,但是通常这个积分是不好求的或者计算量很大,于是我们采用极大似然的思想,找到使后验概率最大的参数作为估计,但与极大似然不同的是,最大后验估计仍然考虑了先验概率。事实上,最大后验估计就等价于极大似然估计的正则惩罚。

推导公式也暂时略了,等我平板到了直接手推

Guess you like

Origin blog.csdn.net/qq_41335232/article/details/120893828