贝叶斯方法与正则化的关系

其他 2019-04-01 13:20:58 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u012386878/article/details/88909914

贝叶斯方法与正则化

统计学分为两个学派：频率派和贝叶斯派。

频率派

频率派常用的参数估计方法为极大似然法（MLE），它的目标是让似然函数最大化，就是求出一个固定参数，这个参数使数据出现的概率最大。

假设数据采样分布为 $p(x;\theta)$ ，即参数为 $\theta$ 时，样本 $x$ 出现的概率。假设现在观测到一组数据 $x_1,x_2,\cdots,x_n$ ，数据之间是独立同分布，则这组数据出现的概率可表示为：

$L(\theta)=L(x_1,x_2,\cdots,x_n;\theta)=\prod_{i=1}^np(x_i;\theta)$

$L(\theta)$ 称为似然函数，注意 $p(x;\theta)$ 不是似然函数， $L(x_1,x_2,\cdots,x_n;\theta)$ 才是似然函数。

极大似然法就是求解使 $L(\theta)$ 最大的 $\theta$ ，这等效于一个最优化问题。

贝叶斯派

贝叶斯派常用的参数估计方法为最大后验估计（MAP）,它以贝叶斯公式作为基础。

$P(H|D)=\frac{P(D|H)*P(H)}{P(D)}$

式中 $P(H)$ 称为先验概率， $P(D|H)$ 称为似然函数， $P(D)$ 称为证据， $P(H|D)$ 称为后验概率。

先验概率是根据以往经验和分析得到的概率，可以视为 $H$ 的初始可信程度（贝叶斯派眼中的概率是对事物的主观的可信程度），数据 $D$ 会作为证据出现，将数据纳入考虑范围后， $H$ 的初始概率会被更新，新的概率就是 $H$ 的后验概率。

贝叶斯公式在求 $H$ 的概率时除了根据数据 $D$ ，还考虑到了 $H$ 的历史经验。这一做法和频率派不同，频率派只考虑数据 $D$ 。

$p(\theta;x_1,x_2,\cdots,x_n) = \frac{p(x_1,x_2,\cdots,x_n;\theta)*p(\theta)}{p(x_1,x_2,\cdots,x_n)}$

由于分母是常量，所以

$p(\theta;x_1,x_2,\cdots,x_n) \propto \prod_{i=1}^np(x_i;\theta)*p(\theta)$

最大后验估计就是求解使 $p(\theta;x_1,x_2,\cdots,x_n)$ 最大的 $\theta$ ，这等效于一个最优化问题。

对比MLE和MAP发现，MAP比MLE多乘了一个先验概率 $p(\theta)$ ，所以MAP综合考虑了数据和先验概率。

先验信息是在使用数据之前关于分析对象的已知知识，它容易受到主观因素影响。当已有的知识不足以形成先验信息时，贝叶斯派引入了无信息先验，就是未知参数取到所有值的可能性都相等，即满足均匀分布，先验概率是一个常数，此时MAP和MLE是等效的。

正则化

正则化可以对学习到的参数增加约束，使之落在某个特定的范围内，其中L1正则化可以使参数具有稀疏性，L2正则化可以使参数聚拢在0值附近。

从贝叶斯派的角度来看，MLE其实也是有先验概率的，只不过它的先验分布是“未知参数取到所有值的可能性都相等”，相当于没有对参数进行约束。而MAP首先假设未知参数服从某特定分布，然后用数据来修正这个先验分布，这个先验分布相当于对参数做了约束。

所以贝叶斯方法与正则化都能够对参数做约束。在线性模型中，假定参数服从高斯分布，然后用MAP求解，与使用MLE增加L2正则化来求解，效果是等价的。

猜你喜欢

转载自blog.csdn.net/u012386878/article/details/88909914

贝叶斯方法与正则化的关系

从贝叶斯的角度看正则化

正则化与贝叶斯【转】

贝叶斯方法

基于图正则化的贝叶斯宽度学习系统

朴素贝叶斯方法

贝叶斯优化方法

贝叶斯方法与连续值离散化

从贝叶斯方法谈到贝叶斯网络

贝叶斯方法和贝叶斯网络

从贝叶斯的角度来看，正则化等价于对模型参数引入先验分布

【机器学习】贝叶斯角度看L1，L2正则化

Andrew Ng machine learning 课程笔记--贝叶斯统计正则化

贝叶斯网络的归一化

贝叶斯优化可视化

分类方法之朴素贝叶斯

平凡而又神奇的贝叶斯方法

贝叶斯方法与其中的思想

贝叶斯方法体会

朴素贝叶斯概率方法

朴素贝叶斯方法的学习与分类

贝叶斯超参优化方法

python机器学习——贝叶斯方法

分类之朴素贝叶斯方法

贝叶斯方法优缺点

分类：朴素贝叶斯分类方法

【David Sontag】贝叶斯方法概述

贝叶斯优化方法和应用

贝叶斯结构学习检测因果关系

最大似然，贝叶斯方法与朴素贝叶斯分类

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)