西瓜书读书笔记（七）-贝叶斯分类器

其他 2021-01-23 06:37:35 阅读次数: 0

全部笔记的汇总贴：《机器学习》西瓜书-读书笔记汇总贴

一、贝叶斯决策论

贝叶斯决策论（Bayesian decision theory）是概率框架下实施决策的基本方法，对分类任务来说在所有相关概率都己知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率 $P (c ∣ x)$ 。

判别式模型：给定 $x$ ，可直接通过建模 $P (c ∣ x)$ 来预测 $c$ ；
生成式模型：先对联合概率分布 $P (x, c)$ 建模，然后再由此获得 $P (c ∣ x)$ 。

决策树、BP神经网络、支持向量机都可以归入判别式模型的范畴。

生成式模型需要考虑 $P(c|x)=\frac{P(x,c)}{P(x)}=\frac{P(c)P(x|c)}{P(x)}$ 其中 $P (c)$ 是先验概率， $P (x ∣ c)$ 是条件概率或似然， $P (x)$ 是归一化因子。

根据大数定律，当训练集包含充足的独立同分布样本时， $P (c)$ 可通过各类样本出现的频率来进行估计．

二、极大似然估计

极大似然估计（Maximum Likelihood Estimation，简称MLE），这是根据数据采样来估计概率分布参数的经典方法。

参数 $\theta_c$ 对于数据集 $D_c$ 的似然是 $P(D_c|\theta_c)=\prod_{x\in D_c}P(x|\theta_c)$

连乘容易造成下溢，我们就一般使用对数似然 $LL(\theta_c)=\log P(D_c|\theta_c)=\sum_{x\in D_c}\log P(x|\theta_c)$

此时参数 $\theta_c$ 的极大似然估计为 $\hat\theta=\argmax_{\theta_c}LL(\theta_c)$

假设概率密度函数 $p(x|c)\sim N(\mu_c,\sigma_c^2)$ ，则参数的极大似然估计分别为 $\hat\mu_c=\frac1{|D_c|}\sum_{x\in D_c}x\\\sigma_c^2=\frac1{|D_c|}\sum_{x\in D_c}(x-\hat\mu_c)(x-\hat\mu_c)^T$

三、朴素贝叶斯分类器

朴素贝叶斯分类器采用了条件独立性假设，对已知类别，假设所有属性互相独立，即每个属性独立的对结果产生影响。
$P(c|x)=\frac{P(c)P(x|c)}{P(x)}==\frac{P(c)}{P(x)}\prod_{i=1}^dP(x_i|c)$
对于所有类别而言， $P (x)$ 相同，所以朴素贝叶斯分类器的表达式为 $h_{nb}=\argmax_{c\in Y} P(c)\prod_{i=1}^dP(x_i|c)$

先验概率 $P(c)=\frac{|D_c|}{|D|}$ ，条件概率可估计为 $P(x_i|c)=\frac{|D_{c_ix_i}|}{|D_c|}$ ，为了避免未出现的属性值被抹去，我们估计概率值得时候要进行“平滑”，常用“拉普拉斯修正”，即 $\hat P(c)=\frac{|D_c|+1}{|D|+N}$ $\hat P(x_i|c)=\frac{|D_{c_ix_i}|+1}{|D_c|+N_i}$

对于连续属性可以考虑概率密度函数，假定 $p(x_i|c)\sim N(\mu_{c,i},\sigma^2_{c,i})$ ，两个参数分别为第 $c$ 类样本的第 $i$ 个属性上的取值的均值和方差，所以 $p(x_i|c)=\frac1{\sqrt{2\pi}\sigma_{c,i}}\exp\Big(-\frac{(x_i-\mu_{c,i})^2}{2\sigma^2_{c.i}}\Big)^2$

四、半朴素贝叶斯分类器

半朴素贝叶斯分类器的基本想法是适当考虑一部分属性问的相互依赖信息，从而既不需进行完全联合概率计算，又不至于彻底忽略了比较强的属性依赖关系。

“独依赖估计” （One-Dependent Estimator，简称ODE）是半朴素贝叶斯分类器最常用的一种策略。顾名思议，所谓 “独依赖” 就是假设每个属性在类别之外最多仅依赖于一个其他属性， $P(c|x)\propto P(c)\prod_{i=1}^dP(x_i|c,pa_{i})$

五、贝叶斯网

贝叶斯网称为信念网，借助有向无环图来刻画属性之间得依赖关系，用条件概率表来描述属性的联合概率分布。

叶斯网结构有效地表达了属性间的条件独立性，给定父结点集，贝叶斯网假设每个属性与它的非后裔属性独立。

关于贝叶斯网的结构，可以查看这篇文章：白板推导系列笔记（九）-概率图模型

六、EM算法

对于算法的具体描述，可以查看这篇：统计学习方法读书笔记（九）-EM算法及其推广

以初始值 $\Theta^{(0)}$ 为起点，对式子 $LL(\Theta|X)=\ln P(X|\Theta)=\ln \sum_ZP(X,Z|\Theta)$ 迭代执行以下步骤，直至收敛。

基于 $\Theta^t$ 推断隐变量 $Z$ 的期望，记作 $Z^t$
基于已观测变量 $X$ 和 $Z^t$ 对参数 $\Theta$ 做极大似然估计，记作 $\Theta^{t+1}$

使用EM算法，我们不是取 $Z$ 的期望，而是基于 $\Theta^t$ 计算隐变量 $Z$ 的概率分布 $P(Z|X,\Theta^t)$ ，

E步：以当前的参数 $\Theta^t$ 推断隐变量分布 $P(Z|X,\Theta^t)$ ，并计算对数似然 $LL(\Theta|X,Z)$ 关于 $Z$ 的期望： $Q(\Theta|\Theta^t)=E_{Z|X,\Theta^t}LL(\Theta|X,Z)$
M步：寻找参数最大化期望似然，即 $\Theta^{t+1}=\argmax_\Theta Q(\Theta|\Theta^t)$

下一章传送门：西瓜书读书笔记（八）-集成学习

猜你喜欢

转载自blog.csdn.net/qq_41485273/article/details/112900817

西瓜书读书笔记（七）-贝叶斯分类器

贝叶斯分类器——机器学习（西瓜书）读书笔记

西瓜书读书笔记——第七章：贝叶斯分类器

《机器学习西瓜书》学习笔记——第七章_贝叶斯分类器_朴素贝叶斯分类器

机器学习西瓜书第七章贝叶斯分类器笔记

西瓜书贝叶斯分类器（总结）

读书笔记-《机器学习》第七章：贝叶斯分类器

西瓜书课后题——第七章（贝叶斯分类器）

《机器学习》西瓜书第七章贝叶斯分类器

西瓜书重温(七): 贝叶斯分类器(手推+代码demo)

机器学习（MACHINE LEARNING）【周志华版-”西瓜书“-笔记】 DAY7-贝叶斯分类器

机器学习（西瓜书）-- 读书笔记

《机器学习》西瓜书读书笔记

西瓜书读书笔记（一）-绪论

吴恩达机器学习入门笔记10/11-贝叶斯分类器/集成学习(西瓜书补充)

机器学习（周志华）读书笔记---第7章贝叶斯分类器

西瓜书读书笔记（第一章）

《机器学习》(周志华)西瓜书读书笔记(完结)

《机器学习》西瓜书读书笔记|基本术语

西瓜书读书笔记（六）-支持向量机

西瓜书读书笔记（五）-神经网络

西瓜书读书笔记（四）-决策树

西瓜书读书笔记（三）-线性模型

西瓜书读书笔记（十）-降维与度量学习

西瓜书读书笔记（九）-聚类

西瓜书读书笔记（八）-集成学习

西瓜书读书笔记（二）-模型评估与选择

半朴素贝叶斯分类器及贝叶斯网知识点（摘自西瓜书）

Python 西瓜书拉普拉斯修正的朴素贝叶斯分类器（可以直接运行）

松鼠书读书笔记（七）——HTTPS

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)