分类算法（三）：贝叶斯分类器的原理 - 代码天地

分类算法（三）：贝叶斯分类器的原理

其他 2020-04-20 23:22:32 阅读次数: 0

对贝叶斯分类来说，考虑如何基于概率和误判损失来选择最优的类别标记。

贝叶斯公式

判别式：给定x，直接建模p(c|x)来预测c，例如决策树、BP神经网络、支持向量机

生成式：先对联合概率分布p(x,c)建模，再得到p(c|x)，例如贝叶斯。

$P(c|x) =\frac{ P(x,c)}{ P(x)} = \frac{ P(c) P(x|c)}{ P(x)}$

$P(c)$ ：先验概率，样本所占样本空间的比例。先验概率是指我们主观通过事件发生次数对概率的判断。

$P(x)$ ：泳衣归一化的证据因子

$P(x|c)$ ：条件概率，或似然。

$P(c|x)$ ：后验概率

由此，将估计后验概率 $P(c|x)$ 的问题转化为估计先验概率 $P(c)$ 和似然 $P(x|c)$

极大似然估计 MLE（概率主义学派）

参数估计有两种解决方案：

1）概率主义学派：参数客观存在固定值。经典方法：极大似然估计

2）贝叶斯学派：参数服从先验分布，基于观察的数据计算参数的后验分布

极大似然估计，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值。即：“模型已定，参数未知”。

假设样本独立同分布，对样本集D，联合概率密度函数p(D|θ)称为θ的似然函数。似然函数则为：

极大似然估计：求使得出现该组样本的概率最大的θ值。

取对数之后，两数乘积的对数等于各自的对数之和：

如果未知参数只有一个（θ为标量），似然函数满足连续、可微的正则条件下直接求导，

如果未知参数有多个（θ为向量），，梯度算子为，若似然函数满足连续可导的条件，则最大似然估计量就是如下方程的解：

求最大似然估计量的一般步骤：
（1）写出似然函数；
（2）对似然函数取对数，并整理；
（3）求导数；
（4）解似然方程。

朴素贝叶斯分类器

朴素贝叶斯的前提是：贝叶斯定理、特征条件独立假设。

估计后验概率 $P(c|x)$ 的问题转化为估计先验概率 $P(c)$ 和似然 $P(x|c)$ ，但是似然 $P(x|c)$ 难以从有限的样本直接估计到。

因而，朴素贝叶斯做了“属性条件独立性假设”，假设所有的属性相互独立。

$P(c|x) =\frac{ P(c) P(x|c)}{ P(x)} =\frac{ P(c) }{ P(x)} \prod_{i=1}^{d}P(x_{i}|c)$

对于所有的类别来说，p(x)相同，表达式为

$h_{nb}(x)=\arg \max P(c)\prod_{i=1}^{d}P(x_{i}|c)$

如果某个属性值未出现，一般用“拉普拉斯平滑”：

$\hat{P}(c) =\frac{|D_{c}|+1}{|D|+N}$ $\hat{P}(x_{i}|c) =\frac{|D_{c,x_{i}}|+1}{|D_{c}|+N_{i}}$

$N$ 表示类别数目，即标签数目； $N_{i}$ 表示第i个属性可能的取值数目。

姬香

发布了93 篇原创文章 · 获赞 119 · 访问量 5万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_18310041/article/details/95373008

分类算法（三）：贝叶斯分类器的原理

朴素贝叶斯分类器原理

贝叶斯分类器原理及应用

朴素贝叶斯分类器原理与应用、EM算法原理及实例

朴素贝叶斯分类器算法

贝叶斯分类器原理和应用

理解贝叶斯分类器原理及关系

朴素贝叶斯分类器原理及公式

贝叶斯分类器原理——学习笔记

机器学习算法--贝叶斯分类器

贝叶斯分类器算法及案例详解

机器学习（三）朴素贝叶斯分类器

朴素贝叶斯分类器

贝叶斯分类器

贝叶斯分类器（二）

贝叶斯分类器（一）

贝叶斯分类器函数

四、贝叶斯分类器

贝叶斯分类器详解

贝叶斯分类器(Python实现+详细完整源码和原理)

贝叶斯分类器基本原理总结

朴素贝叶斯分类器的应用

python贝叶斯分类器GaussianNB

贝叶斯分类器基本理解

机器学习-贝叶斯分类器

贝叶斯分类器测试test

Python 朴素贝叶斯分类器

7.3 朴素贝叶斯分类器

半朴素贝叶斯分类器

数据挖掘-贝叶斯分类器

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)