朴素贝叶斯分类算法--分别基于三种语言实现 - 代码天地

朴素贝叶斯分类算法--分别基于三种语言实现

企业开发 2023-09-30 16:27:07 阅读次数: 0

一、朴素贝叶斯

简介

贝叶斯方法是以贝叶斯原理为基础，使用概率统计的知识对样本数据集进行分类。由于其有着坚实的数学基础，贝叶斯分类算法的误判率是很低的。贝叶斯方法的特点是结合先验概率和后验概率，即避免了只使用先验概率的主观偏见，也避免了单独使用样本信息的过拟合现象。贝叶斯分类算法在数据集较大的情况下表现出较高的准确率，同时算法本身也比较简单。

算法原理

贝叶斯定理用于解决以下问题：已知某条件的概率，如何求到两个事件交换后的概率，也就是在已知p(X | Y)的情况下如何求到p(Y | X)。其中p(X | Y)表示事件Y发生的前提下X发生的概率，称之为事件Y发生的条件下事件X的概率。公式如下：

$\text{[math]}$

其中p(X,Y)表示为X，Y同时发生的概率。根据上式同理可得：

$\text{[math]}$

根据(1)和（2）式整理可得如下公式，称之为贝叶斯定理。

$\text{[math]}$

在日常生活中，p(X|Y)是非常容易得到的，后验概率p(Y|X)不容易得到，通过贝叶斯定理就可以求得p(Y|X)。根据贝叶斯定理可以实现分类操作。

算法执行流程

在给定的类标号y，朴素贝叶斯分类在估计类条件时假设属性之间条件独立，条件假设可以形式化的表示为：

$\text{[math]}$

其中每个属性集 $\text{[math]}$ 包含d个属性。

关于条件独立性，如给定Z，若X,Y之间条件独立可以写成如下公式：p（X|Y,Z)=p(X|Z)。其中X,Y条件独立也可以写成如下公式：

$\text{[math]}$

有了条件独立假设，就不必计算X的每一组分组的类条件概率，只需要对给定的Y，计算每一个Xi的条件概率。这种方法更实用，不需要很大的训练集就能获得较好的概率估计。朴素贝叶斯分类对每个分类Y的计算后验概率：

$\text{[math]}$

由于对所有的Y，p(X)是固定的，只需要找到使得分子 $\text{[math]}$ 最大的就可以了。

如何在分类属性和连续属性下求得条件概率 $\text{[math]}$ ：

（1）在分类属性下求条件概率

对分类属性Xi，根据类y中的属性值等于Xi的训练实例的比例估计条件概率 $\text{[math]}$ 即可。

（2）在连续属性下求条件概率

在这里，可以假设连续变量符合某种概率分布，然后使用训练数据估计分布参数。其中高斯分布通常被用来表示连续属性的类条件的概率分布。对于每个类y，属性Xi的类条件概率为：

$\text{[math]}$

其中 $\text{[math]}$ 可以用所有训练记录关于Xi的样本均值 $\text{[math]}$ 来估计。同理，参数 $\text{[math]}$ 可以用这些训练记录的样本方差 $\text{[math]}$ 估计。条件概率根据Xi的落入区间进行积分求得即可。

二、朴素贝叶斯算法举例

案例说明和数据

现在给出一些购买计算机实例的数据集如下：

Age	income	student	credit_rating	buys_computer
25	High	No	Fair	No
25	High	No	Excellent	No
33	High	No	Fair	Yes
41

猜你喜欢

转载自blog.csdn.net/m0_51260564/article/details/129455753

朴素贝叶斯分类算法--分别基于三种语言实现

基于朴素贝叶斯的垃圾分类算法（Python实现）

朴素贝叶斯&基于朴素贝叶斯的文本分类算法

[机器学习] 分类 --- Naive Bayes（朴素贝叶斯）朴素贝叶斯理论推导与三种常见模型

朴素贝叶斯算法——实现新闻分类（Sklearn实现）

算法 - 朴素贝叶斯分类算法

朴素贝叶斯算法：实现邮件分类

机器学习算法（三）基于概率论的分类方法：朴素贝叶斯

朴素贝叶斯分类算法

分类算法-朴素贝叶斯NB

朴素贝叶斯分类算法原理

朴素贝叶斯算法，对男女分类

分类算法之朴素贝叶斯

数据分类算法-朴素贝叶斯

朴素贝叶斯分类MATLAB实现

朴素贝叶斯（基于R语言）

朴素贝叶斯算法的python实现

朴素贝叶斯算法的理解与实现

Python实现朴素贝叶斯算法

朴素贝叶斯算法实现

朴素贝叶斯算法的实现

朴素贝叶斯——算法实现

朴素贝叶斯分类

朴素贝叶斯---分类

分类-朴素贝叶斯

分类_朴素贝叶斯

朴素贝叶斯分类与语言分类实例

分类与监督学习，朴素贝叶斯分类算法

分类算法之朴素贝叶斯分类

朴素贝叶斯理论推导与三种常见模型

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)