朴素贝叶斯详解

其他 2020-07-25 08:58:25 阅读次数: 0

朴素贝叶斯详解

此博客参考借鉴算法学习者的blog,链接地址如下：https://blog.csdn.net/AMDS123/article/details/70173402#reply%23reply

贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。这篇文章我们从一个例子入手，详细的分析整个朴素贝叶斯的计算流程，以及如何完成分类的。

朴素贝叶斯的数学描述：

从数学角度来说，分类问题可做如下定义：已知集合和，确定映射规则y = f(x)，使得任意有且仅有一个,使得成立。

其中C叫做类别集合，其中每一个元素是一个类别，而I叫做项集合（特征集合），其中每一个元素是一个待分类项，f叫做分类器。分类算法的任务就是构造分类器f。

分类算法的内容是要求给定特征，让我们得出类别，这也是所有分类问题的关键。那么如何由指定特征，得到我们最终的类别，也是我们下面要讲的，每一个不同的分类算法，对应着不同的核心思想。

一、朴素贝叶斯的理论

核心数学公式：

换一种通俗的理解方式：

我们最终求的p(类别|特征)即可！就相当于完成了我们的任务。

二、例题分析

1.例子的简要说明

现在给我们的问题是，如果一对男女朋友，男生想女生求婚，男生的四个特点分别是不帅，性格不好，身高矮，不上进，请你判断一下女生是嫁还是不嫁？

这是一个典型的分类问题，转为数学问题就是比较p(嫁|(不帅、性格不好、身高矮、不上进))与p(不嫁|(不帅、性格不好、身高矮、不上进))的概率，谁的概率大，我就能给出嫁或者不嫁的答案！

这里我们联系到朴素贝叶斯公式：

我们需要求p(嫁|(不帅、性格不好、身高矮、不上进),这是我们不知道的，但是通过朴素贝叶斯公式可以转化为好求的三个量.

p(不帅、性格不好、身高矮、不上进|嫁)、p（不帅、性格不好、身高矮、不上进)、p(嫁)（至于为什么能求，后面会讲，那么就太好了，将待求的量转化为其它可求的值，这就相当于解决了我们的问题！）

2.例子的深入理解分析

上文中的好求的三个量怎样求的？

是根据已知训练数据统计得来，下面详细给出该例子的求解过程。

回忆一下我们要求的公式如下：

那么我只要求得p(不帅、性格不好、身高矮、不上进|嫁)、p（不帅、性格不好、身高矮、不上进)、p(嫁)即可，好的，下面我分别求出这几个概率，最后一比，就得到最终结果。

p(不帅、性格不好、身高矮、不上进|嫁) = p(不帅|嫁)*p(性格不好|嫁)*p(身高矮|嫁)*p(不上进|嫁)，那么我就要分别统计后面几个概率，也就得到了左边的概率！

等等，为什么这个成立呢？学过概率论的同学可能有感觉了，这个等式成立的条件需要特征之间相互独立吧！

这也就是为什么朴素贝叶斯分类有朴素一词的来源，朴素贝叶斯算法是假设各个特征之间相互独立，那么这个等式就成立了！

我们为什么需要假设特征之间相互独立那？
- 非独立特征的关联性，会随着特征数量的增多，呈指数性增长
  - 我们这么想，假如没有这个假设，那么我们对右边这些概率的估计其实是不可做的，这么说，我们这个例子有4个特征，其中帅包括{帅，不帅}，性格包括{不好，好，爆好}，身高包括{高，矮，中}，上进包括{不上进，上进}，那么四个特征的联合概率分布总共是4维空间，总个数为2*3*3*2=36个。
    
    36个，计算机扫描统计还可以，但是现实生活中，往往有非常多的特征，每一个特征的取值也是非常之多，那么通过统计来估计后面概率的值，变得几乎不可做，这也是为什么需要假设特征之间独立的原因。
- 搜索空间中同时满足所有特征的样本数量寥寥无几
  - 假如我们没有假设特征之间相互独立，那么我们统计的时候，就需要在整个特征空间中去找，比如统计p(不帅、性格不好、身高矮、不上进|嫁),
    
    我们就需要在嫁的条件下，去找四种特征全满足分别是不帅，性格不好，身高矮，不上进的人的个数，这样的话，由于数据的稀疏性，很容易统计到0的情况。这样是不合适的。

根据上面俩个原因，朴素贝叶斯法对条件概率分布做了条件独立性的假设，由于这是一个较强的假设，朴素贝叶斯也由此得名！这一假设使得朴素贝叶斯法变得简单，但有时会牺牲一定的分类准确率。

3.拆成分开连乘形式

上面的公式整理：

下面我将一个一个的进行统计计算（在数据量很大的时候，根据中心极限定理，频率是等于概率的，这里只是一个例子，所以我就进行统计即可）。

p(嫁)=？

整理训练数据中，嫁的样本数如下：

则 p(嫁) = 6/12（总样本数） = 1/2

p(不帅|嫁)=？

统计满足样本数如下：

则p(不帅|嫁) = 3/6 = 1/2 在嫁的条件下，看不帅有多少

p(性格不好|嫁)= ？

统计满足样本数如下：

则p(性格不好|嫁)= 1/6

p（矮|嫁） = ?

统计满足样本数如下：

则p(矮|嫁) = 1/6

p(不上进|嫁) = ?

统计满足样本数如下：

则p(不上进|嫁) = 1/6

下面开始求分母，p(不帅)，p（性格不好），p（矮），p（不上进）

不帅统计如上红色所示，占4个，那么p（不帅） = 4/12 = 1/3

性格不好统计如上红色所示，占4个，那么p（性格不好） = 4/12 = 1/3

身高矮统计如上红色所示，占7个，那么p（身高矮） = 7/12

不上进统计如上红色所示，占4个，那么p（不上进） = 4/12 = 1/3

到这里，要求p(不帅、性格不好、身高矮、不上进|嫁)的所需项全部求出来了，下面我带入进去即可

= (1/2*1/6*1/6*1/6*1/2)/(1/3*1/3*7/12*1/3)

下面我也一个一个来进行统计计算，这里与上面公式中，分母是一样的，于是我们分母不需要重新统计计算！

p（不嫁）=？

根据统计计算如下（红色为满足条件）：

则p(不嫁)=6/12 = 1/2

p(不帅|不嫁) = ？

统计满足条件的样本如下（红色为满足条件）：

则p（不帅|不嫁） = 1/6

p（性格不好|不嫁） = ？

据统计计算如下（红色为满足条件）：

则p（性格不好|不嫁） =3/6 = 1/2

p（矮|不嫁） = ？

据统计计算如下（红色为满足条件）：

则p（矮|不嫁） = 6/6 = 1

p（不上进|不嫁） = ？

据统计计算如下（红色为满足条件）：

则p（不上进|不嫁） = 3/6 = 1/2

根据公式得：

p (不嫁|不帅、性格不好、身高矮、不上进) = ((1/6*1/2*1*1/2)*1/2)/(1/3*1/3*7/12*1/3)

很显然p(不嫁|不帅、性格不好、身高矮、不上进) = (1/6*1/2*1*1/2) > (1/2*1/6*1/6*1/6*1/2) = p(嫁|不帅、性格不好、身高矮、不上进)

于是有p (不嫁|不帅、性格不好、身高矮、不上进)>p (嫁|不帅、性格不好、身高矮、不上进)

所以我们根据朴素贝叶斯算法可以给这个女生答案，是不嫁！！！！

4、朴素贝叶斯分类的优缺点

优点：

（1）算法逻辑简单,易于实现（算法思路很简单，只要使用贝叶斯公式转化医学即可！）

（2）分类过程中时空开销小（假设特征相互独立，只会涉及到二维存储）

缺点：

（1）理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。

（2）而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。

猜你喜欢

转载自www.cnblogs.com/waws1314/p/13375424.html

朴素贝叶斯详解

朴素贝叶斯与贝叶斯网络详解

机器学习----朴素贝叶斯详解

朴素贝叶斯（Naive Bayes）详解

朴素贝叶斯

朴素的贝叶斯

朴素贝叶斯详解,并用python实现朴素贝叶斯

难道朴素贝叶斯比贝叶斯朴素？

朴素贝叶斯实例

简述朴素贝叶斯

朴素贝叶斯法

朴素贝叶斯算法

朴素贝叶斯分类

python 朴素贝叶斯

朴素贝叶斯学习

记>朴素贝叶斯

朴素贝叶斯小结

sklearn——朴素贝叶斯

sklearn -- -- 朴素贝叶斯

spark 朴素贝叶斯

贝叶斯（朴素--网络）

朴素贝叶斯(1)

朴素贝叶斯：bayes

朴素贝叶斯模型

朴素贝叶斯方法

朴素贝叶斯的实现

朴素贝叶斯代码

朴素贝叶斯原理

朴素贝叶斯（一）

sklearn 朴素贝叶斯

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)