一、概率基础知识

1.1、条件概率

$~~~~~~~~$ 条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为：P(A|B)，读作“在B条件下A的概率”。
这里写图片描述

这里写图片描述

1.2、全概率公式

$~~~~~~~~$ 指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为：P(A|B)，读作“在B条件下A的概率”。
这里写图片描述

1.3、贝叶斯公式

1.4、特征条件独立假设

$~~~~~~~~$ 在分类问题中，常常需要把一个事物分到某个类别中。一个事物又有许多属性，即x=(x1,x2,···,xn)。常常类别也是多个(y1,y2,···,yk)P(y1|x),P(y2|x),…,P(yk|x)，表示x属于某个分类的概率，那么，我们需要找出中最大的那个概率P(yk|x)。

1.5、拉普拉斯平滑

$~~~~~~~~$ 为了解决零概率的问题，法国数学家拉普拉斯最早提出用加1的方法估计没有出现过的现象的概率，所以加法平滑也叫做拉普拉斯平滑。
这里写图片描述

二、朴素贝叶斯分类

这里写图片描述

三、连续变量的贝叶斯计算

这里写图片描述

四、优缺点

优点
1，算法逻辑简单,易于实现（算法思路很简单，只要使用贝叶斯公式转化即可！）
2，分类过程中时空开销小（假设特征相互独立，只会涉及到二维存储）

缺点
1、理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。
2、而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类
的算法通过考虑部分关联性适度改进。

五、半朴素贝叶斯分类器

$~~~~~~~~$ 在朴素的分类中，我们假定了各个属性之间的独立，这是为了计算方便，防止过多的属性之间的依赖导致的大量计算。这正是朴素的含义，虽然朴素贝叶斯的分类效果不错，但是属性之间毕竟是有关联的，某个属性依赖于另外的属性，于是就有了半朴素贝叶斯分类器。
这里写图片描述

确认依赖

1.SOPDE方法。这种方法是假定所有的属性都依赖于共同的一个父属性。
2.TAN方法。每个属性依赖的另外的属性由最大带权生成树来确定。
（1）先求每个属性之间的互信息来作为他们之间的权值。
（2）构件完全图。权重是刚才求得的互信息。然后用最大带权生成树算法求得此图
的最大带权的生成树。
（3）找一个根变量，然后依次将图变为有向图。
（4）添加类别y到每个属性的的有向边。

3 . 朴素贝叶斯与两种半朴素贝叶斯分类器所考虑的属性依赖关系，假定每个属性仅依赖于其他最多一个属性，称其依赖的这个属性为其超父属性，这种关系称为：独依赖估计（ODA）。
这里写图片描述

六、贝叶斯网络结构（选读）

6.1、概念

$~~~~~~~~$ 贝叶斯网络（Bayesian Networks）也被称为信念网络（Belif Networks）或者因果网络（Causal Networks）官方的语言我就不多说了，百度上都有，简单说网络结构就是用来描述变量之间相互依赖的关系的结构，提供了一种方便的框架结构来表示因果关系，这使得不确定性推理变得在逻辑上更为清晰、可理解性强。

这里写图片描述
下面来看一个例子

得出公示如下：

$~~~~~~~~$ 贝叶斯网的网络结构是一个有向无环图（Directed Acyclic Graph），其中每个结点代表一个属性或者数据变量，结点间的弧代表属性（数据变量）间的概率依赖关系。

$~~~~~~~~$ 如果从一个结点X有一条有向通路指向Y，则称结点X为结点Y的祖先（ancestor），同时称结点Y为结点X的后（descendent）。
这里写图片描述

6.2、分类

$~~~~~~~~$ 根据条件概率和贝叶斯网络结构，我们不仅可以由祖先接点推出后代的结果，还可以通过后代当中的证据结点来向前推出祖先取各种状态的概率。
$~~~~~~~~$ 贝叶斯网可以处理不完整和带有噪声的数据集，因此被日益广泛的应用于各种推理程序当中。同时由于可以方便的结合已有的先验知识，将已有的经验与数据集的潜在知识相结合，可以弥补相互的片面性与缺点，因此越来越受到研究者的喜欢。
贝叶斯网络分类：
1。静态贝叶斯网络
2。动态贝叶斯网络

6.3、数学定义

令G = (I,E)表示一个有向无环图(DAG)，其中I代表图形中所有的节点的集合，而E代表有向连接线段的集合，且令X = (Xi)i ∈ I为其有向无环图中的某一节点i所代表之随机变量，若节点X的联合概率分配可以表示成:
这里写图片描述

机器学习----朴素贝叶斯详解

一、概率基础知识

1.1、条件概率

1.2、全概率公式

1.3、贝叶斯公式

1.4、特征条件独立假设

1.5、拉普拉斯平滑

二、朴素贝叶斯分类

三、连续变量的贝叶斯计算

四、优缺点

五、半朴素贝叶斯分类器

确认依赖

六、贝叶斯网络结构（选读）

6.1、概念

6.2、分类

6.3、数学定义

猜你喜欢