机器学习（六）分类模型--线性判别法、距离判别法、贝叶斯分类器

首先我们了解常见的分类模型和算法有哪些

线性判别法

简单来说就是用一些规定来寻找某一条直线，用直线划分学习集，然后根据待测点在直线的哪一边决定它的分类

如图，假如红色这条线是找出来的线，则要预测的那个红叉点为2

距离判别法

简单来说就是预测某一个点的类别，分别计算这个点与各个样本点的距离（不是我们平常用的欧氏距离公式，而是马氏距离），这个点离哪个样本点最近，最近样本点是什么类别，他就是什么类别

最近邻算法（KNN）

简单来说，（一般K是我们定的一个数，一般K取奇数，这里我们k=5）我们要预测一个点的类别，计算该点与所有样本点的距离，取前k最小的距离，看一下这k个样本点类别最多的是什么类别，则预测点的样本类别与最多样本类别一致

如图，假如绿色叉叉点是我们要预测的点，距离最近的五个样本点类别分别是1,1,1,1,2，则预测的样本点分类为1

贝叶斯分类器

在了解贝叶斯分类器之前我们来了解一下什么是先验概率和后验概率

先验概率

直观理解，所谓“先”，就是在事情之前，即在事情发生之前事情发生的概率。是根据以往经验和分析得到的概率。比如抛硬币，我们都认为正面朝上的概率是0.5，这就是一种先验概率，在抛硬币前，我们只有常识。这个时候事情还没发生，我们进行概率判断。所谓的先验概率是对事情发生可能性猜测的数学表示。

后验概率
事情已经发生了，事情发生可能有很多原因，判断事情发生时由哪个原因引起的概率。比如今天你没去学校，原因有两个，可能是生病了，也可能是自行车坏了。然后上课时老师发现你没来。（这里是一个结果，就就是你没来学校这件事情已经发生了）老师叫学霸计算一下概率，分别是因为生病了没来学校的概率和自行车坏了没来学校的概率。很显然，后验概率就是在事情发生后判断由哪一个原因引起的概率。这里的事情是你上学迟到，原因有生病了和自行车坏了。

贝叶斯公式

贝叶斯公式是由先验概率求后验概率的公式。

在实际过程中后验概率一般是很难直接计算出来的，相反先验概率就容易多了。因此一般会利用先验概率来计算后验概率。这个时候贝叶斯公式就派上用场了。
从网上找到一个例子感觉说的比较好懂，以此来理解贝叶斯公式：
1）先验——根据若干年的统计（经验）或者气候（常识），某地方下雨的概率；
2）似然——下雨（果）的时候有乌云（因/证据/观察的数据）的概率，即已经有了果，对证据发生的可能性描述；
3）后验——根据天上有乌云（原因或者证据/观察数据），下雨（结果）的概率；
后验 ~ 先验*似然：存在下雨的可能（先验），下雨之前会有乌云（似然）~ 通过现在有乌云推断下雨概率（后验）；
后验分布往往是基于先验分布和极大似然估计计算出来的。

贝叶斯垃圾邮件过滤器

问题是什么？问题是，给定一封邮件，判定它是否属于垃圾邮件。按照先例，我们还是用 D 来表示这封邮件，注意 D 由 N 个单词组成。我们用 h+ 来表示垃圾邮件，h- 表示正常邮件。问题可以形式化地描述为求：

P(h+|D) = P(h+) * P(D|h+) / P(D)

P(h-|D) = P(h-) * P(D|h-) / P(D)

其中 P(h+) 和 P(h-) 这两个先验概率都是很容易求出来的，只需要计算一个邮件库里面垃圾邮件和正常邮件的比例就行了。然而 P(D|h+) 却不容易求，因为 D 里面含有 N 个单词 d1, d2, d3, .. ，所以P(D|h+) = P(d1,d2,..,dn|h+) 。我们又一次遇到了数据稀疏性，为什么这么说呢？P(d1,d2,..,dn|h+) 就是说在垃圾邮件当中出现跟我们目前这封邮件一模一样的一封邮件的概率是多大！开玩笑，每封邮件都是不同的，世界上有无穷多封邮件。瞧，这就是数据稀疏性，因为可以肯定地说，你收集的训练数据库不管里面含了多少封邮件，也不可能找出一封跟目前这封一模一样的。结果呢？我们又该如何来计算 P(d1,d2,..,dn|h+) 呢？

我们将 P(d1,d2,..,dn|h+) 扩展为： P(d1|h+) * P(d2|d1, h+) * P(d3|d2,d1, h+) * .. 。熟悉这个式子吗？这里我们会使用一个更激进的假设，我们假设 di 与 di-1 是完全条件无关的，于是式子就简化为 P(d1|h+) * P(d2|h+) * P(d3|h+) * .. 。这个就是所谓的条件独立假设，也正是朴素贝叶斯方法的朴素之处。而计算 P(d1|h+) * P(d2|h+) * P(d3|h+) * .. 就太简单了，只要统计 di 这个单词在垃圾邮件中出现的频率即可。

朴素贝叶斯

贝叶斯信念网络

朴素贝叶斯考虑特征之间完全相符独立，但是现实中特征与特征都会有联系，贝叶斯信念网络用有向无环图表示

建模步骤

CPT计算