机器学习 -- 朴素贝叶斯分类与K-means聚类简述

文章目录

一、有监督学习方法举例

1. 朴素贝叶斯分类

朴素贝叶斯分类是一种十分简单的分类算法，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。
通俗来说，就像我们坐地铁的时候，仅仅通过一些衣着特征我们便能够猜测周围人的工作或者是身份地位，比如一个人西装革履，那么我们猜测他应该是个工薪一族，有人身穿工作服，那我们也可以认为他应该是个工人。但是这样的推断是不一定正确的，万一人家穿着西装是去参加毕业典礼呢？不过在没有其它可用信息下，我们还是会选择可能性最大的情况。同样的道理，朴素贝叶斯的思想基础就是选择条件概率最大的类别。
朴素贝叶斯分类是建立在贝叶斯定理的基础上的，这就涉及到大二学的条件概率的知识了。在条件概率中有如下计算公式：
$\frac{P(AB)}{P(B)} \tag{1}$
$\frac{P(AB)}{P(A)} \tag{2}$

通过 $(1) 、 (2)$ h很容易就得到贝叶斯定理的计算公式：
$\frac{P(A|B)P(A)}{P(B)} \tag{3}$

在已知 $P (A ∣ B) 、 P (A) 、 P (B)$ 的情况下，我们便能够算出 $P (B ∣ A)$ 。
下面给出朴素贝叶斯分类的正式定义：
【1】假设有类别集合 $C = \{ {y_1, y_2,... ,y_m}\}$ ,其中 $y_k$ 表示某一类别，比如汽车、房屋等；
【2】假设有一待分类对象 $x = \{ {a_1,a_2,...,a_n}\}$ ，该对象的具有特征属性 $a_i$ ，比如红头发，蓝眼睛等；
【3】计算在已有对象x的条件下，该对象属于分类 $y_k$ 的条件概率 $P(y_1|x),P(y_2|x), ... ,P(y_m|x)$ ;
【4】取 $P(y_k|x) = max\{ {P(y_1|x), P(y_2|x), ... ,P(y_m|x)}\}$ ，则待分类对象 $x∈y_k$ 。

其实从上面的定义中可以看出，朴素贝叶斯分类的重点在于第【3】步中的 $P(y_k|x)$ 的计算，这就涉及到贝叶斯定理的使用了：
【1】假设我们有已经有一批已经人工标记好分类的样本及分类集合，即我们已经知道每个分类 $y_k$ 下各个特征属性 $b_j$ 的条件概率 $P(b_j|y_k)$ ；
【2】现在输入一个待分类对象 $x = \{ {a_1,a_2,...,a_n}\}$ ，我们计算
${ {P(a_1|y_1), P(a_2|y_1), ... ,P(a_n|y_1)}\},\\ \{ {P(a_1|y_2), P(a_2|y_2), ... ,P(a_n|y_2)}\},\\ ...\\ \{ {P(a_1|y_m), P(a_2|y_m), ... ,P(a_n|y_m)}\}$

这里值得注意的是有可能某一分类 $y_k$ 下并没有特征属性 $a_i$ 对应的特征属性 $b_j$ ，所以会导致 $P(a_i|y_k) = 0$ 的情况出现，这在样本集训练过程中会对训练结果造成较大负面影响，需要引入一些特殊处理减少影响；
【3】根据贝叶斯定理，可以得到我们所关注的 $P(y_k|x)$ 的计算公式：
$P(y_k|x) = \frac{P(x|y_k)P(y_k)}{P(x)}$

由于每个待分类对象都是平等的，因此分子 $P (x)$ 为一常数，故 $P(y_k|x)$ 的大小取决与分子的大小 $P(x|y_k)P(y_k)$ 的大小。
对于 $P(x|y_k)$ ，由于待检测样本 $x = \{ {a_1,a_2,...,a_n}\}$ 的各特征属性 $a_i$ 是各自独立的，因此有：
$P(x|y_k) = P(a_1|y_k)·P(a_2|y_k)···P(a_n|y_k) = \sum_{i=1}^n{P(a_i|y_k)}$

故：
$P(y_k|x) = \frac{P(y_k)\sum_{i=1}^n{P(a_i|y_k)}}{P(x)}$

所以只要我们找到 $max\{ {P(y_k|x)}\}$ 就可以得到 $x$ 最合适的分类了，这么一想这算法还真是“朴素”呢~

评价
朴素贝叶斯分类算法要求分类对象的特征属性必须有条件独立或基本独立（实际上在现实应用中几乎不可能做到完全独立）。当这个条件成立时，朴素贝叶斯分类法的准确率是最高的，但是现实中各个特征属性间往往并不条件独立，而是具有较强的相关性，这样就限制了朴素贝叶斯分类的能力。

二、无监督学习方法举例

2. K-means

K-means以某种相似性度量为标准，确定样本的结构，即样本属于哪一个簇取决于该样本与哪一个簇的中心点最相似，是一种聚类算法。
其主要过程包含：
【1】随机选择K个点作为初始的聚类中心；
【2】对于剩下的点，根据其与聚类中心的距离，将其归于最近的簇，这里的距离的计算方法常见的有曼哈顿距离、欧式距离、余弦相似度等；
【3】计算每个簇内所有点的均值作为新的聚类中心；
【4】重复步骤【2】【3】，直到聚类中心不再改变或者聚类中心改变数值小于我们设定的阈值时，结束循环，完成最终聚类。
从上述过程的描述可以明显感觉到这一算法的思想确实很简单，但也存在一些需要注意的地方：

初始的K个分类中心的选取可以随机，也可以人为指定，不同选取情况对聚类速率有较大影响；
容易陷入局部最优（这让我想起了原始粒子群算法也有这个问题）
迭代次数阈值或者两次聚类中心RSS差值阈值对聚类终止的快慢也有影响。

除了上述原理的阐述之外，K-means在图像分割领域也有所应用，主要还是对于相近颜色区域的聚类分割。Opencv库中有相关的现程库函数可以调用，下面是我在做餐盘分割的时候中的测试图像

通过选择合适的聚类簇数K可以消除一定的光照影响，从而为下一步提取餐盘边缘色彩信息，进而对餐盘颜色分类提供了一个方法，不过由于聚类收敛的速度不是很快，所以并不适用于实时的检测算法中，这也是K-means聚类算法一个较大的缺陷。