ML-53:机器学习之朴素贝叶斯(Naive Bayesian, NB)分类算法+代码

机器学习之朴素贝叶斯分类算法

1 算法原理

1.1 贝叶斯定理
1.2 极大似然估计
1.3 朴素贝叶斯(Naive Bayesian, NB)

2 算法实例
3 典型应用
参考资料

一起创作,Come on!!! 简练而全面的开源ML&AI电子书

朴素贝叶斯(Naive Bayesian, NB)分类算法属于监督学习算法。常用分类算法包括：逻辑回归(Logistic Regression, LR)、K最近邻(k-Nearest Neighbor, KNN)、朴素贝叶斯模型(Naive Bayesian Model, NBM)、隐马尔科夫模型(Hidden Markov Model)、支持向量机(Support Vector Machine)、决策树(Decision Tree)、神经网络(Neural Network)和集成学习(ada-boost)。

朴素贝叶斯(Naive Bayesian, NB)分类算法基于贝叶斯定理和极大似然估计对数据集分类。贝叶斯定理的强大之处在于能够根据不确定性信息作出推理和决策。当你不能确定一个事件发生的概率时，你可以依靠于该事件本质属性相关的事件发生的概率去推断该事件发生的概率。贝叶斯定理可用于贝叶斯推断: 随着信息增加，贝叶斯定理可以用于更新假设的概率。在决策理论中，贝叶斯推断与主观概率密切相关，通常被称为贝叶斯概率。

1 算法原理

朴素贝叶斯(Naive Bayesian, NB)分类算法的基础是贝叶斯定理和极大似然估计。贝叶斯定理和极大似然估计在高中概率论中有介绍，我们简单回顾一下。

1.1 贝叶斯定理

贝叶斯定理和香农信息熵一起构成了现在信息理论的基础。贝叶斯定理是英国数学家和神学家托马斯·贝叶斯(Thomas Bayes, 1701年—1761年)发现的。有趣的是贝叶斯定理的原作者生前并没有发表其成果，而是1763年由他的助手Richard Price整理发表出来。贝叶斯定理：条件概率P(A|B)和条件概率P(B|A)之间有明确的关系，可以表示为：

$P(A|B)=P(B|A)P(A)/P(B)$

P(A|B) 在事件B下事件A发生的条件概率
P(B|A) 在事件A下事件B发生的条件概率
P(A), P(B) 独立事件A和独立事件B的边缘概率

1.2 极大似然估计

在概率论中，似然函数是一种关于统计模型中的参数的函数，表示模型参数中的似然性。似然性是用于在已知某些观测所得到的结果时，对有关事物的性质的参数进行估计。

1.3 朴素贝叶斯(Naive Bayesian, NB)

朴素贝叶斯(Naive Bayesian, NB)分类算法是基于贝叶斯定理的概率分类器，朴素贝叶斯的朴素提现在假设若干个数据特征有强独立性，并忽略掉数据特征间的相关性。

朴素贝叶斯(Naive Bayesian, NB)构建的概率模型，其优化目标是找最优的类别 $C_k$ 是P的概率最大:
$y=argmax_{ck}P(Y=c_k|X=x)$
$y=argmax_{ck}P(Y=c_k)\prod_{j=1}P(X=x_j|Y=c_k)$

朴素贝叶斯(Naive Bayesian, NB)分类算法的核心步骤如下:

输入测试数据
计算先验概率和条件概率
对于给定的数据样本
根据朴素贝叶斯模型(Naive Bayesian Model, NBM)确定数据样本的类别
反复迭代上述步骤
输入分类类别

朴素贝叶斯(Naive Bayesian, NB)分类算法的核心优势如下：

计算伸缩性: 基于贝叶斯数学定理，有稳定的分类效率;
参数依赖性: 算法不需要参数调节;
普适性能力: 算法要求数据特征具有独立性，对相互依赖的数据也有不俗的表现;
抗噪音能力: 对缺失数据和异常数据不明感;
结果解释性: 理论明确，解释性好。

2 算法实例

[TODO, Coming Soon!]

3 典型应用

朴素贝叶斯(Naive Bayesian, NB)在概率学、逻辑学和心理学领域的研究和实践中应用广泛，用于解决根据不确定性信息作出推理和决策需要对各种结论的概率作出估计。贝叶斯推理的问题是条件概率推理问题，这一领域的探讨对揭示人们对概率信息的认知加工过程与规律、指导人们进行有效的学习和判断决策都具有十分重要的理论意义和实践意义。

参考资料

[1] 周志华. 机器学习. 清华大学出版社. 2016.
[2] [日]杉山将. 图解机器学习. 人民邮电出版社. 2015.
[3] 佩德罗·多明戈斯. 终极算法-机器学习和人工智能如何重塑世界. 中信出版社. 2018.
[4] 李航. 统计学习方法. 2012.