Skiti-learn 朴素贝叶斯库

朴素贝叶斯共有三种分类算法，GaussianNB,MultinomialNB和BernouliNB，GaussianNB是先验为高斯分布的朴素贝叶斯，MultinomialNB是先验为多项式分布的朴素贝叶斯，BornouliNB是先验为伯努利分布的朴素贝叶斯；一般情况下，如果样本特征的分布大部分是连续值，使用GaussianNB会比较好。如果如果样本特征的分大部分是多元离散值，使用MultinomialNB比较合适。而如果样本特征是二元离散值或者很稀疏的多元离散值，应该使用BernoulliNB。

GaussianNB类
GaussionNB假设先验概率为正态分布，

Ck为Y的第k类类别。μk和σ2k 为需要从训练集估计的值。
GaussianNB会根据训练集求出μk和σ2k。 μk为在样本类别Ck中，所有Xj的平均值。σ2k为在样本类别Ck中，所有Xj的方差。
GaussianNB类中的主要参数仅一个，先验概率priors,对应Y的各个类别的先验概率P(Y=Ck)。这个值默认不给出，如果不给出此时 P(Y=Ck)=mk/m,其中m为训练集样本总数量，mk为输出为第k类别的训练集样本数。如果给出的话就以priors 为准。
当我们用GaussianNB的fit方法拟合数据，有三种预测方法，predict,predict_log_proba,predict_proba。其中predict方法是最为常用的，直接给出测试集的预测类别输出；predict_proba会给出测试集样本在各个类别上预测的概率，predict_proba预测最大的概率的输出就是predict的输出；predict_log_proba和predict_proba类似，它给出测试样本在各个类别上预测的概率转化为一个对数。
下面给出一个GaussianNB的例子：

import numpy as np
X =np.array{[[-1,-1],[-2,-1],[-3,-2],[1,1],[2,1],[3,2]]}
Y=np.array{[1,1,1,2,2,2]}
form sklearn.native_bayes import GuassianNB
clf=GaussianNB()

clf.fit(X,Y)
print(clf.predict([[0.8,-1]]))
print(clf.predict_proba([[0.8,-1]]))
print(clf.prediet_log_proba([[0.8,-1]])

输出结果：
Predict result by predict：[1]
Predict result by predict_proba：[[ 9.99999949e-01 5.05653254e-08]]
Predict result by predict_log_proba：[[ -5.05653266e-08 -1.67999998e+01]]

GaussianNB还有一个重要的功能是有 partial_fit方法，这个方法的一般用在如果训练集数据量非常大，一次不能全部载入内存的时候。这时我们可以把训练集分成若干等分，重复调用partial_fit来一步步的学习训练集，非常方便。MultinomialNB和BernoulliNB也有类似的功能。

MultinomialNB类
MultinomialNB类采用的先验概率为多项式分布：

P(Xj=xjl|Y=Ck)是第k个类别的第j维特征的第l个个取值条件概率。mk是训练集中输出为第k类的样本个数。λ 为一个大于0的常数，常常取为1，即拉普拉斯平滑。也可以取其他值。
MultinomialNB有三个参数，alpha为多项式分布中的λ （拉普拉斯平滑），没有特别需要，一般默认为1，如果发现拟合的不好，需要调优时，可以选择稍微大于1或者小于1的数；布尔参数fit_prior表示是否考虑先验概率，如果是false，则所有的样本的输出都有相同类别的先验概率，即P(Y=Ck)=1/k，如果是true，则可以用第三个参数class_prior输入先验概率，或者不输入先验概率让MultinoumialNB从训练集来计算先验概率，此时先验概率为P(Y=Ck)=mk/m。
在MultinuomialNB采用fit或者partial_fit拟合时，我们同样可以以predict,predict_log_proba,predict_proba三种方式预测。
BernouliNB类
BernouliNB采用的先验概率为二项伯努利分布:

ll只有两种取值。xjl只能取值0或者1。
BernouliNB一共有4个参数，其中三个和MultinomialNB相同，增加了binarize,这个参数主要是处理二项分布的，如果不输入，则BernouliNB认为每个数据特征都是二元的。如果输入数值，则认为小于binarize归为一类，大于则归于另一类。
　在使用BernoulliNB的fit或者partial_fit方法拟合数据后，我们可以进行预测。此时预测有三种方法，包括predict，predict_log_proba和predict_proba。方法和GaussianNB完全一样。

Skiti-learn 朴素贝叶斯库

猜你喜欢