朴素贝叶斯总结

朴素贝叶斯

  • 定义:基于贝叶斯定理特征条件独立假设的分类方法。
  • 方法:给定输入x,根据贝叶斯定理求出后验概率最大的输出y即根据 p ( Y X ) p(Y|X) 决定预测分类y。

details

  • 根据训练数据集学习到联合概率分布 P ( X , Y ) P(X,Y) 以及条件概率分布 P ( X = x Y = c k ) P(X=x|Y=c_k)
  • 朴素贝叶斯对条件概率分布做了条件独立性假设(特征都相对条件独立!)
    P ( X = x Y = c k ) = j = 1 n P ( X j = x j Y = c k ) P(X=x|Y=c_k) = \prod_{j=1}^nP(X^j=x^j|Y=c_k)
    朴素贝叶斯实际上还可以学习到生成数据的机制,因此属于一个生成模型(学习到在已知类别的情况下特征的概率)
  • 根据后验概率将概率最大的类别作为x的类输出
    P ( Y = c k X = x ) = P ( X = x Y = c k ) P ( Y = c k ) k P ( X = x Y = c k ) P ( Y = c k ) P(Y=c_k|X=x) = \frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_kP(X=x|Y=c_k)P(Y=c_k)}
  • 由于分母对于各个类都一样,于是
    y = a r g m a x c k P ( X = x Y = c k ) P ( Y = c k ) = P ( Y = c k ) j = 1 n P ( X j = x j Y = c k ) y = argmax_{c_k}P(X=x|Y=c_k)P(Y=c_k)= P(Y=c_k)\prod_{j=1}^nP(X^j=x^j|Y=c_k)
  • 朴素贝叶斯等价于期望风险最小化
  • 朴素贝叶斯的参数估计采用极大似然估计,然而这样计算条件分布和先验分布的时候可能出现概率值为0,会影响到后续计算后验分布,因此在随机变量各个取值的聘书上加上一个整数 λ \lambda ,当 λ = 0 \lambda=0 时就是极大似然估计。 λ = 1 \lambda=1 时称为拉普拉斯平滑

猜你喜欢

转载自blog.csdn.net/nickkissbaby_/article/details/89279376
今日推荐