朴素贝叶斯总结

 
 朴素贝叶斯 
 定义：基于贝叶斯定理与特征条件独立假设的分类方法。
方法：给定输入x，根据贝叶斯定理求出后验概率最大的输出y即根据 
       
           p 
          
           ( 
          
           Y 
          
           ∣ 
          
           X 
          
           ) 
          
          p(Y|X) 
         
      p(Y∣X)决定预测分类y。
 
 details 
 根据训练数据集学习到联合概率分布 
       
           P 
          
           ( 
          
           X 
          
           , 
          
           Y 
          
           ) 
          
          P(X,Y) 
         
      P(X,Y)以及条件概率分布 
       
           P 
          
           ( 
          
           X 
          
           = 
          
           x 
          
           ∣ 
          
           Y 
          
           = 
          
            c 
           
            k 
           
           ) 
          
          P(X=x|Y=c_k) 
         
      P(X=x∣Y=ck​)
朴素贝叶斯对条件概率分布做了条件独立性假设（特征都相对条件独立！）
  
            P 
           
            ( 
           
            X 
           
            = 
           
            x 
           
            ∣ 
           
            Y 
           
            = 
           
             c 
            
             k 
            
            ) 
           
            = 
           
             ∏ 
            
              j 
             
              = 
             
              1 
             
             n 
            
            P 
           
            ( 
           
             X 
            
             j 
            
            = 
           
             x 
            
             j 
            
            ∣ 
           
            Y 
           
            = 
           
             c 
            
             k 
            
            ) 
           
           P(X=x|Y=c_k) = \prod_{j=1}^nP(X^j=x^j|Y=c_k) 
          
       P(X=x∣Y=ck​)=j=1∏n​P(Xj=xj∣Y=ck​)
 朴素贝叶斯实际上还可以学习到生成数据的机制，因此属于一个生成模型（学习到在已知类别的情况下特征的概率）
根据后验概率将概率最大的类别作为x的类输出
  
            P 
           
            ( 
           
            Y 
           
            = 
           
             c 
            
             k 
            
            ∣ 
           
            X 
           
            = 
           
            x 
           
            ) 
           
            = 
           
              P 
             
              ( 
             
              X 
             
              = 
             
              x 
             
              ∣ 
             
              Y 
             
              = 
             
               c 
              
               k 
              
              ) 
             
              P 
             
              ( 
             
              Y 
             
              = 
             
               c 
              
               k 
              
              ) 
             
               ∑ 
              
               k 
              
              P 
             
              ( 
             
              X 
             
              = 
             
              x 
             
              ∣ 
             
              Y 
             
              = 
             
               c 
              
               k 
              
              ) 
             
              P 
             
              ( 
             
              Y 
             
              = 
             
               c 
              
               k 
              
              ) 
             
           P(Y=c_k|X=x) = \frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_kP(X=x|Y=c_k)P(Y=c_k)} 
          
       P(Y=ck​∣X=x)=∑k​P(X=x∣Y=ck​)P(Y=ck​)P(X=x∣Y=ck​)P(Y=ck​)​
由于分母对于各个类都一样，于是
  
            y 
           
            = 
           
            a 
           
            r 
           
            g 
           
            m 
           
            a 
           
             x 
            
              c 
             
              k 
             
            P 
           
            ( 
           
            X 
           
            = 
           
            x 
           
            ∣ 
           
            Y 
           
            = 
           
             c 
            
             k 
            
            ) 
           
            P 
           
            ( 
           
            Y 
           
            = 
           
             c 
            
             k 
            
            ) 
           
            = 
           
            P 
           
            ( 
           
            Y 
           
            = 
           
             c 
            
             k 
            
            ) 
           
             ∏ 
            
              j 
             
              = 
             
              1 
             
             n 
            
            P 
           
            ( 
           
             X 
            
             j 
            
            = 
           
             x 
            
             j 
            
            ∣ 
           
            Y 
           
            = 
           
             c 
            
             k 
            
            ) 
           
           y = argmax_{c_k}P(X=x|Y=c_k)P(Y=c_k)= P(Y=c_k)\prod_{j=1}^nP(X^j=x^j|Y=c_k) 
          
       y=argmaxck​​P(X=x∣Y=ck​)P(Y=ck​)=P(Y=ck​)j=1∏n​P(Xj=xj∣Y=ck​)
朴素贝叶斯等价于期望风险最小化
朴素贝叶斯的参数估计采用极大似然估计，然而这样计算条件分布和先验分布的时候可能出现概率值为0，会影响到后续计算后验分布，因此在随机变量各个取值的聘书上加上一个整数 
       
           λ 
          
          \lambda 
         
      λ，当 
       
           λ 
          
           = 
          
           0 
          
          \lambda=0 
         
      λ=0时就是极大似然估计。 
       
           λ 
          
           = 
          
           1 
          
          \lambda=1 
         
      λ=1时称为拉普拉斯平滑
朴素贝叶斯

details

猜你喜欢