读书笔记-《机器学习》第七章:贝叶斯分类器

第七章 贝叶斯分类器
  • 由结果推原因转化为由原因推结果
  • 先验概率:是根据以往经验和分析得到的概率
  • 后验概率:事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,即由结果倒推原因
  • 贝叶斯判定准则:为最小化总体风险,只需在每个样本上选择那个能使条件风险R(c|x)最小的类别标记
  • 判别式模型:给定x,通过直接建模P(c|x)来预测c;决策树、BP神经网络、支持向量机等
  • 生成式模型:先对联合概率分布P(x,c)建模,然后再由此获得P(c|x);朴素贝叶斯
  • 对于生成式模型,必然考虑:
基于贝叶斯定理,可写为
因此估计P(c|x)的问题就转化为如何基于训练集数据集D来估计 先验概率P(c) 类条件概率P(x|c)
  • 对于类先验概率P(c),根据大数定律,当训练集包含充足的独立同分布样本时,可通过各类样本出现的频率来进行估计
  • 对于类条件概率P(x|c),由于它涉及关于x所有属性的联合概率(高阶联合概率),直接根据样本出现的频率来估计将会遇到严重的困难。例如,假设样本的d个样本都是二值的,则样本空间将有2的d次方种可能的取值。这个值往往远大于训练样本数m。也就是说,很多样本取值在训练集中根本没有出现,直接用来估计P(x|c)显然是不可行的。“未被观测到”与“出现概率为零”通常是不同的
  • 类条件概率参数估计方法:极大似然函数
  • 估计后验概率的主要困难在于:类条件概率是所有属性上的联合概率,难以从有限的训练样本直接估计而得。为避开这个障碍,朴素贝叶斯分类器采用了“属性条件独立性假设”:对已知类别,假设所有属性间相互独立。换言之,假设每个属性独立地对分类结果发生影响
  • 朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率P(c),并为每个属性估计类条件概率P(xi|c)
  • 拉普拉斯修正:为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值时通常要进行“平滑”
  • 拉普拉斯修正避免了因训练集样本不充分而导致概率估值为零的问题,并且在训练集变大时,修正过程引入了先验的影响也会逐渐变得可忽略,使得估值趋向于实际概率值
  • 半朴素贝叶斯分类器
  • 贝叶斯网
  • EM算法是常用的估计参数隐变量的利器,它是一种迭代的方法,其基本想法是:若参数θ已知,则可根据训练数据推断出最优隐变量Z的值(E步);反之,若Z的值已知,则可方便的对参数θ做极大释然估计(M步)
  • EM算法的实例:Kmeans聚类、高斯混合模型

猜你喜欢

转载自blog.csdn.net/lz_peter/article/details/80394741