生成模型
概率生成模型,简称生成模型(Generative Model),是概率统计和机器学习中的一类重要模型,指一系列用于随即生成可观测数据的模型。
典型模型
- 高斯混合模型(Gaussian Mixed Model)
- 隐马尔科夫模型(Hidden Markov Model)
- 朴素贝叶斯分类器(Naive Bayes Classifier)
判别模型
在机器学习领域,判别模型是一种对未知数据 与已知数据 之间进行建模的方法。
已知输入变量 ,判别模型通过构建条件概率分布 预测 。
典型模型
- 逻辑回归(Logistics Regression)
- 线性回归(Linear Regression)
- 感知器(Perceptron)
- 随机森林(Random Forest)
- 支持向量机(Support Vector Machine)
生成模型 v.s. 判别模型
举个栗子
如上图,现在有很多个黄色球和蓝色球,现在突然多了一个未知的球,我们需要确定它属于蓝色球还是黄色球。
- 生成模型:我们需要通过学习蓝色球和黄色球的特征从而得知蓝色球和黄色球的概率分布情况(即学得两个概率分布),然后再将未知球的特征值分别代入两个模型,通过比较两个模型最终输出的概率结果的大小,从而确定未知球属于蓝色球还是黄色球。
- 判别模型:我们需要通过学习蓝色球和黄色球的特征从而得到一个分类面(即学得一个模型),然后再将未知球的特征值代入这个模型中,根据最终模型的输出值来确定未知球属于哪种颜色球。
理论
对于已知样本数据,每个样本均有特征 和对应分类
- 生成模型:学习得到联合概率分布 ,即特征 和标记y共同出现的概率,然后求出条件概率分布。能够学习到数据生成的机制。
- 判别模型:学习得到条件概率分布 ,即特征 出现的情况下标记y出现的概率。
生成模型的优缺点
优点
- 实际上带的信息比判别模型丰富
- 研究单类问题比判别模型灵活性强
- 能用于数据不完整情况
- 很容易将先验知识考虑进去
缺点
- 容易产生错误分类
- 学习和计算过程比较复杂
判别模型的优缺点
优点
- 分类边界更灵活,比使用纯概率方法或生成模型得到的更高级
- 能清晰的分辨出多类或某一类与其它类之间的差异特征
- 适用于较多类别的识别
- 判别模型的性能比生成模型要简单,比较容易学习
缺点
- 不能反应训练数据本身的特性,只能告诉你的是1还是2,不能把整个场景描述出来
- 黑盒操作,变量间的关系不清楚,不可视
以上就是文章全部内容,若有错还请您留言指正!