生成模型与判别模型

监督学习方法可以分为生成方法与判别方法，所学到的模型叫做生成模型与判别模型
1. 生成方法：生成方法由数据学习联合概率密度分布 $P(X,Y)$ ，然后求出条件概率分布作为预测的模型，称为生成模型：
$P(Y|X) = P(X,Y)/P(X)$
这种方法被称为生成方法的原因是，给定了一个输入 $X$ ，就可以得到一个输出 $Y$ ，这是一种生成关系，典型的生成模型有：朴素贝叶斯法和隐马尔科夫模型。
特点：可以还原出联合概率分布，学习收敛速度快，当存在隐变量时仍然可以使用。
2. 判别方法：判别方法是由数据直接学习决策函数 $f(X)$ 或者条件概率分布 $P(Y|X)$ 作为预测的模型，判别方法关心的是给定输入，应该预测什么样的输出（简单理解为输出的各个属性），典型的判别模型有：k近邻法，感知机，决策树，逻辑斯蒂回归模型，最大熵模型，支持向量机，提升方法和条件随机场等。
特点：直接面对预测，学习的准确率更高，可以简化学习问题

分类问题

分类是监督学习的核心问题，其输出变量是离散的，输入变量可以是连续的，也可以是离散的。监督学习从数据中学习出一个分类模型或者分类决策函数，称为分类器，再使用这个分类器对新的输入进行预测，称为分类，可能的输出称为类。
分类问题包括学习和分类两个过程，分类系统可用下图进行表示：
这里写图片描述
评价分类器的指标是分类准确率，其定义是：在测试集中，分类器正确分类的样本数与总样本数之比，对于二类分类问题，常用的评价指标是精确率与召回率，通常以关注的类为正类，其他为负类。可能出现的情况：
TP:将正类预测为正类；FP：将负类预测为正类
TN:讲负类预测为负类；FN：讲正类预测为负类
精确率定义为： $P = \frac{{TP}}{{TP + FP}}$
召回率定义为： $P = \frac{{TP}}{{TP + FN}}$
${F_1}$ 值：精确率与召回率的调和均值，即：
$\frac{2}{{{F_1}}} = \frac{1}{P} + \frac{1}{R}$
${F_1} = \frac{{2TP}}{{2TP + FP + FN}}$
精确率与召回率都很高时，F1值也会高

标注问题

输入是一个观测序列，输出是一个标记序列或状态序列，标注问题的目标在于学习一个模型，使得对观测序列给出标记序列作为预测；标注问题分为学习和标注两个过程；标注问题所构建的模型表现为条件概率分布

回归问题

回归问题用于预测输入变量与输出变量之间的关系；回归模型是表示从输入变量到输出变量的函数；回归问题的学习等价于函数的拟合。回归问题分为学习和预测两个过程

统计学习方法笔记（四）统计学习方法简介

生成模型与判别模型

分类问题

标注问题

回归问题

猜你喜欢