机器学习（三）：生成模型与判别模型、准确率,召回率,F值

生成模型与判别模型

监督学习方法分为生成方法和判别方法。所学到的模型分别称为生成模型和判别模型。

生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型：

这样的方法之所以称为生成方法，是因为模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有：朴素贝叶斯法和隐马尔科夫模型。

判别方法由数据直接学习决策函数或者条件概率分布作为预测的模型，即判别模型。判别方法关心的是对给定的输入X，应该预测什么样的输出Y，典型的判别模型包括：k近邻法、感知机、决策树、逻辑回归、最大熵模型、支持向量机、提升方法和条件随机场等。

生成方法的特点：生成方法可以还原出联合概率分布P(X,Y),而判别方法则不能；生成方法的学习收敛速度更快，即当样本容量增加时候，学到的模型可以更快地收敛于真实模型；当存在隐变量时，仍可以用生成方法学习，此时判别方法不能使用。

判别方法的特点：判别方法直接学习的是条件概率P(Y|X)或决策函数f(X),直接面对预测，往往学习的准确率更高。由于直接学习条件概率或者决策函数，可以对数据进行各种程度上的抽象、定义特征并使用特征，因此可以简化学习问题。

准确率、召回率、F值

评价分类器的一般指标是分类准确率（accuracy），其定义是：对于给定的测试数据集，分类器正确分类的样本数与总样本数之比。

对于二类分类，更加常用的评价指标是精确率（precision）和召回率（recall）。通常，以关注的类为正类，其他类为反类，分类器在测试数据集上的预测或正确或不正确，4种情况出现的总数分别记为：
TP——将正类预测为正类数；
FN——将正类预测为负类数；
FP——将负类预测为正类数；
TN——将负类预测为负类数；

精确率定义为：

召回率定义为：

P和R指标有时候会出现的矛盾的情况，这样就需要综合考虑他们，最常见的方法就是F-Measure（又称为F-Score），F-Measure是Precision和Recall加权调和平均：

当参数α=1时，就是最常见的F1，也即

精确率和召回率都高是，F1值也会高