统计学习方法笔记(四)统计学习方法简介

生成模型与判别模型

监督学习方法可以分为生成方法与判别方法,所学到的模型叫做生成模型与判别模型
1. 生成方法:生成方法由数据学习联合概率密度分布 P ( X , Y ) ,然后求出条件概率分布作为预测的模型,称为生成模型:
P ( Y | X ) = P ( X , Y ) / P ( X )
这种方法被称为生成方法的原因是,给定了一个输入 X ,就可以得到一个输出 Y ,这是一种生成关系,典型的生成模型有:朴素贝叶斯法和隐马尔科夫模型。
特点:可以还原出联合概率分布,学习收敛速度快,当存在隐变量时仍然可以使用。
2. 判别方法:判别方法是由数据直接学习决策函数 f ( X ) 或者条件概率分布 P ( Y | X ) 作为预测的模型,判别方法关心的是给定输入,应该预测什么样的输出(简单理解为输出的各个属性),典型的判别模型有:k近邻法,感知机,决策树,逻辑斯蒂回归模型,最大熵模型,支持向量机,提升方法和条件随机场等。
特点:直接面对预测,学习的准确率更高,可以简化学习问题

分类问题

分类是监督学习的核心问题,其输出变量是离散的,输入变量可以是连续的,也可以是离散的。监督学习从数据中学习出一个分类模型或者分类决策函数,称为分类器,再使用这个分类器对新的输入进行预测,称为分类,可能的输出称为类。
分类问题包括学习和分类两个过程,分类系统可用下图进行表示:
这里写图片描述
评价分类器的指标是分类准确率,其定义是:在测试集中,分类器正确分类的样本数与总样本数之比,对于二类分类问题,常用的评价指标是精确率与召回率,通常以关注的类为正类,其他为负类。可能出现的情况 :
TP:将正类预测为正类;FP:将负类预测为正类
TN:讲负类预测为负类;FN:讲正类预测为负类
精确率定义为: P = T P T P + F P
召回率定义为: P = T P T P + F N
F 1 值:精确率与召回率的调和均值,即:
2 F 1 = 1 P + 1 R
F 1 = 2 T P 2 T P + F P + F N
精确率与召回率都很高时,F1值也会高

标注问题

输入是一个观测序列,输出是一个标记序列或状态序列,标注问题的目标在于学习一个模型,使得对观测序列给出标记序列作为预测;标注问题分为学习和标注两个过程;标注问题所构建的模型表现为条件概率分布

回归问题

回归问题用于预测输入变量与输出变量之间的关系;回归模型是表示从输入变量到输出变量的函数;回归问题的学习等价于函数的拟合。回归问题分为学习和预测两个过程

猜你喜欢

转载自blog.csdn.net/yeyustudy/article/details/79251427
今日推荐