分类问题
概述
分类是监督学习的一个核心问题
在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题
输入变量X可以是离散的,也可以是连续的 监督学习从数据中学习一个分类模型或分类决策函数 称为分类器
分类器对新的输入进行输出的预测 称为分类
可能的输出称为类
评价指标
对于二类分类问题常用的评价指标是精确率与召回率
分类器在测试数据集上的预测或正确或不正确 有四种情况发生
TP: 将正类预测为正类数
FN: 将正类预测为负类数
FP: 将负类预测为正类数
TN: 将负类预测为负类数
精确率为:
预测正类数/所有正类的预测数
召回率为:
预测正类数/正类数
即为:
许多统计学习方法可以用于分类: KNN, 感知机,不朴素贝叶斯法,决策树,决策列表,逻辑回归,支持向量机,提升方法,贝叶斯网络,神经网络,Winnow等
标注问题
概述
标注也是监督学习问题
标注问题的输入是观测序列,输出是一个标记序列或状态序列
标注问题的目标在于学习一个模型 能够对观测序列给出标记序列作为预测
注意:可能的标记个数是有限的 但其组合所成的标记序列的个数是依序列长度呈指数级增长的
标注问题分为学习和标注两个过程
首先给定一个训练数据集
评价指标
评价标注模型的指标与评价分类模型的指标一样,常用的有标注准确率 精确率和召回率
标注常用的统计学习方法有:隐马尔科夫模型 条件随机场
标注应用问题:
自然语言处理中的词性标注
从文章中抽取基本名词短语
回归问题
概述
回归是监督学习的另一个重要问题
回归用于预测输入变量和输出变量之间的关系
当输入变量的值发生变化时,输出变量的值随之变化
实质上:回归模型正是表示从输入变量到输出变量之间映射的函数
回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据
回归问题按照输入变量的个数,分为一元回归和多元回归
按照输入变量与输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归
回归学习最常用的损失函数是平方损失函数
参看文献
《统计学习方法》,李航著;