统计学习方法-方法概论(3)

分类问题

概述

分类是监督学习的一个核心问题 
在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题
输入变量X可以是离散的,也可以是连续的 监督学习从数据中学习一个分类模型或分类决策函数 称为分类器
分类器对新的输入进行输出的预测 称为分类
可能的输出称为类

评价指标

对于二类分类问题常用的评价指标是精确率与召回率
分类器在测试数据集上的预测或正确或不正确 有四种情况发生
TP: 将正类预测为正类数
FN: 将正类预测为负类数
FP: 将负类预测为正类数
TN: 将负类预测为负类数

精确率为: P = T P T P + F P 预测正类数/所有正类的预测数
召回率为: R = T P T P + F N 预测正类数/正类数
F 1 : 2 F 1 = 1 p + 1 R
即为: F 1 = 2 T P 2 T P + F P + F N
许多统计学习方法可以用于分类: KNN, 感知机,不朴素贝叶斯法,决策树,决策列表,逻辑回归,支持向量机,提升方法,贝叶斯网络,神经网络,Winnow等

标注问题

概述

标注也是监督学习问题
标注问题的输入是观测序列,输出是一个标记序列或状态序列
标注问题的目标在于学习一个模型 能够对观测序列给出标记序列作为预测
注意:可能的标记个数是有限的 但其组合所成的标记序列的个数是依序列长度呈指数级增长的

标注问题分为学习和标注两个过程
首先给定一个训练数据集 T = ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N )
x i = ( x i ( 1 ) , x i ( 2 ) , . . . , x i ( n ) ) T , i = 1 , 2 , . . . , N , y i = ( y i ( 1 ) , y i ( 2 ) , . . . , y i ( n ) ) T
n , , , : P ( Y ( 1 ) , Y ( 2 ) , . . . , Y ( n ) | X ( 1 ) , X ( 2 ) , . . . , X ( n ) )
X i , Y ( i ) , ,

评价指标

评价标注模型的指标与评价分类模型的指标一样,常用的有标注准确率 精确率和召回率
标注常用的统计学习方法有:隐马尔科夫模型 条件随机场
标注应用问题:
自然语言处理中的词性标注
从文章中抽取基本名词短语

回归问题

概述

回归是监督学习的另一个重要问题
回归用于预测输入变量和输出变量之间的关系
当输入变量的值发生变化时,输出变量的值随之变化
实质上:回归模型正是表示从输入变量到输出变量之间映射的函数
回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据

回归问题按照输入变量的个数,分为一元回归和多元回归
按照输入变量与输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归
回归学习最常用的损失函数是平方损失函数

参看文献
《统计学习方法》,李航著;

猜你喜欢

转载自blog.csdn.net/troysps/article/details/80550215