统计学习方法-方法概论(3)

分类问题

概述

分类是监督学习的一个核心问题 
在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题
输入变量X可以是离散的,也可以是连续的 监督学习从数据中学习一个分类模型或分类决策函数 称为分类器
分类器对新的输入进行输出的预测 称为分类
可能的输出称为类

评价指标

对于二类分类问题常用的评价指标是精确率与召回率
分类器在测试数据集上的预测或正确或不正确有四种情况发生
TP: 将正类预测为正类数
FN: 将正类预测为负类数
FP: 将负类预测为正类数
TN: 将负类预测为负类数

精确率为: $P = \frac{TP}{TP+FP}$ 预测正类数/所有正类的预测数
召回率为: $R = \frac{TP}{TP+FN}$ 预测正类数/正类数
$F_1值: \frac{2}{F_1} = \frac{1}{p} + \frac{1}{R}$
即为: $F_1 = \frac{2TP}{2TP+FP+FN}$
许多统计学习方法可以用于分类: KNN, 感知机,不朴素贝叶斯法,决策树,决策列表,逻辑回归,支持向量机,提升方法,贝叶斯网络,神经网络,Winnow等

标注问题

概述

标注也是监督学习问题
标注问题的输入是观测序列,输出是一个标记序列或状态序列
标注问题的目标在于学习一个模型能够对观测序列给出标记序列作为预测
注意:可能的标记个数是有限的但其组合所成的标记序列的个数是依序列长度呈指数级增长的

标注问题分为学习和标注两个过程
首先给定一个训练数据集 $T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}$
$x_i = (x_i^{(1)}, x_i^{(2)},...,x_i^{(n)})^T, i=1,2,...,N, 是输入观测序列 \\ y_i = (y_i^{(1)},y_i^{(2)},...,y_i^{(n)})^T 是相应的输出标记序列$
$n是序列的长度,对不同的样本可以有不同的值,学习系统基于训练数据集构建一个模型,表示为条件概率分布:P(Y^{(1)},Y^{(2)},...,Y^{(n)}|X^{(1)},X^{(2)},...,X^{(n)})$
$每一个X^{i}取值为所有可能的观测, 每一个Y^{(i)}取值为所有可能的标记, 标注系统按照学习得到的条件概率分布模型,对新的输入观测序列找到相应的输出标记序列$

评价指标

评价标注模型的指标与评价分类模型的指标一样,常用的有标注准确率精确率和召回率
标注常用的统计学习方法有:隐马尔科夫模型条件随机场
标注应用问题:
自然语言处理中的词性标注
从文章中抽取基本名词短语

回归问题

概述

回归是监督学习的另一个重要问题
回归用于预测输入变量和输出变量之间的关系
当输入变量的值发生变化时,输出变量的值随之变化
实质上:回归模型正是表示从输入变量到输出变量之间映射的函数
回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据

回归问题按照输入变量的个数,分为一元回归和多元回归
按照输入变量与输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归
回归学习最常用的损失函数是平方损失函数

参看文献
《统计学习方法》，李航著;