统计学习方法-李航-第一章:统计学习方法概论-笔记1


0 机器学习分类

机器学习是一种【给定一组训练数据集,从其中学到经验、规律,然后通常是建立一个有许多参数的模型,并可以根据此模型去预测新的实例输入对应输出】的方法。

注意:不是所有的机器学习方法都需要建立模型。

0.1 监督学习

监督学习的训练数据集是由输入数据(通常是向量)和预期输出(或称为标签值)组成的。模型的输出可以是一个连续的值(此时为回归分析),或是预测一个分类标签(此时为分类)。

应用场景如手写识别(分类问题):
在这里插入图片描述

0.2 无监督学习

训练数据集由无标签值的训练数据组成,模型需要对输入数据进行聚类或分群。

无监督学习的主要运用包含:分类、关联规则、维度缩减。

应用场景如图片降噪:
在这里插入图片描述

0.3 半监督学习

顾名思义,半监督学习的训练数据集由两类数据组成:(1)少部分由输入数据(通常是向量)和预期输出(或称为标签值)组成的数据;(2)大部分由无标签值的训练数据组成。

0.4 强化学习

强化学习用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化实现特定目标的问题。

扫描二维码关注公众号,回复: 12798440 查看本文章

强化学习强调如何基于环境而行动,以取得最大化的预期利益。


《统计学习方法》——李航一书中的主要内容为监督学习中的分类问题

知识储备的需要

(1)数学分析/高等数学:积分、微分、函数极值等;

(2)线性代数/矩阵分析:矩阵运算、求导等;

(3)概率统计:常见分布、条件分布等;

(4)编程语言:能看懂简单的程序(赋值、运算、循环、条件)。


1 统计学习方法概论

1.1 监督学习的步骤

1、获得一个有限的训练数据集

2、确定模型的假设空间,即所有备选模型

3、确定模型选择的准则,即学习策路

4、实现求解最优模型的算法;

5、通过学习方法选择最优模型

6、利用学习的最优模型对新数据进行预测或分析

如下图,注意标号的对应:
在这里插入图片描述
训练集(Training Set):T = {(x1, y1), (x2, y2),…,(xN, yN)},共有N个训练数据对(或称为N个训练实例),其中输入变量xi一般为多维向量,yi为标签值。所有输入变量xi构成输入空间,所有标签值yi构成输出空间。除此之外还有个特征空间,一般与输入空间相同,若对输入空间进行了一定的处理则变为特征空间。如对输入数据x取(x, x2, x3),构成的三维空间即为特征空间。

两种模型(下面打错了,min应该是max):
在这里插入图片描述

1.2 统计学习三要素

(1)模型:①决策函数F由多个备选模型f组成,X为输入空间,Y为输出空间,θ为模型的参数,一个θ对应一个备选模型f;②条件概率分布F由多个条件概率P组成,其中Pθ(Y|X)为在给定输入空间X的条件下关于输出空间Y的条件概率分布。
在这里插入图片描述
示例:输入为x,输出为y,【假设空间】为一维线性空间,则Y = a0 + a1x。此时的θ = (a0, a1)T

(2)策略:即对多个备选模型如何评价,从而从中选择一个最优的模型。损失函数是针对每个实例的关于【真实值与预测值】的函数,也就是说每个实例数据均对应一个损失函数值。
在这里插入图片描述
对于整个训练数据集中的所有实例数据,共有N个损失函数值,如何综合评判从而选出最优模型呢?有两个准则,其中L(yi, f(xi))为第i个实例的损失函数值loss:
在这里插入图片描述
结构风险最小化是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项或罚项。在假设空间、损失函数以及训练数据集确定的情况下,结构风险的定义是:
在这里插入图片描述
其中J(f)为模型的复杂度,是定义在假设空间F上的泛函。模型f越复杂,复杂度J(f)就越大;反之亦可。即复杂度表示了【对复杂模型的惩罚】(因为模型越简单当然越好,越复杂当然惩罚越大)。λ≥0是系数,用以权衡经验风险和模型复杂度。【结构风险小】需要【经验风险与模型复杂度同时小】。结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测性能。

结构风险最小化的策略认为结构风险最小的模型是最优的模型。所以求最优模型,就是求解最优化问题:
在这里插入图片描述
这样,监督学习问题就变成了【经验风险或结构风险函数的最优化】问题。这时经验或结构风险函数是最优化的目标函数

(3)算法:指学习模型的具体计算方法。

1.3 模型评估

有两类误差:
在这里插入图片描述
模型应该不仅仅在训练数据集中的误差最小,更重要的是在测试数据集中的误差最小,相应地,这种模型的评估应该更高。

1.4 交叉验证

交叉验证的目的是【选择合适的模型】。

若给定样本数据充足,进行模型选择的一种简单方法是随机地将数据集切分成三部分:

(1)训练集(training set):用于训练模型;

(2)验证集(validation set):用于模型的选择——在学习到的不同复杂度的模型中,选择【对验证集有最小预测误差】的模型;

(3)测试集(test set):用于最终对学习方法的评估。

由于验证集有足够多的数据,用它对模型进行选择也是有效的。但在实际应用中数据一般是不充足的。因此为了选择好的模型,可以采用交叉验证方法。

交叉验证的基本想法是重复地使用数据——将给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复地进行训练、测试以及模型选择。

1.4.1 简单交叉验证

首先随机地将已给数据分为两部分,一部分作为训练集,另一部分作为测试集。如70%的数据为训练集,30%的数据为测试集。然后用训练集在各种条件下(如不同的参数个数)训练模型,从而得到不同的模型;在测试集上评价各个模型的测试误差,选出测试误差最小的模型。

1.4.2 S折交叉验证

首先随机地将已给数据切分为S个互不相交的大小相同的子集。

利用S-1个子集的数据训练模型,利用余下的一个子集测试模型。

将上述过程对可能的S种选择重复进行。最后选出S次评测中平均测试误差最小的模型。

1.4.3 留一交叉验证

S折交叉验证的特殊情形是S=N(N是给定数据集的容量),称为留一交叉验证,这往往在数据缺乏的情况下使用。

1.5 泛化能力

学习方法的泛化能力指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。现实中采用最多的办法是【通过测试误差来评价学习方法的泛化能力】,这种评价是依赖于测试数据集的。因为测试数据集是有限的,很有可能由此得到的评价结果是不可靠的。统计学习理论试图从理论上对学习方法的泛化能力进行分析

首先给出泛化误差的定义:如果学到的模型是f尖(你看看下面就知道是什么了,我打不出来),那么用这个模型对未知数据预测的误差即为泛化误差:
在这里插入图片描述
泛化误差反映了学习方法的泛化能力,如果A方法学习的模型比B方法学习的模型具有更小的泛化误差,那么A方法就更有效。事实上,泛化误差就是所学习到的模型的期望风险

学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的,这简称为泛化误差上界。具体来说,就是通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。泛化误差上界通常具有以下性质:它是样本容量N的函数,当样本容量N增加时,泛化上界趋于0;同时它又是假设空间容量即备选模型个数d的函数,假设空间容量d越大,模型就越难学,泛化误差上界就越大。

下面是泛化误差上界定理:
在这里插入图片描述
N为训练数据个数,d为假设空间的函数个数,δ为概率。上述不等式的含义是:【备选模型f的训练误差R(f)尖】+ ε = 【备选模型的泛化误差上限】。而泛化误差就是所学习到的模型的期望风险,一般通过测试误差来评价学习方法的泛化能力。

1.6 生成模型与判别模型

在这里插入图片描述
生成方法需要从数据中学习P(X,Y),即需要学习X与Y的联合概率分布,然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型。之所以称为“生成”方法,是因为模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有:朴素贝叶斯法和隐马尔可夫模型。

判别方法从数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。判别方法关心的是对给定的输入X,应该预测什么样的输出Y。典型的判别模型包括:k近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。

1.7 分类问题

在这里插入图片描述
下面是混淆矩阵:
在这里插入图片描述

1.7.1 准确率

准确率(Accuracy) 是所有的预测正确(正类负类)的占总的比例
在这里插入图片描述

1.7.2 精确率

精确率(precision,或者PPV,positive predictive value) ,查准率。即正确预测为正的占全部预测为正的比例
在这里插入图片描述

1.7.3 召回率

召回(recall,或者敏感度,sensitivity, 真阳性率,TPR,True Positive Rate),即正确预测为正的占全部实际为正的比例
在这里插入图片描述

1.7.4 F1

F1值(H-mean值 )为精确率P与召回率R的调和均值。F1越大代表模型越好。
在这里插入图片描述

1.8 标注问题

在标注问题中,输入输出均为向量且二者维度一致:
在这里插入图片描述
举个栗子:信息抽取——从英文文章中抽取基本名词短语。为此,要对文章进行标注。英文单词是一个观测,英文句子是一个观测序列,标记表示名词短语的“开始”、“结束”或“其他”(分别以B,E,O表示),标记序列表示英文句子中基本名词短语的所在位置。信息抽取时,将标记“开始”到标记“结束”的单词作为名词短语。例如,给出以下的观测序列,即英文句子,标注系统产生相应的标记序列,即给出句子中的基本名词短语:
在这里插入图片描述

1.9 回归问题

回归是监督学习的一个重要问题,用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别关心的是当输入变量的值发生变化时,输出变量的值随之发生的变化情况。

回归模型是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。

回归问题分为学习预测两个过程。首先给定一个训练数据集:
在这里插入图片描述
这里,x∈Rn是输入向量,y∈R是对应的输出标签,i=1,2,…,N。学习系统基于训练数据构建一个模型,即函数Y=f(X);对新的输入xN+1,预测系统根据学习的模型Y=f(X)确定相应的输出yN+1

回归问题按照输入变量的个数,分为一元回归和多元回归;按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归。

回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由最小二乘法求解。


END

猜你喜欢

转载自blog.csdn.net/qq_40061206/article/details/112258635