《统计学习方法》笔记

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/SHERO_M/article/details/81706767

第一章 统计学习方法概论

1、统计学习

学习:一个系统能够通过执行某个过程改进它的性能。

统计学习:计算机系统通过运用数据集统计方法提高系统性能的机器学习。

统计学习的目的:对数据的预测和分析是通过构建概率统计模型实现的。

统计学习的方法:基于数据构建统计模型从而对数据进行预测与分析。

统计学习方法三要素:模型的假设空间、模型选择的准则和模型学习的算法,即模型、策略和算法。

  1. 模型:所要学习的条件概率分布或决策函数。
  2. 策略:在假设空间中选取最优模型。损失函数:度量模型一次预测的好坏。风险函数/期望损失:度量平均意义下模型预测的好坏。期望风险:模型关于联合分布的期望损失。经验风险:模型关于训练样本集的平均损失。结构风险:在经验风险上加上表示模型复杂度的正则化项,为了防止过拟合。
  3. 算法:求解最优模型的算法。

极大似然估计就是经验风险最小化的一个例子,当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。

贝叶斯估计中的最大后验概率估计就是结构化风险最小化的一个例子,当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化等价于最大后验概率估计。

泛化能力:学习方法对未知数据的预测能力。

泛化误差:所学习到的模型的期望风险。训练误差小的模型,其泛化误差也会小。

过拟合:选择的模型复杂度过大导致。

2、监督学习

统计学习假设数据存在一定的统计规律,监督学习关于数据的基本假设就是X和Y具有联合概率分布。

从给定有限的训练数据出发,假设数据是独立同分布的,而且假设模型属于某个假设空间,应用某一评价准则,从假设空间中选取一个最优的模型,使它对已给训练数据及未知测试数据在给定评价标准意义下有最准确的预测。

3、模型选择的方法:正则化与交叉验证

正则化:模型选择的典型方法,是结构风险最小化策略的实现。模型越复杂,正则化值就越大。

正则化的作用:选择经验风险与模型复杂度同时较小的模型。

从贝叶斯估计的角度看,正则化项对应于模型的先验概率,可以假设复杂的模型有较小的先验概率,简单的模型具有较大的先验概率。

交叉验证:简单交叉验证、S折交叉验证、留一交叉验证。

4、监督学习方法:生成模型与判别模型

生成方法:由数据学习联合概率分布,然后求出条件概率分布作为预测的模型即生成模型。

典型的生成模型有:朴素贝叶斯法、隐马尔科夫模型。

判别方法:有数据直接学习决策函数或条件概率分布作为预测的模型即判别模型。

典型的判别模型:K近邻法、感知机、决策树、逻辑回归模型、最大熵模型、、支持向量机、提升方法和条件随机场等。

生成方法的特点:可以还原出联合概率分布,而判别方法则不能;学习收敛速度更快;当存在隐变量时,仍可用生成方法学习,此时判别方法就不能用。

判别方法的特点:直接学习的是条件概率分布或决策函数,直接面对预测,往往学习的准确率更高;可以对数据进行各种程度上的抽象,定义特征并使用特征,因此可以简化学习。

5、分类问题、标注问题、回归问题

分类问题:输出变量为有限个离散变量的预测问题。

标注问题:输入变量和输出变量均为变量序列的预测问题。常用的统计学习方法:隐马尔科夫模型、条件随机场。

回归问题:输入变量和输出变量均为连续变量的预测问题。表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合。最常用的损失函数是平方损失函数,这样可以由最小二乘法求解。

第二章 感知机        

感知机是二分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1。

感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。(一次随机选取一个误分类点使其梯度下降)

感知机学习算法存在许多解,这些解依赖于初值的选择,也依赖于迭代过程中误分类点的选择顺序。

当训练数据集线性可分时,感知机学习算法是收敛的。误分类的次数K是有上界的。

第三章 k近邻法

k近邻法是基本且简单的分类与回归方法。基本做法是:对给定的训练实例点和输入实例点,首先确定输入实例点的k个最近邻训练实例点, 然后利用这k个训练实例点的类的多数来预测输入实例点的类。

k近邻法不具有显示的学习过程。实际上利用训练数据集对特征向量空间进行划分,并作为其分类的“模型”。

三个基本要素是:k值的选择、距离度量及分类决策规则。

如果选择较小的k值,就相当于用较小的邻域中的训练实例进行预测,“学习”的近似误差会减小,只有与输入实例较近的训练实例才会对预测起作用。缺点是“学习”的估计误差会增大,预测结果会对近邻的实例点非常敏感。如果近邻的实例点恰巧是噪声,预测就会出错。k值得减小意味着整体模型变得复杂,容易发生过拟合。

如果选择较大的k值,就相当于用较大的邻域中的训练实例进行预测,其优点是可以减少学习的估计误差。缺点是学习的近似误差会增大。这时与输入实例较远的训练实例也会对预测起作用,使预测发生错误。k值得增大意味着整体的模型变得简单。

k值的选择反映了对近似误差和估计误差之间的权衡。在应用中,k值一般取一个较小的整值,通常采用交叉验证法来选取最优的k值。

分类决策规则往往是多数表决,等价于经验风险最小化。

k近邻法的实现需要考虑如何快速搜索k个最近邻点。kd树是一种便于在k维空间中进行快速检索的数据结构。kd树是二叉树,表示对k维空间的一个划分。利用kd树可以省去对大部分数据点的搜索,从而减少搜索的计算量。

kd树更适用于训练实例数远大于空间维数时的k近邻搜索,当空间维数接近于训练实例数时,它的效率会迅速下降,几乎接近于线性扫描。

第四章 朴素贝叶斯法

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。实现简单,学习与预测的效率都很高。但是分类的性能不一定很高。

概率估计方法可以是极大似然估计或贝叶斯估计。

后验概率最大化等价于0-1损失函数时的期望风险最小化。

第五章 决策树

决策树是一种基本的分类与回归方法。分类决策树模型是表示基于特征对实例进行分类的树形结构。可以转换成一个if-then规则的集合,也可以看作是定义在特征空间划分上的类的条件概率分布。 

决策树学习的损失函数通常是正则化的极大似然函数。

现实中采用启发式学习次优的决策树。

决策树学习算法包括3部分:特征选择、树的生成和树的剪枝。

特征选择的目的在于选取对训练数据能够分类的特征,关键是其准则。常用的准则有样本集合D对特征A的信息增益(ID3)、信息增益比(C4.5)、基尼指数(CART)。

决策树的生成,通常使用信息增益最大、信息增益比最大或基尼指数最小作为特征选择的准则。从根结点开始,递归的产生决策树,这相当于用信息增益或其他准则不断地选取局部最优的特征,或将训练集分割为能够基本正确分类的子集。

由于生成的决策树存在过拟合问题,需要对决策树进行剪枝。通过极小化决策树整体的损失函数或代价函数来实现。

利用损失函数最小原则进行剪枝就是用正则化的极大似然估计进行模型选择。

决策树的生成对应于模型的局部选择,剪枝对应于模型的全局选择。

CART:对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则,进行特征选择,生成二叉树。基尼指数值越大,样本集合的不确定性也就越大,这一点和熵相似。

第十一章 条件随机场

概率无向图模型是由无向图表示的联合概率分布,也成为马尔可夫随机场。可以分解为无向图最大团上的正值函数的乘积的形式。

条件随机场的最大特点是假设输出变量之间的联合概率分布构成概率无向图模型,即马尔可夫随机场。条件随机场是判别模型。

线性链条件随机场一般表示为给定观测序列条件下的标记序列的条件概率分布,由参数化的对数线性模型表示。模型包含特征及相应的权值,特征是定义在线性链的边与结点上的。

线性链条件随机场的概率计算通常利用前向-后向算法。

条件随机场的学习方法通常是极大似然估计方法或正则化的极大似然估计,具体的算法有改进的迭代尺度算法、梯度下降法、拟牛顿法等。

线性链条件随机场的一个重要应用是标注。维特比算法是给定观测序列求条件概率最大的标记序列的方法。

第十二章 统计学习方法总结

1、适用问题

监督学习包括分类、标注、回归。

分类方法:(1)简单的:感知机、k近邻法、朴素贝叶斯法、决策树

(2)复杂但更有效的:逻辑斯蒂回归与最大熵模型、支持向量机、提升方法

标注方法:隐马尔可夫模型、条件随机场(标注准确率更高)

EM算法是含有隐变量的概率模型的一般学习算法,可以用于生成模型的非监督学习。

2、模型

概率模型(条件概率分布):朴素贝叶斯法、隐马尔可夫模型

非概率模型(决策函数):感知机、k近邻法、支持向量机、提升方法

(非)概率模型:决策树、逻辑斯蒂回归与最大熵模型、条件随机场

判别方法:直接学习条件概率分布或决策函数的方法。

感知机、k近邻法、支持向量机、提升方法、决策树、逻辑斯蒂回归与最大熵模型、条件随机场。

生成方法:首先学习联合概率分布,从而求得条件概率分布的方法。

朴素贝叶斯法、隐马尔可夫模型。

可以用非监督学习的方法学习生成模型。具体地,应用EM算法可以学习朴素贝叶斯模型和隐马尔可夫模型。

决策树是定义在一般的特征空间上的,可以含有连续变量或离散变量。感知机、支持向量机、k近邻法的特征空间是欧式空间。

感知机模型是线性模型,而逻辑斯蒂回归与最大熵模型、条件随机场是对数线性模型。K近邻法、决策树、支持向量机(包含核函数)、提升方法使用的是非线性模型。

3、学习策略

在二类分类的监督学习中,支持向量机、逻辑斯蒂回归与最大熵模型、提升方法各自使用合页损失函数、逻辑斯蒂损失函数、指数函数,这三种损失函数都是0-1损失函数的上界,具有相似的形状。

支持向量机用L2范数表示模型的复杂度,原始的逻辑斯蒂回归与最大熵模型没有正则化项,可以给他们加上逻辑斯蒂回归与最大熵模型正则化项,提升方法没有显式的正则化项,通常通过早停止的方法达到正则化的效果。

以上二分类问题的学习方法可以扩展到多类分类学习和标注问题,比如标注问题的条件随机场可以看作是分类问题的最大熵模型的推广;概率模型的学习可以形式化为极大似然估计或贝叶斯估计的极大后验概率估计,学习的策略是极小化对数似然损失或极小化正则化的对数似然损失;逻辑斯蒂回归与最大熵模型、条件随机场的学习策略可以看作是极大似然估计(或正则化的极大似然估计),又可以看作是极小化逻辑斯蒂损失(或正则化的逻辑斯蒂损失);朴素贝叶斯模型和隐马尔可夫模型的非监督学习也是极大似然估计或极大后验概率估计,但这时模型含有隐变量。

4、学习算法

在多数情况下,最优化没有解析解,需要用数值计算的方法或启发式的方法求解。

朴素贝叶斯法和隐马尔可夫模型的监督学习,最优解即极大似然估计值,可以由概率计算公式直接计算。

感知机、逻辑斯蒂回归与最大熵模型、条件随机场的学习利用梯度下降法、拟牛顿法等,这些都是一般的无约束最优化问题的解法。

支持向量机学习,可以解凸二次规划的对偶问题,有序列最小最优化算法等方法。

决策树学习是基于启发式算法的典型例子,可以认为特征选择、生成、剪枝是启发式地进行正则化的极大似然估计。

提升方法利用学习的模型是加法模型、损失函数是指数损失函数的特点,启发式地从前向后逐步学习模型,以达到逼近优化目标函数的目的。

EM算法是一种迭代的求解含隐变量概率模型参数的方法,它的收敛性可以保证,但是不能保证收敛到全局最优解。

支持向量机学习、逻辑斯蒂回归与最大熵模型学习、条件随机场学习是凸优化问题,全局最优解保证存在,而其他学习问题则不是凸优化问题。

 

猜你喜欢

转载自blog.csdn.net/SHERO_M/article/details/81706767
今日推荐