统计学习方法概论
1.1 统计学习
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,统计学习也称为统计机器学习。
如果一个系统能够通过执行某个过程改进它的性能,这就是学习
- 统计学习的对象
统计学习的对象是数据。它从数据出发,提取数据特征,抽象出数据的模型,发现数据中的知识,又回到数据的分析与预测中去。 - 统计学习的目的
用于对数据进行预测与分析,特别是对未知新数据进行预测与分析。考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。 - 统计学习的方法
基于数据构建统计模型从而对数据进行预测与分析。统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。 - 统计学习的研究
统计学习方法、统计学习理论及统计学习应用三个方面, - 统计学习的重要性
1.2 监督学习
统计学习包括监督学习、非监督学习及强化学习,重点讨论监督学习
1.2.1 基本概念
- 输入空间、特征空间与输出空间
在监督学习中,将输入与输出所有可能取值的集合分别称为输入控件与输出空间。
每个具体的输入是一个实例,通常由特征向量表示。 - 联合概率分布
监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y). P(X,Y)表示分布函数,或分布密度函数。 - 假设空间
监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。
1.2.2 问题形式化
监督学习利用训练数据学习一个模型,再用模型对测试样本集进行预测。由于在这个过程中需要训练数据集,而训练数据集往往是人工给出的,所以称为监督学习, 监督学习分为学习和预测两个过程
1.3 统计学习三要素
方法 = 模型 + 策略 + 算法
1.3.1 模型
在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。
1.3.2 策略
统计学习的目标在于从假设空间中选取最优的模型
- 损失函数和风险函数
预测值和真实值不一样,得用一个损失函数或代价函数来度量预测错误的程度。
损失数值越小,模型就越好。由于模型的输入、输出是随机变量,遵循联合分布P(X,Y)。学习的目标就是选择期望风险最小的模型。 - 经验风险最小化和结构风险最小化
1.3.3 算法
算法是指学习模型的具体计算方法,统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后考虑用什么样的计算方法求解最优模型。
1.4 模型评估与模型选择
1.4.1 训练误差与测试误差
统计学习的目的是使学到的模型不仅对已知数据而且对未知数据都能有很好的预测能力,不同的学习方法会给出不同的模型。
训练误差和测试误差就自然称为学习方法评估的标准。
1.4.2 过拟合与模型选择
当假设空间含有不同复杂度模型时,就要面临模型选择的问题。我们希望选择或学习一个合适的模型。
如果一味地追求训练数据的预测能力,所选的模型的复杂度则往往会比真模型更高,这就是过拟合,对于已知的数据预测好,但是对于未知的数据预测的很差。
1.5 正则化与交叉验证
1.5.1 正则化
模型选择的典型方法就是正则化,正则化使结构风险最小化策略的实现,是经验风险上加一个正则化项或罚项。
1.5.2 交叉验证
如果样本数据给的足够充足,进行模型选择的一种简单方法是随机地将数据集切成三部分,分为训练集、验证集和测试集。
- 简单交叉验证
- S折交叉验证
- 留一交叉验证
1.6 泛化能力
由该方法学习到的模型对未知数据的预测能力,使学习方法本质上重要的性质。
1.6.1 泛化误差
1.6.2 泛化误差上界
通过研究泛化误差的概率上界进行的,具有以下性质
- 它是样本容量的函数,当样本空间容量增加时,泛化误差上界区域0
- 它是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。
1.7 生成模型与判别模型
监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出。
监督学习方法可以分为生成方法和判别方法。所学的模型分别称为生成模型和判别模型
1.8 分类问题
在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题,这是输入变量X可以为离散也可以是连续的。
分类问题包括学习和分类两个过程
1.9 标注问题
标注时分类的一个推广,标注问题又是更复杂的结构预测问题的简单形式。
1.10 回归问题
回归用于预测输入变量和输出变量之间的关系