统计学习方法---第一章统计学习方法概论

统计学习的三要素：

（1）模型：所要学习的条件概率分布或决策函数。

（2）策略：按照什么样的准则学习或选择最优的模型。

（3）算法：学习模型的具体计算方法。

方法 = 模型 + 策略 + 算法

统计学习包括：

监督学习，半监督学习，非监督学习，强化学习

监督学习的方法与应用：

分类问题，标注问题，回归问题

模型的选择方法：

正则化，交叉验证，学习的泛化能力

统计学习的目的：对数据进行预测与分析。

目标：从假设空间中选取最优模型。

对象：数据

回归问题：

输入变量与输出变量均为连续变量的预测问题。

分类问题：

输出变量为有限个离散变量的预测问题。

标注问题：

输入变量与输出变量均为变量序列的预测问题。

联合概率分布：

两个及以上随机变量组成的随机变量的概率分布。表示为：P（X,Y）

条件概率分布：

就是由条件的联合概率分布。描述输入与输出随机变量之间的映射关系。

假设空间：

模型属于由输入空间到输出空间的映射的集合，这个集合就是假设空间。

监督学习：

利用训练数据集学习一个模型，再用模型对测试样本集进行预测。

分为两个部分：训练和预测。

风险函数：

度量平均意义下模型预测的好坏。

损失函数：

度量模型一次预测的好坏。记作：L(Y,f(x)).损失函数值越小，模型就越好。

损失函数的期望：

$R_{exp}(f)=E_{p}[L(Y,f(X))]=\int _{x*y}L(y,f(x))P(x,y)dxdy$

期望风险R（exp）是模型关于联合分布的期望损失。

经验风险或经验损失：模型关于训练数据集的平均损失。记作R（emp）：

当样本容量N趋于无穷时，经验风险趋于期望风险。

经验风险最小化（ERM）

当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。

结构风险最小化（SRM）：为了防止过拟合而提出来的策略。

结构风险最小化等价于正则化。

结构风险最小化就等价于最大后验概率估计。

过拟合：

所选模型的复杂度往往会比真模型更高。

这一现象对已知数据预测的很好，但对未知数据预测的很差的现象。

正则化：

一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。

一般形式：

第一项是经验风险，第二项是正则化。

正则化项可以是参数向量的L2范数：

L1范数：

交叉验证：

训练集：训练模型。

验证集：模型的选择。

测试集：最终对学习方法的评估。

基本想法：重复地使用数据。

1.简单的交叉验证

随机地将已给数据分为两部分。

2.S折交叉验证

随机地将已给数据分为S个互不相交的大小想同的子集；

然后利用 S-1 个子集的数据训练模型，利用余下的子集测试模型。

3.留一交叉验证

S折交叉验证的特殊情形是 S = N。

泛化能力：

通过测试误差来评价学习方法的泛化能力。

泛化误差就是所学习得到的模型的期望风险

泛化误差：

泛化误差上界：

欧式空间：

输出空间远远小于输入空间。

统计学习方法---第一章统计学习方法概论

猜你喜欢