统计学习一：1.概论

全文引用自《统计学习方法》（李航）

1.特点

统计学习(statistical learning) 是一门基于计算机平台的，利用数据构建概率统计模型并使用模型对数据进行分析和预测的学科，因此又称为统计机器学习。

统计学习的主要特点：

以计算机及网络为平台
以数据为研究对象
以对数据进行预测和分析为研究目的
是概率论、统计学、信息论、计算理论、最优化理论以及计算机科学等多个领域的交叉学科

数据(data)

数据是统计学习的对象。统计学习方法从数据中提取特征，抽象出模型，以从数据中发现知识，发现规律，并将其应用到对数据的预测和分析中。
数据的形态是多样的，可以是计算机及网络中任何类型的信息，如数字、文字、图像、视频、音频及它们的组合等等。

方法

统计学习方法可分为：

监督学习(supervised learning)
非监督学习(unsupervised learning)
半监督学习(semi-supervised learning)
强化学习(reinforcement learning)
...

统计学习方法具体的实现步骤为：

得到一个有限的训练数据集
确定包含所有可能的模型的假设空间，即所有可能满足条件的学习模型的集合
确定模型选择的标准，即学习的策略
实现求解最优模型的算法，即学习的算法
通过学习方法选择最优模型
利用学习的最优模型对新数据进行预测和分析

因此可以看出，统计学习方法中，最重要的三个因素就是模型、策略、算法。

2.监督学习

监督学习的任务是学习一个模型，使之能够对任意给定的输入，对其相应的输出做出一个好的预测。

基本概念

输入空间、特征空间、输出空间

在监督学习中，将输入和输出中所有可能的取值分别称为输入空间(input space)和输出空间(output space)。输入空间即可看为对于要分析的数据的所有的可能输入，输出空间即可堪为对于要分析的数据的所有可能分析结果。通常输出空间远小于输入空间。
特征空间(feature space)通常由特征向量(feature vector)来表示，每一个特征向量代表了每个具体的输入。可以理解为，对于模型来说，输入空间的数据并不一定适合模型处理，需要从每个具体输入中提取模型所需要的特征值，再将特征值组成的特征向量作为模型的输入。因此，输入空间中所有的输入映射成特征向量后，便成为特征空间。有时，输入可以直接应用在模型中，此时输入空间便可看作特征空间。
在监督学习中，通常将输入变量写作X,输出变量写作Y。将输入变量的值写作x，输出变量的值写作y。变量可以是标量或是向量。通常向量为列向量，输入实例x的特征向量记为：
\[x=(x^{1},x^{2},...,x^{i},...,x^{n})^T\]
\(x^{(i)}\)表示\(x\)的第\(i\)个特征，通常用\(x_i\)表示多个输入变量中的某一个，与\(x^{(i)}\)不同，即：
\[x_i=(x_i^{1},x_i^{2},...,x_i^{i},...,x_i^{n})^T\]
监督学习从训练数据集合中学习模型，对测试数据进行预测，以测试模型的准确性。训练数据以输入（或特征向量）与输出对组成，通常表示为：
\[T=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}\]
输入变量X和输出变量Y的类型可以是离散的，也可以是连续的，并没有特殊要求。根据输入和输出变量的类型，预测任务可以分为：

回归问题：输入变量与输出变量均为连续变量
分类问题：输出变量为有限个离散变量的，即分类结果离散可分
标注问题：输入变量与输出变量均为变量序列，即输入与输出均为一个序列，非单个值

联合概率分布

统计学习假设给定的数据存在一定的统计规律，寻找到这种规律就是统计学习的学习目标。而在监督学习中，这种假设就具体为：假设输入与输出的随机变量X和Y遵循联合概率分布\(P(X,Y)\)，\(P(X,Y)\)表示分布函数，或是分布密度函数。
监督学习假设这一分布函数的存在，但并不知道是如何具体定义的。而训练数据与测试数据可以看作是遵循\(P(X,Y)\)的独立同分布产生的数据。

假设空间

监督学习的目的在于找到输入空间与输出空间的某种映射关系，并用模型来进行表示。输入与输出关系的映射并非只有一种，而所有的映射集合起来，便称为假设空间。即，监督学习在假设数据与输出遵循的联合概率分布时，所有的假设可能便称为假设空间，假设空间中的元素一般有无穷多个。
监督学习可以是概率模型或者非概率模型，由条件概率分布\(P(Y|X)\)或决策函数\(Y=f(X)\)表示。

3.统计学习的三要素

统计学习方法是由模型、策略、算法构成的，即统计学习方法的三要素。下面讨论监督学习中的三要素，这在其他的统计学习方法中也有。
可以说，构建一种统计学习方法的过程，就是确定这三个具体的要素的过程。

模型

在监督学习中，模型就是假设空间中所要学习的条件概率分布或决策函数。如，假设决策函数时输入变量的线性函数，那么模型的假设空间就是所有的这些线性函数构成的函数集合。
假设空间用F表示，假设空间可以定义为决策函数的集合：
\[F=\{f|Y=f_\theta(X),\theta\in{R^n}\}\]
F通常是由参数向量\(\theta\)决定的函数族，参数向量\(\theta\)取值于n维欧氏空间\(R^n\),称为参数空间。
假设空间也可以定义为条件概率的集合：
\[F=\{P|P_\theta(Y|X),\theta\in{R^n}\}\]
通过以上可以看出，模型的定义就是对假设空间的定义。通过确定假设空间的形式时，即为确定采用何种模型，如采用决策函数表示的非概率模型，以及用条件概率表示的概率模型。

策略

策略就是在统计学习中，选择什么准则来判断或选择最优模型。统计学习的目标就是如何从假设空间中选取最优模型，而策略就是给选取制定标准。

损失函数与风险函数

在对模型进行选择时，对于一个给定的模型\(f\),对于输入X,其输出\(f(X)\)与真实值Y之间可能相同也可能不相同。因此，利用损失函数(loss function)或代价函数(cost function)来度量预测错误的程度。常用的损失函数有：

0-1损失函数：
\[L(Y,f(X))= \begin{cases} 1, Y\neq{f(X)}\\ 0, Y=f(X)\\ \end{cases} \]
平方损失
\[L(Y,f(X))=(Y-f(X))^2\]
绝对损失函数
\[ L(Y, f(X))=|Y-f(X)| \]
对数损失函数或对数似然损失函数
\[ L(Y, f(X))=-\log{P(Y|X)} \]

损失函数越小，则说明模型的预测结果与实际值相差越小，即模型就越好。损失函数的期望是：
\[ R_{exp}(f)=E_P[L(Y,f(X))]=\int_{x\times y}{L(y,f(x))P(x,y)dxdy} \]
这是理论上模型\(f(X)\)关于联合分布\(P(X,Y)\)的平均意义下的损失，称为风险函数或期望损失。
由于学习的目标是选择期望损失风险最小的模型，因此需要用到联合分布进行计算，但统计学习模型中联合分布的模型通常是未知的，因此监督学习就成为一个自相矛盾的病态问题。
给定一个训练数据集
\[T=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}\]
模型\(f(X)\)关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss),记作：
\[ R_{emp}(f)=\frac{1}{N}\sum_{i=1}^N{L(y_i,f(x_i))} \]
期望风险\(R_{exp}(f)\)是模型关于联合分布的期望损失，经验风险\(R_{emp}(f)\)是模型关于训练样本的平均损失。而根据大数定律，当样本容量N趋于无穷是，经验风险趋于期望风险，因此，就可以使用经验风险来估计期望风险。

经验风险最小化与结构风险最小化

虽然根据大数定律，可以使用经验风险估计期望风险，但现实中的训练样本数目通常有限，有时甚至很小。因此，在监督学习中，就需要用到两个基本策略：经验风险最小化及结构风险最小化。
经验风险最小化(empirical risk minimization, ERM) 认为，经验风险最小的模型就是最优模型，因此，求解最优模型，就是求解最优话问题：
\[ \min_{f\in{F}}{\frac{1}{N}}{\sum_{i=1}^N{L(y_i,f(x_i))}} \]
其中F是假设空间。
当样本容量足够大时，经验风险最小化能够保证很好的学习效果，如采用极大似然估计就是经验风险最小化的例子。当模型是条件概率分布，且损失函数时对数损失函数时，经验风险最小化就等价于极大似然估计。
但当样本容量很小时，经验风险最小化就容易产生过拟合现象。
结构风险最小化(structural risk minimization, SRM) 是为了防止过拟合而提出的策略，其等价于正则化。结构风险的定义为：
\[ R_{emp}(f)=\frac{1}{N}\sum_{i=1}^N{L(y_i,f(x_i))} + \lambda J(f) \]
其中\(J(f)\)为模型的复杂度，是定义在假设空间F上的泛函。模型\(f\)越复杂，复杂度\(J(f)\)越高，即复杂度代表了对复杂模型的惩罚。\(\lambda \geq0\)是系数，用以权衡经验风险与模型复杂度。
结构风险小意味着模型的经验风险与复杂度都小，这往往意味着对训练数据和测试数据都有较好的预测。
结构风险最小化认为结构风险最小的模型就是最优的模型。
\[ \min_{f\in{F}}{\frac{1}{N}}{\sum_{i=1}^N{L(y_i,f(x_i))} + \lambda J(f)} \]
贝叶斯估计中的最大后验概率估计就是结构风险最小化的例子。当模型是条件概率分布、损失函数时对数损失函数、模型复杂度由模型的先验概率表示时，结构风险最小化就是最大后验概率估计。
因此，监督学习问题就变为经验风险或结构风险函数的最优化问题，此时，经验或结构风险函数就是最优化的目标函数。

算法

当统计学习问题归结为最优化问题时，统计学习的算法就是求解最优化问题的算法。通常最优化的目标函数并没有显式的解析解，因此需要用数值计算的方法求解。如何寻找到能够保证全局最优解，并且求解过程高效的算法，就是一个关键问题。

综上，统计学习方法之间的不同，主要就是来自于其模型、策略和算法的不同。确定了这三点，具体的统计学习方法也就确定了，因此这三者称为统计学习的三要素。