统计学习

特点
统计学习（statistical learning）是关于计算机基于数据构建概率统计模型，并且运用模型对数据进行预测和分析的一门学科。也被称为统计机器学习。
对象
对象是数据，提取数据的特征，抽象出数据的模型，发现规律后对数据进行分析与预测。它关于数据的基本假设是同类数据具有一定的统计规律性。比如可以用随机变量描述数据中的特征，用概率分布描述数据的统计规律。
目的
用于对数据进行预测与分析。
方法
统计学习由监督学习、无监督学习、半监督学习和强化学习等组成。实现统计学习的方法步骤如下：
1. 得到一个有限的训练数据集合
2. 确定包含所有可能的模型的假设空间，即学习模型的集合
3. 确定模型选择的准则，即学习的策略
4. 实现求解最优模型的算法，即学习的算法
5. 通过学习方法选择最优模型
6. 利用学习的最优模型对新数据进行预测或分析

监督学习

监督学习的任务是学习一个模型，使得模型能够对任意给定的输入，对其相应的输出做一个好的预测。

基本概念

输入空间、特征空间与输出空间
监督学习中将输入与输出所有可能取值的集合分别称为输入空间和输出空间
每个具体的输入是一个实例，通常由特征向量表示，所有的特征向量存在的空间为特征空间。有时假设输入空间与输出空间为相同的空间，有时假设两者为不同的空间，将实例从输入空间映射到输出空间。模型实际上都是定义在特征空间上面的。输入变量与输出变量均为连续变量的预测问题称为回归问题；输出变量为有限个离散变量的预测问题称为分类问题；输入变量与输出变量均为变量序列的预测问题称为标注问题。
联合概率分布
监督学习假设输入输出随机变量X和Y遵循联合概率分布P(X,Y)，P(X,Y)表示分布函数或分布密度函数。训练数据和测试数据被看做是依联合概率分布P(X,Y)独立同分布产生的。统计学习假设数据存在一定的统计规律，X与Y具有联合概率分布的假设就是监督学习关于数据的基本假设。
假设空间
监督学习的目的在于学习一个由输入到输出的映射，这一映射由模型来表示。学习的目的在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合，这个集合就是假设空间（hypothesis space）。假设空间的确定意味着学习范围的确定。监督学习的模型可以是概率模型或非概率模型，由条件概率分布P(Y|X)或决策函数Y=f(X)表示。

统计学习三要素

构建一张统计学习方法就是确定具体的统计学习的三要素：
学习方法 = 模型+策略+算法

模型

模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。例如假设决策函数是输入变量的线性函数，那么模型的假设空间就是所有这些线性函数构成的函数集合。假设空间中的模型一般有无穷多个。

假设空间用F表示，假设空间可以定义为决策函数的集合： $F={f|Y=f(X))}$ ，也可以定义为条件概率的集合： $f={P|P(Y|X)}$

策略

有了模型的假设空间，统计学习需要考虑如何学习或者选择最优的模型。引入了损失函数和风险函数。损失函数度量一次预测的好坏，风险函数度量平均意义下模型预测的好坏。损失函数是f(x)和Y的非负实值函数，记作 $L(Y,f(X))$

损失函数和风险函数

常用的损失函数如下所示：
- 0-1损失函数:

扫描二维码关注公众号，回复： 2213606 查看本文章

L (Y, f (X)) = {\begin{aligned} 1 ， Y \neq f (x) \\ 0 ， Y = f (x) \end{aligned}

$L(Y,f(X))=\left\{ \begin{aligned} 1， Y\ne f(x) \\ 0， Y = f(x) \\ \end{aligned} \right.$

平方损失函数：

$L (Y, f (X)) = (Y - f (X))^{2}$ $L(Y,f(X))=(Y-f(X))^{2}$
绝对损失函数：

$L (Y, f (X)) = | Y - f (X) |$ $L(Y,f(X)) = |Y - f(X)|$
对数损失函数（对数似然损失函数）：

$L (Y, P (Y | X)) = - l o g P (Y | X)$ $L(Y,P(Y|X))=-logP(Y|X)$

由于模型遵循联合分布P(X,Y),所以损失函数的期望如下，这是理论上模型f(X)关于联合分布P(X,Y)平均意义下的损失，称为风险函数或期望损失，记作 $R_{ep}$ :

R_{e x p} (f) = E_{p} [L (Y, f (X))] = \int_{x \times y} L (y, f (x)) P (x, y) d x d y

$R_{exp}(f) =E_{p}[L(Y,f(X))]=\int_{x\times y}L(y,f(x))P(x,y)dxdy$

模型f(X)关于训练数据集的平均损失称为经验风险或经验损失，记作 $R_{emp}$ :

R_{e m p} (f) = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i}))

$R_{emp}(f) = \frac{1}{N}\sum_{i=1}^{N}{L(y_{i},f(x_{i}))}$

学习目标就是选择期望风险最小的模型，由于联合分布P(X,Y)是未知的， $R_{exp}(f)$ 不能直接计算，事实上，若知道联合分布P(X,Y)，可以从联合分布直接求出条件概率分布P(Y|X)，也就不需要学习了。根据大数定律，当N趋于无穷时，两者趋于相同，但现实中数据不会无穷大，这时需要对经验风险进行校正，使用监督学习中的两种基本策略：经验风险最小化和结构风险最小化。

经验风险最小化和结构风险最小化

经验风险最小化就是求解最优化问题，最优模型为经验风险最小的模型：

\underset{f \in F}{m i n} \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i}))

$\underset{f\in F}{min} \frac{1}{N}\sum_{i=1}^{N}{L(y_{i},f(x_{i}))}$

但是当样本容量很小时容易产生过拟合，这时就需要使用结构风险最小化，等价于正则化，在经验风险上加上表示模型复杂度的正则化项或惩罚项。结构风险的定义如下：

R_{s r m} (f) = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i})) + λ J (f)

$R_{srm}(f)= \frac{1}{N}\sum_{i=1}^{N}{L(y_{i},f(x_{i}))} + \lambda J(f)$
求解最优化就是求解结构风险最小的模型。

算法

算法是指学习模型的具体计算方法，使用何种计算方法求解最优模型。如何保证找到全局最优解，并使求解的过程高效。统计学习可以使用已有的最优化方法，如梯度下降之类的，有时也需要使用独自的最优化算法。

模型评估与模型选择

训练误差与测试误差

训练误差是指模型关于训练集的平均损失，测试误差是指模型关于测试集的平均损失。当损失函数为0-1损失的时候，测试误差就变成了常见的测试数据集上面的误差率。常见的测试数据集上面的准确率为：

r_{t e s t} = \frac{1}{N^{^{'}}} \sum_{i = 1}^{N^{^{'}}} I (y_{i} = \overset{\land}{f} (x_{i})))

$r_{test} = \frac{1}{N^{'}}\sum_{i=1}^{N^{'}}{I(y_{i}=\overset{\wedge}{f}(x_{i})))}$

过拟合与模型选择

模型复杂度与预测误差的关系图如下所示，模型复杂度越高越容易导致在测试集过拟合的问题。(pixeImator画图真心好用)
这里写图片描述

正则化与交叉验证

下面介绍两种常用的模型选择方法：正则化和交叉验证

正则化

正则化是结构风险最小化策略的实现，一般具有如下形式：

\underset{f \in F}{m i n} \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i})) + λ J (f)

$\underset{f\in F}{min} \frac{1}{N}\sum_{i=1}^{N}{L(y_{i},f(x_{i}))} + \lambda J(f)$
其中第一项是经验风险，第二项是正则化项。正则化项可以取不同的形式，如回归问题中，损失函数是平方损失，可以是参数向量的

L_{2}

$L_{2}$ 范数，也可以是

L_{1}

$L_{1}$ 范数。

正则化的作用是选择经验风险与模型复杂度同时较小的模型。正则化符合奥卡姆剃刀原理，它应用在模型选择时变为以下想法：在所有可能选择的模型中，能够很好的解释已知数据并且十分简单才是最好的模型。

交叉验证

交叉验证是另一种常用的模型选择方法，将数据分为训练集，验证集，测试集，训练集用来训练模型，验证集用于模型的选择，测试集用于对学习方法的评估。在学习到的不同的复杂模型中，选择对验证集有最小预测误差的模型。交叉验证的基本思想是重复使用数据：把给定的数据进行划分，对划分的数据反复进行训练、测试以及模型选择。
- 简单交叉验证
将数据随机分为两个部分，（70%训练集，30%测试集），然后用训练集在各种条件下（不同参数个数）训练模型，从而得到不同的模型，在测试集上面评价各个模型的测试误差，选出测试误差的最小的模型。

S折交叉验证
这个应用最多(S-fold cross validation)，首先随机划分为S个互不相交的大小相同的子集，然后用S-1个子集的数据训练模型，余下的子集测试模型，反复重新进行S种组合，最后选出S次评测中平均测试误差最小的模型。
留一交叉验证
当S折交叉验证中S=N时称为留一交叉验证,N为给定数据集的容量。

泛化能力

泛化误差

泛化能力（generalization ability）是指由该方法学习到的模型对未知数据的预测能力。
泛化误差（generalization error）的定义如下：如果学习到的模型时 $\overset{\wedge}{f}$ ，那么用这个模型对未知数据预测的误差即为泛化误差。实际上，泛化误差就是所学习到模型的期望风险。

R_{e x p} (\overset{\land}{f}) = E_{p} [L (Y, \overset{\land}{f} (X))] = \int_{x \times y} L (y, \overset{\land}{f} (x)) P (x, y) d x d y

$R_{exp}(\overset{\wedge}{f}) =E_{p}[L(Y,\overset{\wedge}{f}(X))]=\int_{x\times y}L(y,\overset{\wedge}{f}(x))P(x,y)dxdy$

泛化误差上界

学习方法的泛化能力分析往往通过研究泛化误差的概率上界进行，简称泛化误差上界。通过比较这个来比较两个算法的优劣。泛化误差上界通常具有以下性质：它是样本容量的函数，当样本容量增加时，泛化上界趋于0；它是假设空间容量的函数，假设空间容量越大，模型就越难学，泛化误差上界就越大。

泛化误差上界定理：对于二类分类问题，当假设空间是有限个函数的集合 $F={f_{1},f_{2},...,f_{d}}$ 时，对任意一个函数 $f\in F$ ，至少以概率 $1- \delta$ ，以下不等式成立：

R (f) \leq \overset{\land}{R} (f) + ε (d, N, δ) \leftrightarrow (1.1)

$R(f)\leq \overset{\wedge}{R}(f)+ \varepsilon(d,N,\delta) \leftrightarrow(1.1)$
其中

ε (d, N, δ) = \sqrt{\frac{1}{2 N} (l o g d + l o g \frac{1}{δ})} \leftrightarrow (1.2)

$\varepsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(logd+log\frac{1}{\delta})} \leftrightarrow(1.2)$

上面（1.1）式中左端 $R(f)$ 是泛化误差（泛化误差就是所学模型的期望风险），右端即为泛化误差上界。在泛化误差上界中，第一项是训练误差，训练误差越小，泛化误差也越小。第二项 $\varepsilon(d,N,\delta)$ 是N的单调递减函数，当N趋于无穷大时趋于0；同时它是 $\sqrt{logd}$ 阶的函数，假设空间 $F$ 包含的函数越多，其值越大。

证明：在证明中需要用到Hoeffding不等式，如下：

P (S_{n} - E S_{n} >= t) \leq e x p (\frac{- 2 t^{2}}{\sum_{i = 1}^{n} (b_{i} - a_{i})^{2}}) \leftrightarrow (1.3)

$P(S_{n}-ES_{n}>=t)\leq exp(\frac{-2t^{2}}{\sum_{i=1}^{n}{(b_{i}-a_{i})^{2}}}) \leftrightarrow(1.3)$

P (E S_{n} - S_{n} >= t) \leq e x p (\frac{- 2 t^{2}}{\sum_{i = 1}^{n} (b_{i} - a_{i})^{2}}) \leftrightarrow (1.4)

$P(ES_{n}-S_{n}>=t)\leq exp(\frac{-2t^{2}}{\sum_{i=1}^{n}{(b_{i}-a_{i})^{2}}}) \leftrightarrow(1.4)$
对任意的函数

f \in F

$f\in F$ ，

\overset{\land}{R} (f)

$\overset{\wedge}{R}(f)$ 是N个独立的随机变量

L (Y, f (X))

$L(Y,f(X))$ 的样本均值，

R (f)

$R(f)$ 是随机变量

L (Y, f (X))

$L(Y,f(X))$ 的期望值，如果损失函数取值与区间[0,1]，即对所有的i，

[a_{i}, b_{i}] = [0, 1]

$[a_{i},b_{i}]=[0,1]$ 。那么由Hoeffding不等式（1.4）不难得知，对

ε > 0

$\varepsilon >0$ ，以下不等式成立：

P (R (f) - \overset{\land}{R} (f) \geq ε) \leq e x p (- 2 N ε^{2})

$P(R(f)-\overset{\wedge}{R}(f)\geq \varepsilon)\leq exp(-2N\varepsilon ^{2})$

由于 $F={f_{1},f_{2}...f_{d}}$ 是一个有限集合，故:

\begin{aligned} (46) & P (\exists f \in F : R (f) - \overset{\land}{R} \geq ε) & = P (⋃_{f \in F} {R (f) - \overset{\land}{R} (f) \geq ε}) \\ (47) & \leq \sum_{f \in F} P (R (f) - \overset{\land}{R} (f) \geq ε) \\ (48) & \leq d \times e x p (- 2 N ε^{2}) \end{aligned}

$\begin{align} P(\exists f\in F:R(f)-\overset{\wedge}{R}\geq\varepsilon) & =P(\bigcup_{f\in F}\left\{ R(f)-\overset{\wedge}{R}(f)\geq \varepsilon \right\})\\ & \leq \sum_{f \in F}{P(R(f)-\overset{\wedge}{R}(f)\geq\varepsilon)} \\ & \leq d\times exp(-2N\varepsilon^{2}) \end{align}$
注：其中（1）式中表示存在 $f\in F$ 成立就意味着所有f的并集合**。（2）式的不等式意味着概率论里面的

P (A + B) = P (A) + P (B) - P (A B)

$P(A+B) = P(A) + P(B) - P(AB)$ ，所以

P (A + B) <= P (A) + P (B)

$P(A+B)<=P(A) + P(B)$ 。（3）式小于等于d个exp。
将上面的式子变形以下，等价的公式对于任意的

f \in F

$f\in F$ ，有

P (R (f) - \overset{\land}{R} (f) < ε) \geq 1 - d \times e x p (- 2 N ε^{2})

$P(R(f)-\overset{\wedge}{R}(f)<\varepsilon) \geq 1-d\times exp(-2N\varepsilon^{2})$
这个式子也不难理解，因为概率和为1，所以若

P (A) > 0.6

$P(A) > 0.6$ 则

1 - P (A) \leq 1 - 0.6

$1-P(A)\leq 1-0.6$ 。令：

δ = d \times e x p (- 2 N ε^{2}) \leftrightarrow (1.5)

$\delta = d\times exp(-2N\varepsilon^{2}) \leftrightarrow(1.5)$
则上面式子可以变形为:

P (R (f) < \overset{\land}{R} (f) + ε) \geq 1 - δ

$P(R(f)<\overset{\wedge}{R}(f)+\varepsilon) \geq 1-\delta$
则至少有概率

1 - δ

$1-\delta$ ，有

R (f) < \overset{\land}{R} (f) + ε

$R(f)<\overset{\wedge}{R}(f)+\varepsilon$ ，其中

ε

$\varepsilon$ 由式子（1.5）求得，即求得式子（1.2）。
从泛化误差上界可知，

R (f_{N}) \leq \overset{\land}{R} (f_{N}) + ε (d, N, δ)

$R(f_{N})\leq \overset{\wedge}{R}(f_{N})+ \varepsilon(d,N,\delta)$
这就是说，训练误差小的模型，其泛化误差也会小。以上讨论的只是假设空间包含有限个函数情况下的泛化误差上界，对一般的假设空间要找到泛化误差界没有这么简单。

生成模型与判别模型

监督学习的方法又可以分为生成方法和判别方法，所学到的模型就叫做生成模型和判别模型。

生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)，即生成模型：
$P (Y | X) = \frac{P (X, Y)}{P (X)}$ $P(Y|X)=\frac{P(X,Y)}{P(X)}$
这种方法之所以称为生成方法，是因为模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有：朴素贝叶斯法和隐马尔科夫模型。生成方法的特点是：生成方法可以还原出联合概率分布 $P(X,Y)$ ，而判别方法则不能；生成方法学习收敛速度快，即当样本增加时，学到的模型可以更快的收敛于真实模型；当存在隐变量时，仍可以用生成方法学习，但不能用判别方法。
判别方法由数据直接学习决策函数 $f(X)$ 或者条件概率分布 $P(Y|X)$ 作为预测的模型，即判别模型。判别方法关系的是对给定的输入X，应该预测什么样的输出Y。典型的判别模型包括：k近邻法、感知机、决策树、logistic回归、最大熵模型、支持向量机、提升方法和条件随机场。判别方法的特点是：判别方法直接学习的是条件概率 $P(Y|X)$ 或决策函数 $f(X)$ ，直接面对预测，往往学习的准确率更高；由于直接学习 $P(Y|X)$ 或 $f(X)$ ，可以对数据进行各种程度的抽象、定义特征并使用特征，可以简化学习问题。

分类问题

当输出变量Y取有限个离散值时，预测问题便成为分类问题。监督学习从数据中学习一个分类模型或分类决策函数，称为分类器。

评价分类器的性能的指标一般是分类准确率(accuracy)，即正确分类的样本数和总样本数之比。对于二类分类问题常用的评价指标是查准率(precision)和查全率(recall)。通常以关注的类为正类，其他类为负类。分类器在测试数据集上的预测或正确或不正确，4种情况如下分别记录如下：
- TP——将正类预测为正类数
- TN——将负类预测为负类数
- FP——将负类预测为正类数
- FN——将正类预测为负类数

写成分类结果混淆矩阵如下：

	预测结果	预测结果
真实情况	正例	反例
正例	TP（真正例）	FN（假反例）
反例	FP（假正例）	TN（真反例）

查准率的定义为：

P = \frac{T P}{T P + F P}

$P = \frac{TP}{TP+FP}$
查全率的定义为：

R = \frac{T P}{T P + F N}

$R = \frac{TP}{TP+FN}$
为了能够方便看出评估度量的好坏，增加了查准率和查全率的 调和均值——

F_{1}

$F_{1}$ ，查准率和查全率都高时，

F_{1}

$F_{1}$ 值也会高，即：

\frac{2}{F_{1}} = \frac{1}{P} + \frac{1}{R}

$\frac{2}{F_{1}}=\frac{1}{P}+\frac{1}{R}$

F_{1} = \frac{2 T P}{2 T P + F P + F N}

$F_{1}=\frac{2TP}{2TP+FP+FN}$

标注问题

标注(tagging)也是一个监督学习问题，输入是一个观测序列，输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型，使它能够对观测序列给出标记序列作为预测。

标注常用的统计学习方法由：因马尔科夫模型、条件随机场。它在信息抽取、自然语言处理等领域被广泛应用。

回归问题

回归用于预测输入变量和输出变量之间的关系，回归模型正是表示从输入变量到输出变量之间的映射函数。回归问题的学习等价于函数拟合。选择一条函数曲线使其很好的拟合已知数据且很好的预测未知数据。

回归问题按照输入变量的个数分为一元回归和多元回归；按照输入变量与输出变量的关系的类型即模型的类型，分为线性回归和非线性回归。最常用的损失函数是平方损失函数，此时，回归问题可以由最小二乘法(least squares)求解。

统计学习方法笔记——概论