第一章、统计学习方法概论

1.1 统计学习
1.2 监督学习
1.3 统计学习三要素
1.4 模型评估与模型选择
1.5 正则化与交叉验证
1.6 泛化能力
1.7 生成模型与判别模型
1.8 分类问题
1.9 标注问题
1.10 回归问题

1.1 统计学习

1. 统计学习的特点

计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。（统计学习，又称统计机器学习）

2. 统计学习的对象

统计学习的对象是数据（data）。数据是多种多样的，不止是数字，还包括文本、图片、音频、视频以及它们的组合。

统计学习的一个基本的假设是，同类数据具有一定的统计规律性。

3. 统计学习的目的

对数据进行预测和分析。

4. 统计学习的方法

统计学习的分类
- 监督学习 supervised learning
- 非监督学习 unsupervised learning
- 半监督学习 semi-supervised learning
- 强化学习 reinforcement learning
统计学习方法的实现步骤
- 得到一个有限的训练数据集合（基本假设：数据是独立同分布）
- 确定包含所有可能模型的假设空间，即学习模型的集合（基本假设：要学习的模型属于某个函数的集合，即假设空间）（如h(θ)）
- 确定模型选择的准则，即学习的策略（如Cost Function）
- 实现求解最优模型的算法，即学习的算法（如梯度下降法）
- 通过学习方法选择最优模型
- 利用学习的最优模型对新数据进行预测和分析
统计学习方法三要素
- 模型 model：要学习的对象（假设空间）
- 策略 strategy：评价的标准（准确率,logloss等）
- 算法 algorithm：学习的方法（梯度下降等）

1.2 监督学习

监督学习：学习一个模型，使模型能够对任意给定的输入，对其相应的输出做出一个好的预测。

1. 基本概念

输入空间 input space：输入所有可能取值的集合，通常用X表示
输出空间 output space：输出所有可能取值的集合，通常用Y表示
特征空间 feature space：特征向量存在的空间叫做特征空间，有时和X一致，有时不一致（如特征工程以后就和X不一致）
第 i 个输入实例：上标表示特征、下标表示第i个实例
$x_{i} = (x_{i}^{(1)}, x_{i}^{(2)}, x_{i}^{(3)} . . .)^{T}$ $x_i=(x^{(1)}_i,x^{(2)}_i,x^{(3)}_i...)^T$
训练集 training data：
$T = {(x_{1}, y_{1}), (x_{2}, y_{2}) . . .}$ $T = \{(x_1,y_1),(x_2,y_2)...\}$
样本 sample：输入输出对
根据预测任务分类
- 回归：输入输出变量均为连续变量的预测问题
- 分类：输入输出变量均为有限个离散变量的预测问题
- 标注：输入输出变量均为变量序列的预测问题
联合概率分布

监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。
假设空间 hypothesis space

模型属于由输入空间到输出空间的映射集合，这个集合就是假设空间。
模型
- 概率模型：条件概率分布P(y|x)
- 非概率模型：决策函数Y=f(X)

2. 问题形式化

监督学习分为学习和预测两个过程，由学习系统和预测系统完成。

首先给定一个训练集T，训练数据和测试数据是依联合概率分布P(X,Y)独立同分布的。
学习系统利用给定的训练数据集，通过学习得到一个模型，表示为条件概率分布P(y|x)或决策函数Y=f(X)，描述输入和输出之间的映射关系。
预测系统对于给定的测试样本集的输入，由模型给出输出

$y_{N + 1} = a r g m a x \hat{P} (y_{N + 1} | x_{N + 1})$ $y_{N+1} = argmax\hat{P}(y_{N+1}|x_{N+1})$

$y_{N + 1} = \hat{f} (x_{N + 1})$ $y_{N+1} = \hat{f}(x_{N+1})$
学习系统不断的尝试，选出最好的模型。

1.3 统计学习三要素

方法 = 模型 + 策略 + 算法

1. 模型

假设空间里的模型一般有无穷多个。假设空间用F表示，

可以定义为决策函数的集合（非概率模型）：

F = {f | Y = f_{θ} (X), θ \in R^{n}}

$\mathcal{F} = \{f|Y=f_\theta (X),\theta \in R^n\}$

也可以定义为条件概率的集合（概率模型）：

F = {P | P_{θ} (Y | X), θ \in R^{n}}

$\mathcal{F} = \{P|P_\theta (Y|X),\theta \in R^n\}$

2. 策略

损失函数和风险函数

损失函数度量模型一次预测的好坏，风险函数度量模型平均意义下预测的好坏。
- 损失函数（loss function） / 代价函数（cost function）
  
  用来衡量一次预测错误的长度。
  - 0-1损失函数（0-1 loss function）
  $L (Y, f (X)) = {\begin{cases} 0, Y = f (X) \\ 1, Y \neq f (X) \end{cases}$
  - 平方损失函数（quadratic loss function）
  $L (Y, f (X)) = (Y - f (X))^{2}$
  - 绝对损失函数（absolute loss function）
  $L (Y, f (X)) = | Y - f (X) |$
  - 对数损失函数（logarithmic loss function）
  $L (Y, P (Y | X)) = - l o g (P (Y | X))$
- 风险函数（risk function） / 期望损失（expected loss）
  
  $R_{e x p} (f) = E_{P} [L (Y, f (X))] = \int_{X \times Y} L (y, f (x)) P (x, y) d x d y$ $R_{exp}(f) = E_P[L(Y,f(X))] = \int_{\mathcal{X} \times \mathcal{Y}}L(y,f(x))P(x,y)dxdy$
  
  监督学习是一个病态问题（ill-formed problem）：如果X和Y的联合分布列未知，那么很容易求出条件分布列，因此就不需要统计学习了。正因为联合分布列未知，才需要学习。但是评价的时候又需要联合分布列来估计风险函数，因此监督学习问题是病态问题。
- 经验风险（empirical function）
  
  $R_{e m p} (f) = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i}))$ $R_{emp}(f) = \frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i))$
  
  根据大数定律（辛勤独立同分布的大数定律），当样本容量N趋于无穷大的时候，经验风险趋近于期望风险。
经验风险最小化和结构风险最小化
- 经验误差最小化（ERM：Empirical Risk Minimization）
  
  适用于样本容量比较大的情况。
  
  $R_{e r m} (f) = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i}))$ $R_{erm}(f) = \frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i))$
  
  $min_{f \in F} \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i}))$ $\mathop{\min}_{f \in \mathcal{F}} \frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i))$
- 结构风险最小化（SRM：Structural Risk Minimization）
  
  在经验风险最小化的基础上增加了正则项/罚项。当样本容量比较小的时候，模型容易过拟合，因此定义结构风险最小化。结构风险最小化等价于正则化。其中J(f)为定义在假设空间上的泛函。模型越复杂，J(f)越大。
$R_{s r m} (f) = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i})) + λ J (f)$

$min_{f \in F} \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i})) + λ J (f)$

3. 算法

计算假设空间中的最优解，即最优化问题。

1.4 模型评估和模型选择

1. 模型评估（基于策略）

训练误差（training error）

能看出是否容易学习。

$R_{e m p} (\hat{f}) = \frac{1}{N} \sum_{i = 0}^{N} L (y_{i}, \hat{f} (x_{i}))$ $R_{emp}(\hat{f}) = \frac{1}{N}\sum^{N}_{i=0}L(y_i,\hat{f}(x_i))$
测试误差（test error）

表现对未知数据的预测能力。（泛化能力 generalization ability）

$e_{t e s t} = \frac{1}{N^{'}} \sum_{i = 0}^{N} L (y_{i}, \hat{f} (x_{i}))$ $e_{test} = \frac{1}{N'}\sum^{N}_{i=0}L(y_i,\hat{f}(x_i))$

2. 模型选择（基于模型评估）

模型选择：在不同复杂度的模型中，选择一个最合适的，避免过拟合的模型。
训练误差、预测误差与模型复杂度的关系：

1.5 （模型选择的方法）正则化和交叉验证

1. 正则化

正则化的意义：正则化项是模型复杂度的单调递增函数，表示同时考虑经验风险和结构风险。作用是选择经验风险和复杂度都比较小的模型。（就是防止过拟合）

2. 交叉验证

当数据样本容量比较充足的时候——划分训练集、验证集、测试集：
- 训练集（training set）：训练模型（类似于作比赛中的training set）
- 验证集（validation set）：模型选择（类似于比赛中自己划分出来的test，调超参数）
- 测试集（test set）：模型评估（比赛给的test）
当数据样本不充足的时候——交叉验证：
- 简单交叉验证：70%训练集，30%测试集
- S折交叉验证
- 留一交叉验证

1.6 泛化能力

1. 泛化误差

泛化误差记为期望风险（Rexp）。

2. 泛化误差上界

泛化误差上界是样本容量的函数，样本容量越大，泛化误差上界越趋近于0.

泛化误差上界是假设空间数量的函数，假设空间数量越大，越难学习，上界就越大。

1.7 生成模型和判别模型

1. 生成模型

举例：学习了所有的语言，再判断语言，看那个语言的值大就是哪个语言。
定义：学习联合概率分布，求出条件概率分布，模型表示了给定X产生输出Y的生成关系。
<朴素贝叶斯、隐马尔科夫>
特点：能直接还原出联合概率分布；收敛速度快；存在隐变量仍然可以使用

2. 判别模型

举例：学习对比每个语言的差异，再判断语言。
定义：直接学习条件概率分布的模型，模型表示给定输入X会输出什么样的Y

1.8 分类问题 Classification

1. 分类器的性能指标——准确度（accuracy）

2. 二分类问题常用的评价指标

实际\预测	正	负
正	TP	FN
负	FP	TN

召回率（recall）：

R = \frac{T P}{T P + F N}

$R=\frac{TP}{TP+FN}$

精确率（precision）：

$P = \frac{T P}{T P + F P}$ $P=\frac{TP}{TP+FP}$
对上述二者的调和：

$F_{1} = \frac{2 T P}{2 T P + F N + F P}$ $F_1=\frac{2TP}{2TP+FN+FP}$

3. 常见的方法

4. 应用

银行：客户分类
网络安全：非法入侵
人脸识别
手写识别
文本处理，如垃圾邮件识别（根据关键词的频率等）

1.9 标注问题 Tagging

1. 描述

P (y^{(1)}, y^{(2)}, y^{(3)}, y^{(4)}, . . . | x^{(1)}, x^{(2)}, x^{(3)}, x^{(4)}, . . .)

$P(y^{(1)},y^{(2)},y^{(3)},y^{(4)},...|x^{(1)},x^{(2)},x^{(3)},x^{(4)},...)$

2. 常见的方法

隐马尔科夫模型
条件随机场

3. 应用

自然语言处理中的雌性标注，如图：

1.10 回归问题 Regression

按照输入变量的个数分类：
- 一元
- 多元

按照输入变量与输出变量的关系:
- 线性
- 非线性

01 统计学习方法概论