机器学习笔记之经验风险与结构风险

期望损失（风险函数）

当模型的损失函数是对数损失函数（对数似然损失函数）：

L (Y, P (Y | X)) = - l o g P (Y | X)

$L(Y,P(Y|X)) = -logP(Y|X)$
损失函数值越小，模型就越好，由于模型的输入、输出

(X,Y) $(X,Y)$ 是随机变量，遵循联合分布

P(X,Y) $P(X,Y)$ , 所以损失函数的期望是:

R e x p (f) = E p [L (Y, f (x))] = \int  \times  L (y, f (x)) P (x, y) d x d y

$R_{exp}(f) = E_p[L(Y,f(x))] = \int_{\mathcal{X}\times\mathcal{Y}} L(y,f(x))P(x,y)dxdy$

这是理论上模型 $f(x)$ 关于联合分布 $P(X,Y)$ 的平均意义下的损失，称为风险函数或期望损失

学习的目标就是选择期望风险最小的模型。由于联合分布 $P(X,Y)$ 是未知的， $R_{exp}(f)$ 不能直接计算。实际上，要是知道了联合分布 $P(X,Y)$ ，就可以直接从联合分布求出条件概率分布 $P(Y|X)$ ，这样就不需要学习了，直接算那就行了。正因为不知道联合概率分布，所以才需要进行学习，这里就会产生矛盾了，一方面根据期望风险最小学习模型需要用到联合概率，另一方面联合概率分布又是位置的，所以导致了监督学习称为一个病态的问题。

经验风险（经验损失）

既然我们无法直接获得总体的联合概率分布，那么我们可以用样本来对总体的联合概率分布进行估计吧。

给定一个训练数据集:

T = {(x 1, y 1), \dots, (x N, y N)}

$T = \{(x_1,y_1),\cdots,(x_N,y_N)\}$

模型 $f(X)$ 关于训练集的平均损失称为经验风险(emprical risk) 或经验损失：

R e m p (f) = 1 N \sum i = 1 N L (y i, f (x i))

$R_{emp}(f) = \frac{1}{N} \sum_{i=1}^N L(y_i,f(x_i))$

容易知道，上面说的期望风险 $R_exp(f)$ 是模型关于联合分布的期望损失，而经验风险 $R_emp(f)$ 是模型关于样本训练集的平均损失。根据大数定律，当样本容量趋近 $\infty$ 时，经验风险趋近与期望风向。所以我们可以用经验风险估计期望风险。

这样估计存在的问题？
由于现实中样本集的数量有限，有时候并不能很好的体现总体的所有特征，所以这样的估计常常不理想，要对经验风险进行一定的矫正，于是就引出了监督学习的两个基本策略：经验风险最小化和结构风险最小化

经验风险最小化

在假设空间、损失函数以及训练数据集确定的情况下，经验风险函数 $R_{emp}(f) = \frac{1}{N} \sum_{i=1}^N L(y_i,f(x_i))$ 就可以确定。经验风险最小化(empirical risk minimization, ERM) 的策略认为，经验风险最小的模型就是最优的模型，那么按照经验风险最小化求最优模型就是求解最优化问题：

min f \in  1 N \sum i = 1 N L (y i, f (x i))

$\min_{f\in\mathcal{F}}\frac{1}{N} \sum_{i=1}^N L(y_i,f(x_i))$
其中

 $\mathcal{F}$ 是假设空间。

当样本容量足够大的时候，经验风险最小化能保证有很好的学习效果。

如何理解当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计？

首先极大似然估计基于条件独立的假设，求某个特定的条件概率的时候是要根据情况累乘各部分的概率的。这时候我们对这个条件概率取对数，那么累乘就变成累加和了，就和上面的公式一致了。

结构风险最小化

当样本容量小的的时候，经验风险最小化的效果未必很好，容易产生过拟合

为了防止过拟合，提出了结构风险最小化的策略。

结构风险最小化(structural risk minimization, SRM) 等价于正则化 (regularization)。结构风险在经验风险上加上表示模型复杂度的正则化项，在假定空间、损失函数以及训练数据集确定的情况下，结构风险的定义：

R s r m = 1 N \sum i = 1 N L (y i, f (x i)) + λ J (f)

$R_{srm} = \frac{1}{N} \sum_{i=1}^N L(y_i,f(x_i)) + \lambda J(f)$
其中

J(f) $J(f)$ 为模型的复杂度，是定义在假设空间

 $\mathcal{F}$ 上的泛函。模型越复杂，复杂度

J(f) $J(f)$ 就会越大；反之，模型越简单，复杂度就小。这意味着

J(f) $J(f)$ 表示对模型的惩罚。其中

λ≥0 $\lambda \geq 0$ 是系数，用以权衡经验风险和模型复杂度。结构风险最小需要经验风险和模型复杂度同时小。结构风险小的模型对训练数据以及未知的测试数据有较好的预测。

结构风险最小化的策略认为结构风险最小的模型就是最优的模型，所以求最优模型，就是求解最优化问题:

min f \in  1 N \sum i = 1 N L (y i, f (x i)) + λ J (f)

$\min_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^N L(y_i,f(x_i)) + \lambda J(f)$