正则化

正则化主要思想：通过在原目标(代价)函数中添加惩罚项，对以控制模型复杂度，减小过拟合。
$\tilde{J}(w ; X, y)=J(w ; X, y)+\alpha \Omega(w)$

正则化假设集

正则化两种方法：

Mathematical
函数近似过程的病态问题
Heuristic
通过妨碍 $E_{in}$ 最小化过程

主要讨论第二种方法，并采用假设集: Legendre Polynomials + Linear Regression 简化推导过程，进行讲解。

将假设函数从高次多项式降至低次，以降低模型复杂度和减少过拟合，寻找到能够更好拟合目标分布的函数。

将将次转化成带有限制(constraint)条件的问题。以10次多项式和2次多项式为例：
$\begin{aligned} H_{10} : & w_{0}+w_{1} x+w_{2} x^{2} \ldots+w_{10} x^{10} \\ & H_{2} : w_{0}+w_{1} x+w_{2} x^{2} \end{aligned}$

其中二次式可转化为加了约束条件的10次多项式， $H_{2} = H_{10}$ with constraint

进一步松弛约束条件(w=0的个数>=8）：

假设空间之间的关系： $H_{2} \subset H_{2}^{\prime} \subset H_{10}$
由于 $H_{2}^{\prime}$ 的min $E_{in}$

是一个NP-hard问题，可将假设空间再次改写为(权值向量w的模的平方小于C）

此时最小化原始函数就转化为最小化具有限制的函数

权重衰减正则化

可通过拉格朗日乘子式处理带约束的优化问题

式子中的 $(w z-y)^{2}$ 和 $w ^{2}$ 在 $R ^{q+1}$ 中为两个超球体(椭圆球和正圆球体)

蓝色椭圆为无条件限制时 $E_{in}$ 的一条等高线，红色圆为限制条件半径 $\sqrt{C}$ 的 $l_2$ 范数球， $w$ 的移动不能超出球面，同时要接近无限制条件下最小点。即 $w$ 移动方向必须满足：1. 移动方向与球面法向量垂直 2. 采用梯度下降法更新时，移动方向要是梯度反方向的一个分量向量。则当 $-\nabla E_{i n}$ 与法向量平行时，即实际滚动方向（图中蓝色的向量）不存在与球切线方向相同的分量，才达到最优点。
$\begin{array}{c}{a=\lambda b} \\ {\Rightarrow-\nabla E_{i n}\left(w_{R E G}\right)=\lambda w_{R E G}} \\ {\Rightarrow \nabla E_{i n}\left(w_{R E G}\right)+\lambda w_{R E G}=0} \\ {\Rightarrow \nabla E_{i n}\left(w_{R E G}\right)+\frac{2 \lambda}{N} w_{R E G}=0}\end{array}$
将线性回归中求的 $\nabla E_{i n}\left(w_{R E G}\right)$ 带入，则有，

对 $w_{R E G}=\left(Z^{T} Z+\lambda I\right)^{-1} Z^{T} y$
包含了求逆矩阵的过程， $Z^{T} Z$ 为半正定矩阵，如果 $\lambda>0$ ，那么 $Z^{T} Z+\lambda I$ 一定是正定矩阵，即一定可逆。

如果对于更一般的情况，例如逻辑回归问题中， $\nabla E_{i n}$ 不是线性的，则代入平行条件得不到一个线性方程式， $w_{R E G}$ 不易求解。可从另一角度思考：
式 $\nabla E_{i n}\left(w_{R E G}\right)+\frac{2 \lambda}{N} w_{R E G}$ 积分可得 $E_{i n}(w)+\frac{\lambda}{N} w^{T} w$ ，定义 $E_{\text {aug}}(w)=E_{\text {in}}(w)+\frac{\lambda}{N} w^{T} w$ 为增广错误(augmented error），则问题转化为最小化该函数， $w^{T} w$ 为正则化项(regularizer），也称weight-decay regularization。
最终求解公式可表示为：
$w_{R E G}=\underset{w}{\operatorname{argmin}}E_{i n}(w)+\frac{\lambda}{N} w^{T} w$
当 $\lambda$ 取不同值时，越大的 $\lambda$ 对应越短的权重向量 $w$ ,同时对应越小的约束半径 $C$ .这种将 $w$ 变小的正则化(+ $\frac{\lambda}{N} w^{T} w$ ）称为权重衰减。这种正则化可以和任意的转换函数及任意线性模型结合。

Regularization VS VC Theory

通过VC限制说明正则化的优势
Augmented Error表达式如下：
$E_{a u g}(w)=E_{i n}(w)+\frac{\lambda}{N} w^{T} w$
VC Bound表示为：
$E_{o u t}(w) \leq E_{i n}(w)+\Omega(H)$
其中 $w^{T} w$ 表示单个hypothesis的复杂度，记为 $\Omega(w)$ ；而 $\Omega(H)$ 表示整个hypothesis set的复杂度，则 $\Omega(w) \subset \Omega(H)$ ,所以 $E_{a u g}(w)$ 更接近 $E_{o u t}$ ，误差更小。
通过VC维说明正则化的好处
最小化的 $E_{a u g}(w)$ 为
$\underset{w\in\mathbb{R}^{\check{d}+1}}{\operatorname{min}}E_{a u g}(w)=E_{i n}(w)+\frac{\lambda}{N} w^{T} w$
按照VC理论， $d_{V C}(H)=\check{d}+1$ ,考虑所有 $w$ ,没有任何限制条件。而引入限制条件后有效的VC维为 $d_{V C}(H(C))=d_{E F F}(H, \underbrace{A}_{minE_{a u g}(w)})$ 。即 $d_{V C}(H)$ 比较大，因为考虑整个hypothesis set， $d_{E F F}(H, A)$ 比较小，是由于regularized的影响，限制了 $w$ 只取一小部分。

对多项式拟合模型，当 $\lambda=0$ 时，所有 $w$ 都考虑，相应 $d_{V C}$ 大，容易过拟合。当 $\lambda>0$ 并越来越大， $d_{E F F}(H, A)$ 减小，拟合曲线越来越平滑，容易欠拟合。

General Regularizers

通用的Regularizers,即 $\Omega(w)$ 选取方法一般有3种：
1. target-dependent
根据目标函数的性质设计正则化项，如某目标函数是对称函数，因此权值向量的所有奇数分量应被抑制
2. plausible
正则化项应尽可能地平滑（smooth）或简单（simpler），因为不论是随机性噪音还是确定性噪音都不是平滑的。平滑表示可微，如 $l_2$ 。简单表示容易求解，如 $l_1$ 正则化项或稀疏（sparsity）正则化项
3. friendly
易于最优化的求解。如 $l_2$

L2和L1正则化

范数：
$\|w\|_{p} :=\left(\sum_{i=1}^{n}\left|w_{i}\right|^{p}\right)^{\frac{1}{p}}$
对于线性回归模型，使用 L1 正则化的模型建叫做 Lasso 回归，使用 L2 正则化的模型叫做 Ridge 回归（岭回归）。
$\begin{array}{l}{L_{1} : \Omega(w)=\|w\|_{1}=\sum_{i}\left|w_{i}\right|} \\ {L_{2} : \Omega(w)=\|w\|_{2}^{2}=\sum_{i} w_{i}^{2}}\end{array}$

L1 Regulariation：凸函数，但是角上无法求导，也就是说优化比较难，顶点处的许多w分量为零，通过正则化之后可以产生稀疏权值矩阵，对于计算和存储都是很大的优势；其正则化效果会使原最优解的元素产生不同量的偏移，并使某些元素为0，从而产生稀疏性。
L2 Regulariation：凸函数，可以求导，并且很方便优化，最后通过正则化之后得到权重值都会偏小;其正则化的效果是对原最优解的每个元素进行不同比例的放缩。

Reference

十四、Regularization
【直观详解】什么是正则化
 深入理解L1、L2正则化

机器学习与数据挖掘第十二讲：Regularization

正则化

正则化假设集

权重衰减正则化

Regularization VS VC Theory

General Regularizers

L2和L1正则化

Reference

猜你喜欢

机器学习与数据挖掘 第十二讲：Regularization

正则化

正则化假设集

权重衰减正则化

Regularization VS VC Theory

General Regularizers

L2和L1正则化

Reference

猜你喜欢

机器学习与数据挖掘第十二讲：Regularization