机器学习与数据挖掘 第十二讲:Regularization

正则化

正则化主要思想:通过在原目标(代价)函数中添加惩罚项,对以控制模型复杂度,减小过拟合。
J ~ ( w ; X , y ) = J ( w ; X , y ) + α Ω ( w ) \tilde{J}(w ; X, y)=J(w ; X, y)+\alpha \Omega(w)

正则化假设集

正则化两种方法:

  1. Mathematical
    函数近似过程的病态问题
  2. Heuristic
    通过妨碍 E i n E_{in} 最小化过程

主要讨论第二种方法,并采用假设集: Legendre Polynomials + Linear Regression 简化推导过程,进行讲解。

将假设函数从高次多项式降至低次,以降低模型复杂度和减少过拟合,寻找到能够更好拟合目标分布的函数。

将次转化成带有限制(constraint)条件的问题。以10次多项式和2次多项式为例:
H 10 : w 0 + w 1 x + w 2 x 2 + w 10 x 10 H 2 : w 0 + w 1 x + w 2 x 2 \begin{aligned} H_{10} : & w_{0}+w_{1} x+w_{2} x^{2} \ldots+w_{10} x^{10} \\ & H_{2} : w_{0}+w_{1} x+w_{2} x^{2} \end{aligned}

其中二次式可转化为加了约束条件的10次多项式, H 2 = H 10 H_{2} = H_{10} with constraint

进一步松弛约束条件(w=0的个数>=8):

假设空间之间的关系: H 2 H 2 H 10 H_{2} \subset H_{2}^{\prime} \subset H_{10}
由于 H 2 H_{2}^{\prime} 的min E i n E_{in}

是一个NP-hard问题,可将假设空间再次改写为(权值向量w的模的平方小于C)

此时最小化原始函数就转化为最小化具有限制的函数

权重衰减正则化

可通过拉格朗日乘子式处理带约束的优化问题

式子中的 ( w z y ) 2 (w z-y)^{2} w 2 w ^{2} R q + 1 R ^{q+1} 中为两个超球体(椭圆球和正圆球体)

蓝色椭圆为无条件限制时 E i n E_{in} 的一条等高线,红色圆为限制条件半径 C \sqrt{C} l 2 l_2 范数球, w w 的移动不能超出球面,同时要接近无限制条件下最小点。即 w w 移动方向必须满足:1. 移动方向与球面法向量垂直 2. 采用梯度下降法更新时,移动方向要是梯度反方向的一个分量向量。则当 E i n -\nabla E_{i n} 与法向量平行时,即实际滚动方向(图中蓝色的向量)不存在与球切线方向相同的分量,才达到最优点。
a = λ b E i n ( w R E G ) = λ w R E G E i n ( w R E G ) + λ w R E G = 0 E i n ( w R E G ) + 2 λ N w R E G = 0 \begin{array}{c}{a=\lambda b} \\ {\Rightarrow-\nabla E_{i n}\left(w_{R E G}\right)=\lambda w_{R E G}} \\ {\Rightarrow \nabla E_{i n}\left(w_{R E G}\right)+\lambda w_{R E G}=0} \\ {\Rightarrow \nabla E_{i n}\left(w_{R E G}\right)+\frac{2 \lambda}{N} w_{R E G}=0}\end{array}
将线性回归中求的 E i n ( w R E G ) \nabla E_{i n}\left(w_{R E G}\right) 带入,则有,

w R E G = ( Z T Z + λ I ) 1 Z T y w_{R E G}=\left(Z^{T} Z+\lambda I\right)^{-1} Z^{T} y
包含了求逆矩阵的过程, Z T Z Z^{T} Z 为半正定矩阵,如果 λ > 0 \lambda>0 ,那么 Z T Z + λ I Z^{T} Z+\lambda I 一定是正定矩阵,即一定可逆。

如果对于更一般的情况,例如逻辑回归问题中, E i n \nabla E_{i n} 不是线性的,则代入平行条件得不到一个线性方程式, w R E G w_{R E G} 不易求解。可从另一角度思考:
E i n ( w R E G ) + 2 λ N w R E G \nabla E_{i n}\left(w_{R E G}\right)+\frac{2 \lambda}{N} w_{R E G} 积分可得 E i n ( w ) + λ N w T w E_{i n}(w)+\frac{\lambda}{N} w^{T} w ,定义 E aug ( w ) = E in ( w ) + λ N w T w E_{\text {aug}}(w)=E_{\text {in}}(w)+\frac{\lambda}{N} w^{T} w 为增广错误(augmented error),则问题转化为最小化该函数, w T w w^{T} w 为正则化项(regularizer),也称weight-decay regularization。
最终求解公式可表示为:
w R E G = argmin w E i n ( w ) + λ N w T w w_{R E G}=\underset{w}{\operatorname{argmin}}E_{i n}(w)+\frac{\lambda}{N} w^{T} w
λ \lambda 取不同值时,越大的 λ \lambda 对应越短的权重向量 w w ,同时对应越小的约束半径 C C .这种将 w w 变小的正则化(+ λ N w T w \frac{\lambda}{N} w^{T} w )称为权重衰减。这种正则化可以和任意的转换函数及任意线性模型结合。

Regularization VS VC Theory

通过VC限制说明正则化的优势
Augmented Error表达式如下:
E a u g ( w ) = E i n ( w ) + λ N w T w E_{a u g}(w)=E_{i n}(w)+\frac{\lambda}{N} w^{T} w
VC Bound表示为:
E o u t ( w ) E i n ( w ) + Ω ( H ) E_{o u t}(w) \leq E_{i n}(w)+\Omega(H)
其中 w T w w^{T} w 表示单个hypothesis的复杂度,记为 Ω ( w ) \Omega(w) ;而 Ω ( H ) \Omega(H) 表示整个hypothesis set的复杂度,则 Ω ( w ) Ω ( H ) \Omega(w) \subset \Omega(H) ,所以 E a u g ( w ) E_{a u g}(w) 更接近 E o u t E_{o u t} ,误差更小。
通过VC维说明正则化的好处
最小化的 E a u g ( w ) E_{a u g}(w)
min w R d ˇ + 1 E a u g ( w ) = E i n ( w ) + λ N w T w \underset{w\in\mathbb{R}^{\check{d}+1}}{\operatorname{min}}E_{a u g}(w)=E_{i n}(w)+\frac{\lambda}{N} w^{T} w
按照VC理论, d V C ( H ) = d ˇ + 1 d_{V C}(H)=\check{d}+1 ,考虑所有 w w ,没有任何限制条件。而引入限制条件后有效的VC维为 d V C ( H ( C ) ) = d E F F ( H , A m i n E a u g ( w ) ) d_{V C}(H(C))=d_{E F F}(H, \underbrace{A}_{minE_{a u g}(w)}) 。即 d V C ( H ) d_{V C}(H) 比较大,因为考虑整个hypothesis set, d E F F ( H , A ) d_{E F F}(H, A) 比较小,是由于regularized的影响,限制了 w w 只取一小部分。

对多项式拟合模型,当 λ = 0 \lambda=0 时,所有 w w 都考虑,相应 d V C d_{V C} 大,容易过拟合。当 λ > 0 \lambda>0 并越来越大, d E F F ( H , A ) d_{E F F}(H, A) 减小,拟合曲线越来越平滑,容易欠拟合。

General Regularizers

通用的Regularizers,即 Ω ( w ) \Omega(w) 选取方法一般有3种:
1. target-dependent
根据目标函数的性质设计正则化项,如某目标函数是对称函数,因此权值向量的所有奇数分量应被抑制
2. plausible
正则化项应尽可能地平滑(smooth)或简单(simpler),因为不论是随机性噪音还是确定性噪音都不是平滑的。平滑表示可微,如 l 2 l_2 。简单表示容易求解,如 l 1 l_1 正则化项或稀疏(sparsity)正则化项
3. friendly
易于最优化的求解。如 l 2 l_2

L2和L1正则化

范数:
w p : = ( i = 1 n w i p ) 1 p \|w\|_{p} :=\left(\sum_{i=1}^{n}\left|w_{i}\right|^{p}\right)^{\frac{1}{p}}
对于线性回归模型,使用 L1 正则化的模型建叫做 Lasso 回归,使用 L2 正则化的模型叫做 Ridge 回归(岭回归)。
L 1 : Ω ( w ) = w 1 = i w i L 2 : Ω ( w ) = w 2 2 = i w i 2 \begin{array}{l}{L_{1} : \Omega(w)=\|w\|_{1}=\sum_{i}\left|w_{i}\right|} \\ {L_{2} : \Omega(w)=\|w\|_{2}^{2}=\sum_{i} w_{i}^{2}}\end{array}

L1 Regulariation:凸函数,但是角上无法求导,也就是说优化比较难,顶点处的许多w分量为零,通过正则化之后可以产生稀疏权值矩阵,对于计算和存储都是很大的优势;其正则化效果会使原最优解的元素产生不同量的偏移,并使某些元素为0,从而产生稀疏性。
L2 Regulariation:凸函数,可以求导,并且很方便优化,最后通过正则化之后得到权重值都会偏小;其正则化的效果是对原最优解的每个元素进行不同比例的放缩。

Reference

十四、Regularization
【直观详解】什么是正则化
深入理解L1、L2正则化

猜你喜欢

转载自blog.csdn.net/leeningzzu/article/details/91861725