正则化
正则化主要思想:通过在原目标(代价)函数中添加惩罚项,对以控制模型复杂度,减小过拟合。
J~(w;X,y)=J(w;X,y)+αΩ(w)
正则化假设集
正则化两种方法:
- Mathematical
函数近似过程的病态问题
- Heuristic
通过妨碍
Ein最小化过程
主要讨论第二种方法,并采用假设集: Legendre Polynomials + Linear Regression 简化推导过程,进行讲解。
将假设函数从高次多项式降至低次,以降低模型复杂度和减少过拟合,寻找到能够更好拟合目标分布的函数。
将将次转化成带有限制(constraint)条件的问题。以10次多项式和2次多项式为例:
H10:w0+w1x+w2x2…+w10x10H2:w0+w1x+w2x2
其中二次式可转化为加了约束条件的10次多项式,
H2=H10 with constraint
进一步松弛约束条件(w=0的个数>=8):
假设空间之间的关系:
H2⊂H2′⊂H10
由于
H2′的min
Ein
是一个NP-hard问题,可将假设空间再次改写为(权值向量w的模的平方小于C)
此时最小化原始函数就转化为最小化具有限制的函数
权重衰减正则化
可通过拉格朗日乘子式处理带约束的优化问题
式子中的
(wz−y)2和
w2在
Rq+1中为两个超球体(椭圆球和正圆球体)
蓝色椭圆为无条件限制时
Ein的一条等高线,红色圆为限制条件半径
C
的
l2范数球,
w的移动不能超出球面,同时要接近无限制条件下最小点。即
w移动方向必须满足:1. 移动方向与球面法向量垂直 2. 采用梯度下降法更新时,移动方向要是梯度反方向的一个分量向量。则当
−∇Ein与法向量平行时,即实际滚动方向(图中蓝色的向量)不存在与球切线方向相同的分量,才达到最优点。
a=λb⇒−∇Ein(wREG)=λwREG⇒∇Ein(wREG)+λwREG=0⇒∇Ein(wREG)+N2λwREG=0
将线性回归中求的
∇Ein(wREG)带入,则有,
对
wREG=(ZTZ+λI)−1ZTy
包含了求逆矩阵的过程,
ZTZ为半正定矩阵,如果
λ>0,那么
ZTZ+λI一定是正定矩阵,即一定可逆。
如果对于更一般的情况,例如逻辑回归问题中,
∇Ein不是线性的,则代入平行条件得不到一个线性方程式,
wREG不易求解。可从另一角度思考:
式
∇Ein(wREG)+N2λwREG积分可得
Ein(w)+NλwTw,定义
Eaug(w)=Ein(w)+NλwTw为增广错误(augmented error),则问题转化为最小化该函数,
wTw为正则化项(regularizer),也称weight-decay regularization。
最终求解公式可表示为:
wREG=wargminEin(w)+NλwTw
当
λ取不同值时,越大的
λ对应越短的权重向量
w,同时对应越小的约束半径
C.这种将
w变小的正则化(+
NλwTw)称为权重衰减。这种正则化可以和任意的转换函数及任意线性模型结合。
Regularization VS VC Theory
通过VC限制说明正则化的优势
Augmented Error表达式如下:
Eaug(w)=Ein(w)+NλwTw
VC Bound表示为:
Eout(w)≤Ein(w)+Ω(H)
其中
wTw表示单个hypothesis的复杂度,记为
Ω(w);而
Ω(H)表示整个hypothesis set的复杂度,则
Ω(w)⊂Ω(H),所以
Eaug(w)更接近
Eout,误差更小。
通过VC维说明正则化的好处
最小化的
Eaug(w)为
w∈Rdˇ+1minEaug(w)=Ein(w)+NλwTw
按照VC理论,
dVC(H)=dˇ+1,考虑所有
w,没有任何限制条件。而引入限制条件后有效的VC维为
dVC(H(C))=dEFF(H,minEaug(w)
A)。即
dVC(H)比较大,因为考虑整个hypothesis set,
dEFF(H,A)比较小,是由于regularized的影响,限制了
w只取一小部分。
对多项式拟合模型,当
λ=0时,所有
w都考虑,相应
dVC大,容易过拟合。当
λ>0并越来越大,
dEFF(H,A)减小,拟合曲线越来越平滑,容易欠拟合。
General Regularizers
通用的Regularizers,即
Ω(w)选取方法一般有3种:
1. target-dependent
根据目标函数的性质设计正则化项,如某目标函数是对称函数,因此权值向量的所有奇数分量应被抑制
2. plausible
正则化项应尽可能地平滑(smooth)或简单(simpler),因为不论是随机性噪音还是确定性噪音都不是平滑的。平滑表示可微,如
l2。简单表示容易求解,如
l1正则化项或稀疏(sparsity)正则化项
3. friendly
易于最优化的求解。如
l2
L2和L1正则化
范数:
∥w∥p:=(i=1∑n∣wi∣p)p1
对于线性回归模型,使用 L1 正则化的模型建叫做 Lasso 回归,使用 L2 正则化的模型叫做 Ridge 回归(岭回归)。
L1:Ω(w)=∥w∥1=∑i∣wi∣L2:Ω(w)=∥w∥22=∑iwi2
L1 Regulariation:凸函数,但是角上无法求导,也就是说优化比较难,顶点处的许多w分量为零,通过正则化之后可以产生稀疏权值矩阵,对于计算和存储都是很大的优势;其正则化效果会使原最优解的元素产生不同量的偏移,并使某些元素为0,从而产生稀疏性。
L2 Regulariation:凸函数,可以求导,并且很方便优化,最后通过正则化之后得到权重值都会偏小;其正则化的效果是对原最优解的每个元素进行不同比例的放缩。
Reference
十四、Regularization
【直观详解】什么是正则化
深入理解L1、L2正则化