Deep learning II - I Practical aspects of deep learning - Regularizing your neural network 神经网络范数正则化

Regularizing your neural network 神经网络正则化

Logistic regression regularization

先用简单的逻辑回归正则化作为例子，因为神经网络的参数 $W$ 是2维的。

无正则

$J (w, b) = \frac{1}{m} \sum_{i = 1}^{m} L ({\hat{y}}^{(i)} - y^{(i)})$ $J(w,b) = \frac{1}{m} \sum_{i=1}^{m} {\cal L}(\hat{y}^{(i)} - y^{(i)})$
$L_2$ 正则

$J (w, b) = \frac{1}{m} \sum_{i = 1}^{m} L ({\hat{y}}^{(i)} - y^{(i)}) + \frac{λ}{2 m} | | w | |_{2}^{2}$ $J(w,b) = \frac{1}{m} \sum_{i=1}^{m} {\cal L}(\hat{y}^{(i)} - y^{(i)}) + \frac{\lambda}{2m}||w||^2_2$
$| | w | |_{2}^{2} = \sum_{j = 1}^{n_{x}} w_{j}^{2} = w^{T} w$ $||w||^2_2 = \sum_{j=1}^{n_x}w_j^2 = w^Tw$
$L_1$ 正则
$J (w, b) = \frac{1}{m} \sum_{i = 1}^{m} L ({\hat{y}}^{(i)} - y^{(i)}) + \frac{λ}{m} | | w | |_{1}$ $J(w,b) = \frac{1}{m} \sum_{i=1}^{m} {\cal L}(\hat{y}^{(i)} - y^{(i)}) + \frac{\lambda}{m}||w||_1$

| | w | |_{1} = \sum_{j = 1}^{n_{x}} | w |_{j}

$||w||_1 = \sum_{j=1}^{n_x}|w|_j$

Neural network regularization

Frobenius正则(类似 $L_2$ 正则)
$J (w^{[1]}, b^{[1]}, \dots, w^{[l]}, b^{[l]}) = \frac{1}{m} \sum_{i = 1}^{m} L ({\hat{y}}^{(i)}, y^{(i)}) + \frac{1}{2 m} \sum_{l = 1}^{L} | | w^{[l]} | |_{F}^{2}$ $J(w^{[1]},b^{[1]}, \cdots , w^{[l]},b^{[l]}) = \frac{1}{m} \sum_{i =1}^m {\cal L}(\hat{y}^{(i)}, y^{(i)}) + \frac{1}{2m} \sum_{l=1}^L ||w^{[l]}||_F^2$
$| | w^{[l]} | |_{F}^{2} = \sum_{i = 1}^{n^{[l]}} \sum_{j = 1}^{n^{[l - 1]}} (w_{i j}^{[l]})^{2}$ $||w^{[l]}||_F^2 = \sum_{i = 1}^{n^{[l]}} \sum_{j = 1}^{n^{[l-1]}}(w^{[l]}_{ij})^2$

相较于无正则化的反向传播，正则化的反向传播在更新 $W$ 时，会对其进行权重衰减（weight decay），并下降。

d w^{[l]} = (f r o m b a c k p r o p a g a t i o n) + \frac{λ}{m} w^{[l]}

${\rm d}w^{[l]} = (from\ backpropagation) + \frac{\lambda}{m}w^{[l]}$

\begin{aligned} w^{[l]} : & = w^{[l]} - α d w^{[l]} \\ = w^{[l]} - α \frac{λ}{m} w^{[l]} - α (f r o m b a c k p r o p a g a t i o n) \\ = (1 - α \frac{λ}{m}) w^{[l]} - α (f r o m b a c k p r o p a g a t i o n) \end{aligned}

$\begin{split}w^{[l]}: &=w^{[l]} - \alpha {\rm d}w^{[l]} \\&= w^{[l]} - \alpha \frac{\lambda}{m}w^{[l]} - \alpha (from\ backpropagation) \\&= (1- \alpha \frac{\lambda}{m})w^{[l]} - \alpha (from\ backpropagation)\end{split}$

这里写图片描述

Deep learning II - I Practical aspects of deep learning - Regularizing your neural network 神经网络范数正则化

Regularizing your neural network 神经网络正则化

Logistic regression regularization

Neural network regularization

猜你喜欢