一文搞定正则化(作用,方法,原理)

目录

正则化作用

正则化方法

正则化原理


在深度学习中,如果模型设计的太过复杂,就会出现过拟合的现象,为了解决过拟合现象的发生,人们提出了正则化这么一个概念。

如果您对过拟合不太熟悉的话,请看我之前的文章:【深度学习】彻底理解过拟合和欠拟合

一、正则化的作用

正则化的作用就是防止模型出现过拟合的现象,增强模型的泛化能力。

二、正则化的方法

在二分类问题中,损失函数为:L\left ( \widehat{y},y \right )=-\left (y log \widehat{y} +\left ( 1-y \right )log\left ( 1-\widehat{y} \right )\right )

有了正则化之后,损失函数变为:L\left ( \widehat{y},y \right )=-\left (ylog\widehat{y}+\left ( 1-y \right )log\left ( 1-\widehat{y} \right ) \right )+\frac{\lambda }{2m}\sum \left \| w^{[l]}\right \|^{2}

这样做有什么好处呢?可以起到惩罚权重的效果,可能有人会问:“怎么看出来它是惩罚权重的”?听我解释咯。

未有正则化的时候:

w^{[l]}=w^{[l]}-\alpha dw^{[l]}

有了正则化:

w^{[l]}=w^{[l]}-\alpha \left (dw^{[l]}+\frac{\lambda }{m} w^{[l]} \right )=w^{[l]}-\frac{\alpha \lambda }{m}w^{[l]}-\alpha dw^{[l]}

       =\left (1-\frac{\alpha \lambda }{m} \right )w^{[l]}-\alpha dw^{[l]}

可以看出有了正则化之后,w^{[l]}的系数1-\frac{\alpha \lambda }{m}<1,而未有正则化的时候,w^{[l]}的系数为1,所以就起到了惩罚权重(降低权重值)的效果。

三、正则化的原理

正则化可以惩罚权重,那么惩罚权重背后又有什么原理呢?

我们知道惩罚完权重之后,得到的权重w会变小,而z=w^{T}\times X+b,则z的值也会变小,我们知道函数z还要经过激活函数,我们假设经过的激活函数为sigmoid的激活函数,在由于z的值变小,那么就会落在下图的这个区域:

可以看到落在这个区域的话,其实相当于即使经过了激活函数,我们的模型仍然是线性模型,而线性模型结构简单,就会降低出现过拟合的可能,这就是正则化的原理。

如果您觉得文章对你有帮助,点个关注不迷路~

深度学习交流QQ群:1147776174

获取深度学习资料以及更多深度学习课程,扫描下方公众号,回复“资料”两字即可获取,祝您学习愉快。

猜你喜欢

转载自blog.csdn.net/qq_38230338/article/details/107740858