深度学习基础--从傅里叶分析角度解读深度学习的泛化能力

从傅里叶分析角度解读深度学习的泛化能力

  从论文《Training behavior of deep neural network in frequency domain》中可以得到以下结论:
  频率原则可以粗糙地表述成:DNN 在拟合目标函数的过程中,有从低频到高频的先后顺序。
  DNN 从目标函数的低频成分开始学习。当它学到训练数据的最高频率的时候,此时频率空间误差趋近于零。因为频率空间的误差等于实域空间的误差,所以它的学习也基本停止了。这样深度学习学到的函数的最高频率能够被训练数据给限制住。对于小的初始化,激活函数的光滑性很高,高频成分衰减很快,从而使学习到的函数有更好的泛化能力。

  对于低频占优的目标函数,小幅度的高频成分很容易受到噪音的影响。基于频率原则,提前停止训练(early-stopping)就能在实践中提高 DNN 的泛化能力。

  从低频到高频的学习原则并不总是对的。因为这个优先级不只是由频率决定,它也依赖于拟合函数与目标函数的差的幅度。

其他理解

  在做实验时也发现类似现象得出相似观点结论。
  在做mlp(2层)分类cifar10实验时,在训练过程中同时将mlp学习到的权重可视化显示,其第一层权重可视化后是通过数据机集学习的模板,这些模板在训练开始时只是粗略的低频的形状,而且平滑噪声较小,随着训练过程的继续,这些模板开始具体,有的像汽车、狗、马等,很模糊,高频噪声也比较小,当后面过拟合时则模板上出现很严重的噪声。
  当对权重加强规则化后,与原来相比模板变模糊,但是高频噪声也减弱不少。
  我还得出一个结论,卷积网络比全连接性能好的原因是卷积核学习到了数据的局部高频信息,而全连接训练到最后高频信息是全局的不具有泛化性造成模板出现全局噪声,而卷积神经网络则将这些高频信息学习到了尺度较小的卷积核上。

猜你喜欢

转载自blog.csdn.net/wydbyxr/article/details/83858892
今日推荐