网络训练积累 -- 如何跑通第一个模型

讲得很好,记下来以后可以借鉴:

如何跑通第一个模型

面对一个全新的任务时,可能会遇到深度神经网络的训练不收敛的情况:loss不下降或者计算过程中浮点数越界,处理这种情况有一些常见的技巧。总体的思路是尽量简化训练,使得网络参数很容易学,即使性能不够优,切忌在跑通第一个模型前就做很多为性能优化服务的、增加训练难度的事项,例如数据增强、网络加宽加深等

模型参数选择

  • 尽量找一个已经跑通过的、与当前任务相似的任务,借鉴其模型、超参数。任务相似主要包括:数据规模、训练目标(代价函数)、视觉任务的难度上相近。
  • 优先使用复杂度较低的网络,一方面可以排除参数太多学不动的问题(Res-Net在这方面有很大优势,几乎不会学不动),一方面可以加快实验迭代效率。
  • 用其他任务学好的模型参数做初始化,可以大大加速收敛,即使任务不同也没关系。
  • 先调低learning rate,可以等模型收敛后再把learning rate调高。

数据集

  • 减小训练集,先在训练集上测试,让模型overfit训练集。
  • 确认数据做了random shuffle(特别注意:caffe DataLayer的shuffle是不充分的)。
  • 确认数据做了归一化(在使用BN的情况下这一点不太重要),像素的灰度值较大(0-255),容易造成模型参数振荡并越界。

输出调试信息

  • 在训练流程中显示输入数据,包括图片和label,这是最容易出错的地方。
  • 查看每一层模型权重、每一层的输出是否合理,一般的DL工具会提供绝对值均值、方差。
  • loss层输出一些细化的统计量,例如在分类、检测中,输出每个类别的数据量、平均score等。

猜你喜欢

转载自blog.csdn.net/s000da/article/details/81029173