讲得很好,记下来以后可以借鉴:
如何跑通第一个模型
面对一个全新的任务时,可能会遇到深度神经网络的训练不收敛的情况:loss不下降或者计算过程中浮点数越界,处理这种情况有一些常见的技巧。总体的思路是尽量简化训练,使得网络参数很容易学,即使性能不够优,切忌在跑通第一个模型前就做很多为性能优化服务的、增加训练难度的事项,例如数据增强、网络加宽加深等。
模型参数选择
- 尽量找一个已经跑通过的、与当前任务相似的任务,借鉴其模型、超参数。任务相似主要包括:数据规模、训练目标(代价函数)、视觉任务的难度上相近。
- 优先使用复杂度较低的网络,一方面可以排除参数太多学不动的问题(Res-Net在这方面有很大优势,几乎不会学不动),一方面可以加快实验迭代效率。
- 用其他任务学好的模型参数做初始化,可以大大加速收敛,即使任务不同也没关系。
- 先调低learning rate,可以等模型收敛后再把learning rate调高。
数据集
- 减小训练集,先在训练集上测试,让模型overfit训练集。
- 确认数据做了random shuffle(特别注意:caffe DataLayer的shuffle是不充分的)。
- 确认数据做了归一化(在使用BN的情况下这一点不太重要),像素的灰度值较大(0-255),容易造成模型参数振荡并越界。
输出调试信息
- 在训练流程中显示输入数据,包括图片和label,这是最容易出错的地方。
- 查看每一层模型权重、每一层的输出是否合理,一般的DL工具会提供绝对值均值、方差。
- loss层输出一些细化的统计量,例如在分类、检测中,输出每个类别的数据量、平均score等。