2020-2-28 深度学习笔记11 - 实践方法论 3（调试策略，示例-数字识别）

第十一章实践方法论

官网

2020-2-27 深度学习笔记11 - 实践方法论 1（性能度量-精度/召回率/PR曲线/覆盖率，默认的基准模型，决定是否收集更多数据）
2020-2-27 深度学习笔记11 - 实践方法论 2（选择超参数）

调试策略

当ML系统效果不好时，通常很难判断原因是来自算法本身，还是算法实现错误，总之，很难调试。我们不能提前知道算法的行为，当测试误差是5%时，不晓得这是期望值还是次优值。

一些重要的调试策略：

可视化计算中模型的行为：实际中很容易量化性能度量，如准确率或对数似然。很有用，及早做出判断。调试CRF代码时不断可视化生成图片，开始是奇奇怪怪的，想为什么会这样，然后对症下药调试。
可视化最严重的的错误：实际上模型的较小概率不太可能对应着正确的标签，因此可利用这一点。比如根据置信度将图像排序，确定置信度最高的错误，可能会找到些问题的。

根据训练和测试误差找线索，训误差低测高，很可能训练正常，但模型过拟合了。或者测试数据和训练数据预处理方式不同。或者测试误差没有被正确度量。训高测高，有可能软件错误，或者模型欠拟合。需要下列的进一步测试。

拟合极小的数据集：训高测高，有可能软件错误，或者模型欠拟合。通常即使小模型也可很好的拟合一个足够小的数据集。例如，如果不能训练一个分类器来正确标注一个单独的样本，则很有可能是软件错误。
比较反向传播导数和数值导数：若软件中实现梯度计算，则常见错误是没能正确实现梯度表达。这点暂不用考虑，因为caffe，TF等框架中均有BP操作接口。
监控激活函数值和梯度的直方图：激活函数值指示出某单元是否饱和，饱和频率如何。梯度快速增长或消失，将对优化不利。2015年有建议说我们希望参数在一个小批量更新中变化幅度是参数量值的1%，而非50%或者0.001%。

示例：数字识别

本节用一个“街景转录系统”设计与实现，来串起本章的整个过程。

step1.首先这个过程要采集数据。

街景车收集原始数据，然后操作员手动提供标签。转录任务开始前有大量的数据处理工作，包括在转录前使用其他机器学习技术探测房屋号码。

step2.选择量化目标 ( $98\%$ )

性能度量的选择和对这些度量的期望值。一个重要的总原则是度量的选择要符合项目的业务目标。地图只有是高准确率时才有用，所以为这个项目设置高准确率的要求非常重要。

具体地，目标是达到人类水平， $98\%$ 的准确率。为了达到这个级别的准确率，街景转录系统牺牲了覆盖。因此在保持准确率 $98\%$ 的情况下，覆盖成了这个项目优化的主要性能度量。

随着卷积网络的改进，我们能够降低网络拒绝转录输入的置信度阈值，最终超出了覆盖 $95\%$ 的目标。

step3.建立一个合理的基准系统 (带有整流线性单元的卷积网络)

对于视觉任务而言，基准系统是带有整流线性单元的卷积网络。

开始时，我们使用一个尽可能简单的基准模型，该模型输出层的第一个实现包含 $n$ 个不同的softmax单元来预测 $n$ 个字符的序列。我们使用与训练分类任务相同的方式来训练这些softmax单元，独立地训练每个softmax单元。

反复细化这些基准，并测试每个变化是否都有改进。
街景转录系统的第一个变化受激励于覆盖指标的理论理解和数据结构。当输出序列的概率低于某个值 $t$ 即 $p(y\mid x) < t$ 时，网络拒绝为输入 $x$ 分类。
最初，p(y｜x)的定义是临时的，简单地将所有softmax函数输出乘在一起。这样能够真正计算出合理对数似然的特定输出层和代价函数。使得样本拒绝机制更有效。

step4.综合训练集和测试集性能

综合训练集和测试集性能，确定问题是否是欠拟合或过拟合。

因为这个项目训练和测试集的误差是如此相似，这表明要么是这个问题欠拟合，要么是训练数据的问题。

推荐的调试策略之一是可视化模型最糟糕的错误。
在这种情况下，这意味着可视化不正确而模型给了最高置信度的训练集转录结果。结果显示，主要是输入图像裁剪得太紧，有些和地址相关的数字被裁剪操作除去了。例如，地址”1849”的图片可能裁切得太紧，只剩下”849”是可见的。项目团队系统性扩大裁剪区域的宽度，使其大于地址号码检测系统预测的区域宽度。这种单一改变将转录系统的覆盖提高了10个百分点。

step 5.调整超参数

保持一些计算代价限制的同时加大模型的规模。因为训练误差和测试误差保持几乎相等，所以明确表明性能不足是由欠拟合造成的，数据集本身也存在一些问题。

调整超参数也使性能提升了几个百分点。

没人不认识我

发布了151 篇原创文章 · 获赞 10 · 访问量 2万+

私信关注