26 训练集上的误差分析(Error analysis on the training set)

想要算法在开发机/测试集上表现的好,必须先在训练集上表现的好。

作为对上一节讲的解决高偏差问题的补充, 我有时也遵循和在开发集上进行误差分析相似的原则,在训练集上进行误差分析。这种方式在高偏差的算法上很有用处,比如算法没有拟合训练集。

例如,你要创建为app一个语言识别系统,从志愿者那里收集了很多音频片段。如果系统在训练集上表现不好,为了搞清楚训练集上算法主要的出错类型,你可能会考虑听听算法表现比较差的100个左右的样本。类似于开发集误差分析,你可以数一下不同种类错误的数量。

通过这个例子,你可能意识到算法在训练集有很多背景噪音时表现的不好。因此,你可以专注于使算法更好地拟合有背景噪音的训练集

你可能要仔细检查对于普通人来说是否能够正常转录训练集中的音频片段,给算法输入正常人能够转录的音频。如果音频中包含很多噪音,连人都无法识别说的是什么,那么就没有理由期望算法能够正常识别音频中的内容。我们将会在下一节中讨论将算法能力和人的能力进行比较的好处。

猜你喜欢

转载自blog.csdn.net/weixin_35576881/article/details/84840304