吴恩达机器学习训练秘籍整理二十到二十七章(三)

第二十章:

偏差和方差:误差的两大来源

你的猫识别器在开发集上的错误率是16%,训练集上的错误率是15%。

偏差:在训练集上的错误率。15%

方差:开发集上的表现比训练集差多少。16%-15%=1%

总误差  = 偏差+方差 = 16%

第二十一章:

通过偏差和方差来定义欠拟合和过拟合

训练集错误率:1%

开发集错误率:11%

方差为:10%

训练集误差低,开发集误差高。这就是过拟合。

训练集错误率:15%

开发集错误率:16%

方差为:1%

训练集和开发集误差都很高。这就是欠拟合。

训练集错误率:0.5%

开发集错误率:1%

方差为:0.5%

训练集合开发集误差都很低。拟合的很好。

第二十二章:

假设在一个语音设别算法中有14%的语音片段声音嘈杂即使是人类也无法识别。假设我们的算法:

训练集错误率:15%

开发集错误率:30%

那么:

最优错误率(‘不可避免偏差’):14%    即使是世界上最好的语音系统,仍会有 14% 的误差。

可避免偏差:15%-14%=1%  即训练错误率和最优误差率之间的差值。

方差:15%  即开发错误和训练错误之间的差值。

最优错误率也被称为贝叶斯错误率(Bayes error rate),或贝叶斯率。

第二十三章:

如何处理偏差和方差

处理偏差(主要是欠拟合):加深网络结构,L2正则化,BN层等等

处理方差(主要是过拟合):增加数据集,dropout,正则化等等

第二十四章:

偏差和方差之间的权衡。

第二十五章:

避免偏差的技术:

1.加深网络结构

2.减少或者去除正则化

3.根据误差分析来修改输入特征

4.修改模型结构

第二十六章:

训练集误差分析

训练数据上进行误差分析,处理方式类似于在开发集上设置一个 Eyeball 开发集。当你的算法有着高偏差时(例如算法没有很好拟合训练集的时候)这将有所帮助。

第二十七章:

减少方差的技术:

1.增加训练数据

2.加入正则化

3.加入提前终止

4.减少输入特征的数量和种类

5.减小模型规模

猜你喜欢

转载自blog.csdn.net/donkey_1993/article/details/83088272