深度学习阅读笔记

第7章 深度学习中的正则化

正则化目的:用来减少泛化误差

7.1 参数泛化惩罚,如L2参数正则化

7.2 作为约束的范数惩罚,即在原始的目标函数上添加一系列惩罚项

7.3正则化和欠约束问题,大多数形式的正则化能够保证应用于欠约定问题的迭代方法收敛

7.4数据集增强,数据集不够或者鲁棒性不好时,需要构造一些假样本,如加入噪声,图片倾斜等等。

7.5噪声鲁棒性。注入噪声远比简单地收缩参数强大,特别是噪声被添加到隐藏单元时会更加强大。

向输出目标注入噪声:大多数数据集的输出标签都有一定错误的,因此可以使用标签平滑方法,增则化k个输出的softmax函数的模型。

7.6半监督学习。使用主成分分析作为分类前的预处理步骤

7.7多任务学习。参数共享,多个输出标签

7.8提前终止。对于一些会过拟合的大模型时,训练误差会随着时间的推移逐渐降低但验证集的误差会再次上升,这时就需要提前终止。

7.9参数绑定和参数共享。如卷积网络

7.10稀疏表示。惩罚神经网络中的激活单元。

7.11Bagging和其它集成方法

7.12Dropout

7.13对抗训练

7.14切面距离/正切传播和流形正切分类器

第8章 深度模型中的优化

1 小批量随机优化,更大的批量需要更多内存,回报可能却小于线性。gpu一般使用2的幂数会获得更少的运行时间

2 除非训练集特别大,通常最好是多次遍历训练集。但欠拟合和计算效率却是问题。否则是过拟合

3 随机梯度下降(SGD)是最受欢迎的方法,但学习过程有时会很慢,动量方法旨在加速学习,特别是处理高曲率/小但一致的梯度,或是带噪声的梯度。

4 一般初始化模型的权重为高斯或均匀分布中随机抽取的值

5 自适应学习率算法。AdaGrad/Adam

发布了127 篇原创文章 · 获赞 10 · 访问量 24万+

猜你喜欢

转载自blog.csdn.net/u012599545/article/details/86560734
今日推荐