深度学习为何泛化好？CMU博士论文《解释深度学习中的泛化性》

点上方人工智能算法与Python大数据获取更多干货

在右上方 ··· 设为星标 ★，第一时间获取资源

仅做学术分享，如有侵权，联系删除

转载于：专知

深度学习具有良好的泛化性。如何对此进行理论性解释，一直是研究热点。来自CMU的博士生Vaishnavh Nagarajan对深度学习泛化性进行了系统性研究，并整理成博士论文，值得关注！

Vaishnavh Nagarajan

研究方向是机器学习的理论基础，着迷于理解现代机器学习算法何时以及为何工作(或不工作)。我的博士论文就是解释为什么深度网络能很好地泛化。除此之外，我还研究了模型什么时候和为什么不能泛化分布外，GAN什么时候和为什么收敛到期望的鞍点。

https://www.cs.cmu.edu/~vaishnan/home/index.html

本文研究了深度学习理论中一个基本的开放挑战: 为什么深度网络在过度参数化、非正则化和拟合训练数据为零误差的情况下仍能很好地泛化? 在论文的第一部分，我们将实证研究如何通过随机梯度下降训练深度网络隐式控制网络容量。随后，为了说明这如何导致更好的泛化，我们将推导基于数据的一致收敛的泛化边界，并改进参数计数的依赖性。由于其简单性和通用性，一致收敛实际上已经成为深度学习文献中使用最广泛的工具。鉴于它的流行，在这篇论文中，我们也将后退一步，确定一致收敛的基本极限，作为解释泛化的工具。特别地，我们将证明在一些过度参数化的设置的例子中，任何一致收敛界将只提供一个空洞的泛化界。考虑到这一点，在论文的最后一部分，我们将改变航向，并引入一种经验技术来估计使用未标记数据的泛化。我们的技术不依赖于任何基于一致收敛的复杂性概念，而且非常精确。我们将从理论上说明为什么我们的技术如此精确。最后，我们将讨论未来的工作如何探索在泛化边界中纳入分布假设的新方法(例如以未标记数据的形式)，并探索其他工具来推导边界，可能是通过修改统一收敛或开发完全新的工具。

在这篇论文的第一部分，我们将讨论在深度网络泛化界的多个发现。如前所述，这些结果符合泛化理论的间接框架(第1.3.2节)。这些章节依赖于一致收敛的工具，它本质上是一种学习理论工具，可以根据复杂性量化泛化——我们将在第二章讨论这个问题。详细:

在第3章中，我们将提供经验和理论论证，说明复杂性和内隐偏差的度量不能与深度网络的随机初始化无关。
在接下来的几章中，我们将推导一些基本的结果，这些结果将帮助我们最终在第7章中推导出深层网络的PAC-Bayesian边界: (a) PAC-Bayesian技术通常会给我们一个随机模型的边界，其中权重是随机变量。然而，深层网络是确定性模型。为了将PAC-Bayesian界限转化为确定性网络，我们必须正式限定深度网络对参数扰动的弹性程度。在第四章中，我们对深度网络的噪声恢复特性进行了广泛的分析。(b) 在第5章中，我们将推导出一种新的、通用的PACBayesian边界去随机化技术。(c) 通常基于规范的复杂性概念对训练数据是不可知的。在第6章中，我们将提供一个使用上述去随机化技术的方法，来推导包含数据依赖的复杂度概念的边界。
在第7章中，我们将把上述所有发现合并成一个数据依赖的、确定性的PAC-Bayesian神经网络界。我们的界限捕获了隐含偏差的两个概念——初始化距离和损失景观的平坦度——不同于现有的界限，它不会受到深度的指数依赖性的影响。

在本文的第二部分，我们使用一致收敛来建立深度学习泛化理论。然后，我们将讨论一些初步步骤，以超越一致收敛，结果是高预测性的界限。特别是:

在第8章中，我们将报告经验观察，表明许多现有的基于规范的复杂性度量(源于基于一致收敛的分析)未能捕捉到一个关于泛化的琐碎事实:泛化随着训练集的大小而改善。
受上述缺点的激励，以及到目前为止，严格的一致收敛界仍然难以实现这一事实，在第9章中，我们将证明，在某些情况下，由于过度参数化，任何一致收敛界都证明不能解释泛化。
在论文的最后部分，我们将以一些乐观的态度结束。在第10章，我们将采取一种完全不同的方法来经验估计泛化差距: 通过使用未标记的数据和使用模型之间的分歧，而不是复杂性。正如我们将看到的，这个估计在实践中是非常精确的。
在第11章，我们将从理论上解释为什么经验估计具有如此显著的精度，从而使它成为一个理论基础估计。

在论文的第三部分，我们将总结论文，首先提供一个总结的结果。然后，我们将讨论解释泛化意味着什么的一些哲学方面的问题，特别是参照第10章中使用未标记数据来提供估计的方法。

---------♥---------

声明：本内容来源网络，版权属于原作者

图片来源网络，不代表本公众号立场。如有侵权，联系删除

AI博士私人微信，还有少量空位

如何画出漂亮的深度学习模型图？

如何画出漂亮的神经网络图？

一文读懂深度学习中的各种卷积

点个在看支持一下吧

深度学习为何泛化好？CMU博士论文《解释深度学习中的泛化性》

猜你喜欢