A Powerful Generative Model Using Random Weights for the Deep Image Representation笔记

论文确认了这些网络的局部极小值是不同的:

实验表明,不同的最优化方法会找到不同的极小值,即使在训练过程中非常靠后的阶段,从一种方法切换至另一种方法,也同样如此。此外,我们发现,不同最优化方法找到的极小值具有不同的形状,但这些极小值在最重要的度量——泛化精度上是相似的。

这表明,你对学习算法的选择“操纵”着算法如何得出最终结果。随机性是无所不在的,无论你如何规范自己的网络或者使用何种SGD变种算法,网络都会趋近于收敛(如果你设置了正确的随机条件)!SGD的什么性质使机器具备了学习的能力?是同分化关联的属性还是其他更一般的属性?如果我们可以让一个网络学会执行SGD,那么我们能够教会它执行这种未知的广义学习方法吗?



猜你喜欢

转载自blog.csdn.net/alva_bobo/article/details/78553745