首发Yolov8优化:Adam该换了!斯坦福最新Sophia优化器,比Adam快2倍 | 2023.5月斯坦福最新成果

  1.Sophia优化器介绍        

        斯坦福2023.5月发表的最新研究成果,他们提出了一种叫Sophia的优化器,相比Adam,它在LLM上能够快2倍,可以大幅降低训练成本

 论文:https://arxiv.org/pdf/2305.14342.pdf

         本文介绍了一种新的模型预训练优化器:Sophia(Second-order Clipped Stochastic Optimization),这是一种轻量级二阶优化器,它使用Hessian对角线的廉价随机估计作为预调节器,并通过限幅机制来控制最坏情况下的更新大小。在GPT-2等预训练语言模型上,Sophia以比Adam少了50%的步骤,且实现了相同的预训练损失。

        作者表示 Adam 对于异构曲率(heterogeneous curvatures)的适应性不足。另一方面,vanilla Newton 方法在凸函数中具有最优的 pre-conditioner&#

猜你喜欢

转载自blog.csdn.net/m0_63774211/article/details/130912702