深度学习的batch_size

知乎讨论:

https://www.zhihu.com/question/61607442/answer/204675996

案例一

http://www.myzaker.com/article/5a68020fd1f1495d57000030/

Training Imagenet in one hour

本篇论文发现了 large batch 可以大大的提升分类网络的收敛速度,通过把 batch size 从 256 提升到 8192,将训练时间从几周降低到了 1 个小时,大大提升了神将网络的训练速度。

案例二

insightface 人脸识别讨论

batch size越大越好

实际中,受限于显卡内存的限制,batch_size不能无限增大,导致网络收敛速度慢。

从统计学的角度来看,batch_size越大意味着,参与计算各种mean计算的结果(BN, avg Grident)越准确.

猜你喜欢

转载自www.cnblogs.com/adong7639/p/9728547.html
今日推荐