大的batchsize 降低了模型泛化能力 - 代码天地

大的batchsize 降低了模型泛化能力

其他 2021-03-23 13:03:06 阅读次数: 0

最近在跑ImageNet 数据集，在弄到了一个很好的服务器以后，我把模型训练从原来的batchsize=128调到可512,这个时候突然发现模型训练的准确度降低了很多。一开始我以为是我模型的问题，我把模型稍微修改了，然后把学习率之类的也进行了调整，最后发现这个问题还是存在。这个时候我才意识到这个不一定时我的模型的问题了。也许是batchsize的问题了，然后我进行了一些文献的调查发现确实有这些问题。

然而在早期深度学习，过大的 batch size 训出的模型往往会比小 batch size 训出的模型差, 人们深入地探讨了这种现象。他们发现在训练集准确率一致时，用大 batch size 训练得到的模型的泛化性能会明显低于小 batch size 训练的模型，并将其称为 generalization gap。他们使用 sharp/flat minima 的猜想去解释 gap 的产生，并提出了一个简单的 sharpness 的估计方案去论证大 batch size 训练收敛到的解比较 sharp。

ON LARGE-BATCH TRAINING FOR DEEP LEARNING: GENERALIZATION GAP AND SHARP MINIMA

猜你喜欢

转载自blog.csdn.net/nijiayan123/article/details/109853301

大的batchsize 降低了模型泛化能力

batchsize和模型精度的影响

batchsize大小对网络模型的理解

fetchSize and batchSize

深度学习神经网络加大batchsize训练速度降低的原因（GPT）

大模型的涌现能力介绍

模型评价之五——模型泛化能力

影响模型收敛最重要的两个参数Batchsize和learn_rate

epoch如何设置_最易懂的方式介绍神经网络模型中的Epoch、Iteration、Batchsize

一次输入多个数据-batchsize大于1的简单的线性回归模型-标量

性能度量——评价生成模型法人泛化能力

【深度学习】常见的提高模型泛化能力的方法

大模型的涌现能力 (Emergent Abilities of LLM)

大模型的能力边界在哪里？

AIGC等大模型能力提升计划

CLiB中文大模型能力评测榜单

利用大模型训练提升AI能力

泛化能力

【数字化转型】10大数字化转型能力成熟度模型03

【数字化转型】10大数字化转型能力成熟度模型01（IOMM）

batchsize等内容解释

batchsize iteration epoch解释

谈谈batchsize参数

batchsize、iter、epoch

Batchsize与learning rate

如何设置batchsize

修改onnx batchsize

当db_cache_advice初始化参数设为on, 大大降低了cpu的使用

LLM：大模型的正则化

[DataAnalysis]机器学习预测模型评估与性能度量——衡量模型泛化能力的指标

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)