在训练过程中跑验证集导致显存out of memory问题。

编程语言 2022-09-04 10:43:03 阅读次数: 0

文章目录

前言
正文
总结

前言

在训练模型时，笔者想要每训练一个epoch，记录一下val的准确率，但是每当训练完第一个epoch开始准备跑val数据集的时候，就会出现显存double然后溢出的情况（batch_size在验证和训练时设置相同）。此处将复现笔者出现的问题，并给出解决方案。

正文

原始训练流程：

for eopch in epochs:
	for data,label in train_dataloader：
		model.train()
		train(model,data,label)
	model.eval()
	val(model,test_dataloader)
	#会在执行val的时候显存double,然后out of memory。

改进后训练流程：

for eopch in epochs:
	for data,label in train_dataloader：
		model.train()
		train(model,data,label)
	model.eval()
	with torch.no_grad():
		val(model,test_dataloader)

此时显存不再溢出。

总结

在模型验证时，仍计算梯度，导致模型显存溢出。加上with torch.no_grad():问题解决。

猜你喜欢

转载自blog.csdn.net/qq_44554428/article/details/124546598

在训练过程中跑验证集导致显存out of memory问题。

YOLOv5训练过程中验证集不加载标签问题的解决方法

Delphi out of memory的问题

pycharm 遇到out of memory 问题

linux out of memory 问题分析

解决Caffe训练过程中loss不变问题

训练过程中的一些问题

训练过程中，出现样本错误的问题

深度学习训练过程中的问题&解决

【yolox训练过程中遇到的问题集合】

pytorch中cuda out of memory问题

明明显存足够但是报错CUDA out of memory的问题

elasticsearch java heap out of memory问题

linux 问题 out of memory : kill process......

如何解决 Out Of Memory 的问题

有关linux下redis overcommit_memory的问题，以及导致的：Cannot allocate memory问题

GIT问题：fatal: Out of memory, malloc failed问题的解决

TensorFlow之tf.nn.dropout()：防止模型训练过程中的过拟合问题

Tensorflow学习笔记6：解决tensorflow训练过程中GPU未调用问题

关于训练过程中损失函数出现断崖式增长的问题

超分网络训练过程中val出现颜色变化的问题

解决：pytorch-ssd在训练过程中遇到的一系列问题

SSD训练过程中出现问题总结

解决webstorm out of memory内存不足问题

改进yolov7时出现CUDA out of memory问题

WebStorm出现out of memory问题，开始狂吃内存

如何解决“RuntimeError: CUDA Out of memory”问题

bootstrap.memory_lock: true导致Elasticsearch启动失败问题

linux上遇到tomcat报Out of Memory错误，导致jenkins崩溃的问题

如何处理GPU训练过程中出现内存申请大小为0的错误【The memory alloc size is 0】

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)