使用GPU训练模型遇到的问题 - 代码天地

使用GPU训练模型遇到的问题

其他 2020-04-09 17:36:47 阅读次数: 0

使用GPU训练模型，遇到显存不足的情况：开始报chunk xxx size 64000的错误。使用tensorflow框架来训练的。
仔细分析原因有两个：

数据集padding依据的是整个训练数据集的max_seq_length，这样在一个批内的数据会造成额外的padding，占用显存；
在训练时把整个训练数据先全部加载，造成显存占用多。

如果遇到第一种情况，即使使用CPU训练速度也非常慢。
对于第二种情况，要使用generator来解决。不要加载全部数据，要分批加载，根据一个批内的最大length来填充，同时也要限制最大length的长度。丢弃部分很长的数据。

而且，如果使用bert时，会对seq_length有限制。

tensorflow 1.12限制只使用CPU：

import os
os.environ['CUDA_VISIBLE_DEVICES'] = '-1'

林子要加油

发布了62 篇原创文章 · 获赞 11 · 访问量 2万+

私信关注

猜你喜欢

转载自blog.csdn.net/real_ilin/article/details/105206866

使用GPU训练模型遇到的问题

模型训练遇到的问题

使用 GPU 版本的 TensorFlow 训练模型时，遇到 GPU 显存分配的错误

keras使用GPU训练模型

[Keras] 使用多 gpu 并行训练并使用 ModelCheckpoint() 可能遇到的问题

使用GPU 训练Tensorflow/Keras 的CNN模型

Colab配置: 使用gpu训练模型

pytorch-使用GPU加速模型训练

Keras下使用多GPU训练模型

Pytorch下使用多GPU训练模型

Keras多gpu训练模型后权重文件无法在cpu或者单gpu机器使用的问题

如何确定模型训练时是否使用了GPU训练

pytorch 单机多GPU训练RNN遇到的问题

加载预训练模型遇到transformers的问题

GPU AI 模型训练

指定GPU训练模型

windows10+keras-gpu+pycharm使用yolo V3训练粮虫的自制数据集遇到的问题总结

pytorch GPU训练好的模型使用CPU加载

【tensorflow2.0】使用单GPU训练模型

Pytorch实战总结篇之使用GPU训练模型

【AMD GPU】使用A卡进行ai模型训练

Linux中tensorflow2使用GPU训练模型

PPOCR -训练模型转推理模型遇到的问题

使用指定GPU训练模型：os.environ[‘CUDA_VISIBLE_DEVICES‘]设置无效问题解决——随笔

使用Keras训练数据的过程遇到的问题

用GPU进行训练模型

TensorFlow 指定 GPU 训练模型

GPU测试代码模型训练

tensorflow使用GPU训练

Pytorch：使用GPU训练

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)