pytorch中Dataloader读取数据太慢的问题

企业开发 2023-06-11 19:51:20 阅读次数: 0

文章目录

pytorch中Dataloader读取数据太慢的问题

pytorch中Dataloader读取数据太慢的问题

数据读取的速度远远大于GPU训练的速度，导致整个训练流程中有大部分时间都在等待数据发送到GPU，在资源管理器中呈现出CUDA使用率周期性波动，且大部分时间都是在等待数据加载。
cuda使用率可能很低或者为0：

在这里插入图片描述

1. 方法

在dataset中，会将数据从磁盘读入内存中，如果启用了dataloader中的pin_memory，就会让数据常驻内存，同时设置num_workers还能实现多进程读取数据，但即使设置了这些，数据加载速度依然没有质的提升。

2. 方法

dataset中的transform是导致性能慢的一个原因，dataset中有个函数为__getitem__，每获取一个数据就会让这个数据过一次transform。

transform = transforms.Compose([
transforms.RandomHorizontalFlip(),
transforms.ToTensor(),
transforms.Normalize([0.4914, 0.4822, 0.4465], [0.5, 0.5, 0.5])
])

如果把__getitem__中的一些操作移到 __init__中。

这样__getitem__直接取索引即可。

3. 解决方法：提取加载数据

编写datast的__init__函数的时候
1)提前加载所有数据到cpu
2)或者提前加载所有数据直接加载到GPU：这个要求显存够大
3)__get_item__项目尽量少，尽量再1，2步预处理数据中完成。
4)存大图降低存取次数

很好的博客：https://blog.csdn.net/Twilightzsj/article/details/123941780

https://www.cnblogs.com/pprp/p/14199865.html
https://blog.csdn.net/qq_42255269/article/details/127528662

猜你喜欢

转载自blog.csdn.net/tywwwww/article/details/131080667

pytorch中Dataloader读取数据太慢的问题

Pytorch的DataLoader多线程读取问题

Pytorch: 数据读取机制Dataloader与Dataset

pytorch不定长数据的dataloader读取

[Pytorch]PyTorch Dataloader自定义数据读取

Pytorch中的数据转换Transforms与DataLoader

Pytorch加载自己的数据集(使用DataLoader读取Dataset)

Pytorch框架学习路径(七：数据读取机制DataLoader与Dataset)

聊聊pytorch中的DataLoader

pytorch中的DataLoader

pytorch中Dataloader()中的num_workers设置问题

PyTorch 中的数据类型 torch.utils.data.DataLoader

语义分割中的数据生成器dataloader(pytorch版)

PyTorch中torch.utils.data.DataLoader加载数据

pytorch中的dataset和DataLoader创建数据集进行训练

深度之眼Pytorch打卡（七）：Pytorch数据读取机制，DataLoader()和Dataset

PyTorch1.0中的Dataloader

PyTorch中的Data.DataLoader

用于DataLoader的pytorch数据集

Pytorch DataLoader 读取tif（完整代码）

pytorch进阶学习（二）：使用DataLoader读取自己的数据集

pytorch DataLoader相关问题记录

pytorch DataLoader num_workers 出现的问题

pytorch的dataloader

pytorch:DataLoader

PyTorch中的Dataset、Dataloader和_DataloaderIter

PyTorch中DataLoader与Dataset的使用、关系&原理

Pytorch中TypeError: 'DataLoader' object is not subscriptable错误

Pytorch中DataLoader的使用方法

pytorch中的dataset和dataloader是什么

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)