Pytorch Dataset和DataLoader 加载训练数据 - 代码天地

Pytorch Dataset和DataLoader 加载训练数据

企业开发 2023-05-17 06:35:04 阅读次数: 0

Dataset 基类

torch.utils.data.Dataset 为数据集的基类，继承这个基类，我们能够非常快速的实现对数据的加载。

我们要实现自己加载数据的类，并继承于Dataset 这个类，重载类的成员函数
1、__1en__方法, 能够实现通过全局的len()方法获取其中的元素个数；
2、getitem 方法，能够通过传入索引的方式获取数据，例如通过dataset[i]获取其中的第 i条数据。

from torch.utils.data import Dataset, DataLoader
# 完成数据集类
class MyDataset(Dataset):
    def __init__(self):
    def __getitem__(self, index):
        """ 必须实现，作用是:获取索引对应位置的一条数据 :param index: :return: """
        return to_tensor(self.data[index])
    def __len__(self):
        """ 必须实现，作用是得到数据集的大小 :return: """
        return len(self.data)
    def to_tensor(data):
        return torch.from_numpy(data)

使用Dataset 能够进行数据的读取，但是还需要如下实现：

批处理数据（Batching the data）
打乱数据（Shuffling the data）
使用多线程multiprocessing并行加载数据

定义好 Dataset 之后就可以用DataLoader进行加载。

DataLoader 调用一句话即可，dataset 指向自定义的读取数据类。

data_loader = DataLoader(dataset=data, batch_size=2, shuffle=True, num_workers=2)

参数：
1、dataset：提前定义的dataset的实例；
2、batch_size：传入数据的batch大小，常常是32、64
3、shuffle：bool类型，打乱数据；
4、num_workers：加载数据的线程数。
5、drop_last：bool类型，为真，表示最后的数据不足一个batch，就删掉

迭代遍历：

   for step, (batch_x, batch_y) in enumerate(data_loader):
        print("steop:{}, batch_x:{}, batch_y:{}".format(step, batch_x, batch_y))

猜你喜欢

转载自blog.csdn.net/long630576366/article/details/124863780

Pytorch Dataset和DataLoader 加载训练数据

pytorch中的dataset和DataLoader创建数据集进行训练

pytorch Dataset数据集和Dataloader迭代数据集

Pytorch对NLP的数据进行处理，使用Dataset和Dataloader方法

pytorch --数据加载之 Dataset 与DataLoader详解

【pytorch】DataLoader 和 Dataset 的使用

CNN训练前的准备：pytorch处理自己的图像数据（Dataset和Dataloader）

Pytorch学习（一） --- 数据加载之Dataset类和DataLoader类

深度之眼Pytorch打卡（七）：Pytorch数据读取机制，DataLoader()和Dataset

Pytorch: 数据读取机制Dataloader与Dataset

pytorch Dataset, DataLoader产生自定义的训练数据

Pytorch加载自己的数据集(使用DataLoader读取Dataset)

《PyTorch深度学习实践6》——加载数据集（Dataset and DataLoader）

pytorch中使用Dataset和DataLoader创建自定义数据集入门

[Python] PyTorch之数据集(Dataset)和数据加载器(DataLoader)介绍，使用场景和使用案例

PyTorch中的Dataset、Dataloader和_DataloaderIter

Pytorch（五）入门：DataLoader 和 Dataset

PyTorch 入门实战（三）——Dataset和DataLoader

Pytorch自定义Dataset和DataLoader

[Pytorch]DataSet和DataLoader逐句详解

pytorch中的dataset和dataloader是什么

使用Dataset 和DataLoader 加载数据集

数据集加载——dataset和dataloader

Pytorch——DataSet与DataLoader

Pytorch教程（十六）：FashionMNIST数据集DataSet DataLoader

Pytorch框架学习路径(七：数据读取机制DataLoader与Dataset)

Pytorch 数据加载：Dataset、DataLoader、自带数据集(MNIST数据集)

pytorch-Dataset,DataLoader产生自定义的训练数据集

Pytorch进行自定义Dataset 和 Dataloader 原理

Pytorch学习系列之六：数据并行处理及模型文件批量自动加载（Dataset, DataLoader用法）

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)