数据集加载——dataset和dataloader - 代码天地

数据集加载——dataset和dataloader

企业开发 2023-07-01 09:41:50 阅读次数: 0

class MyDataset(torch.utils.data.Dataset):
    def __init__(self, X, y):
        self.X = X
        self.y = y
        
    def __len__(self):
        return len(self.X)
    
    def __getitem__(self, index):
        return self.X[index], self.y[index]

MyDataset 是一个自定义的 PyTorch 数据集类，继承自 torch.utils.data.Dataset，用于加载并处理图像数据集。

在 PyTorch 中，数据集通常被表示为继承自 torch.utils.data.Dataset 的类，该类需要实现两个方法：__len__ 和 __getitem__。其中，__len__ 方法返回数据集中样本的数量，__getitem__ 方法按索引返回一个样本。这使得我们可以使用 PyTorch 的 DataLoader 来迭代数据集，并将数据批量地输入到神经网络中进行训练或预测。

在 MyDataset 类中，我们需要实现两个方法：

1.__init__ 方法：该方法初始化数据集，并加载数据集中的图像和标签。在该方法中，我们可以使用 Python 的文件操作或第三方库（如 PIL）来读取图像，并使用 NumPy 数组来存储它们。为了方便处理，我们可以将图像数据转换为 PyTorch 张量，并将标签转换为整数。

2.__getitem__ 方法：该方法根据给定的索引返回一个样本，其中包括图像和对应的标签。在该方法中，我们需要根据索引从图像数据集和标签数据集中获取对应的图像和标签，并对它们进行预处理（如归一化、调整大小等）。最后，我们将预处理后的图像和标签返回为 PyTorch 张量。

然后，我们可以使用 DataLoader 类来创建批次数据。以下是一个简单的例子：

dataset = MyDataset(X_train, y_train)
dataloader = DataLoader(dataset, batch_size=32, shuffle=True)

"dataset" 包含了训练数据，由特征向量 X_train 和相应的目标标签 y_train 组成。

DataLoader 中的 batch_size 参数指定了每个小批量中包含的样本数量。在这个例子中，每个小批量包含 32 个样本。

shuffle 参数设置为 True，这意味着在将样本划分为小批量之前，会随机地对数据集中的样本进行洗牌。这是一种常见的技术，用于防止模型过度拟合样本在数据集中的顺序。

猜你喜欢

转载自blog.csdn.net/weixin_50752408/article/details/129652747

使用Dataset 和DataLoader 加载数据集

数据集加载——dataset和dataloader

Dataset and DataLoader 加载数据集

8.加载数据集（Dataset and DataLoader）

Pytorch Dataset和DataLoader 加载训练数据

Pytorch加载自己的数据集(使用DataLoader读取Dataset)

《PyTorch深度学习实践6》——加载数据集（Dataset and DataLoader）

pytorch Dataset数据集和Dataloader迭代数据集

pytorch中的dataset和DataLoader创建数据集进行训练

[Python] PyTorch之数据集(Dataset)和数据加载器(DataLoader)介绍，使用场景和使用案例

Pytorch 数据加载：Dataset、DataLoader、自带数据集(MNIST数据集)

pytorch --数据加载之 Dataset 与DataLoader详解

pytorch中使用Dataset和DataLoader创建自定义数据集入门

Pytorch学习（一） --- 数据加载之Dataset类和DataLoader类

Dataset和DataLoader

Dataset和DataLoader的使用

Dataset 和 DataLoader

Pytorch教程（十六）：FashionMNIST数据集DataSet DataLoader

不同数据集文件存放方式来构建dataset,dataloader

Pytorch对NLP的数据进行处理，使用Dataset和Dataloader方法

图像分类的划分数据，dataset和dataloader的实现

【pytorch】DataLoader 和 Dataset 的使用

深度学习 -- Pytorch学习数据集API Dataset与DataLoader 重载鸢尾花数据集

带你一文透彻学习【PyTorch深度学习实践】分篇——加载数据集（Dataset类、DataLoader类核心参数讲解）附：实例源代码

利用dill对Dataset/DataLoader进行保存与加载

pytorch创建自己的Dataset加载数据集

Dataset类分批加载数据集

使用dataloader加载糖尿病数据集~

Pytorch自己定义Dataloader加载高光谱数据集

pytorch-Dataset,DataLoader产生自定义的训练数据集

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)