Pytorch: 数据读取机制Dataloader与Dataset

企业开发 2023-07-11 21:59:30 阅读次数: 0

文章和代码已经归档至【Github仓库：https://github.com/timerring/dive-into-AI 】或者公众号【AIShareLab】回复 pytorch教程 也可获取。

文章目录

数据读取机制Dataloader与Dataset

数据读取机制Dataloader与Dataset

数据分为四个模块

Sampler：生成索引

DataSet：根据索引读取图片及标签。

DataLoader 与 Dataset

torch.utils.data.DataLoader

功能：构建可迭代的数据装载器

dataset : Dataset 类，决定数据从哪读取
及如何读取
batchsize : 批大小
num_works : 是否多进程读取数据（减少时间，加速模型训练）
shuffle：每个 epoch 是否乱序
drop_last ：当样本数不能被 batchsize 整除时，是否舍弃最后一批数据

区分Epoch、Iteration、Batchsize

Epoch: 所有训练样本都已输入到模型中，称为一个 Epoch

Iteration：一批样本输入到模型中，称之为一个 Iteration

Batchsize：批大小，决定一个 Epoch 有多少个 Iteration

样本总数： 80 Batchsize 8

1 Epoch = 10 Iteration

样本总数： 87 Batchsize 8

1 Epoch = 10 Iteration？drop_last = True

1 Epoch = 11 Iteration？drop_last = False

torch.utils.data.Dataset

功能：

Dataset 抽象类，所有自定义的Dataset 需要继承它，并且复写_getitem_()

getitem：接收一个索引，返回一个样本

关于读取数据

通过debug详解数据的读取过程

DataLoader根据是否采用多进程，进入DataLoaderIter，使用Sampler获取index，再通过索引调用DatasetFetcher，在硬盘中读取imgandLabel，通过collate_fn整理成一个batchData。

猜你喜欢

转载自blog.csdn.net/m0_52316372/article/details/131591810

Pytorch: 数据读取机制Dataloader与Dataset

Pytorch框架学习路径(七：数据读取机制DataLoader与Dataset)

深度之眼Pytorch打卡（七）：Pytorch数据读取机制，DataLoader()和Dataset

Pytorch加载自己的数据集(使用DataLoader读取Dataset)

Pytorch Dataset和DataLoader 加载训练数据

pytorch --数据加载之 Dataset 与DataLoader详解

Pytorch——DataSet与DataLoader

pytorch中Dataloader读取数据太慢的问题

pytorch不定长数据的dataloader读取

pytorch Dataset数据集和Dataloader迭代数据集

Pytorch-Dataset & DataLoader & Sampler

【pytorch】DataLoader 和 Dataset 的使用

Pytorch教程[02]DataLoader与Dataset

Pytorch对NLP的数据进行处理，使用Dataset和Dataloader方法

pytorch Dataset, DataLoader产生自定义的训练数据

Pytorch教程（十六）：FashionMNIST数据集DataSet DataLoader

《PyTorch深度学习实践6》——加载数据集（Dataset and DataLoader）

pytorch中的dataset和DataLoader创建数据集进行训练

[Pytorch]PyTorch Dataloader自定义数据读取

2. PyTorch中数据的读取 - Dataset

pytorch dataset实战----读取数据集

PyTorch中的dataset pipeline (Pytorch 如何从数据集中读取数据的？)

PyTorch中的Dataset、Dataloader和_DataloaderIter

Pytorch（五）入门：DataLoader 和 Dataset

PyTorch 入门实战（三）——Dataset和DataLoader

PyTorch中DataLoader与Dataset的使用、关系&原理

Pytorch自定义Dataset和DataLoader

pytorch中的dataset和dataloader是什么

[Pytorch]DataSet和DataLoader逐句详解

Pytorch 数据加载：Dataset、DataLoader、自带数据集(MNIST数据集)

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)