MegEngine 使用小技巧：借助 DataLoader 获取分批数据 - 代码天地

MegEngine 使用小技巧：借助 DataLoader 获取分批数据

其他 2023-08-01 17:35:48 阅读次数: 0

在使用 MegEngine 进行模型训练时，首先要进行的是数据加载和预处理。在此过程中，MegEngine 中的megengine.data模块，提供了数据分批功能，其内部实现流程如下图：

通过使用 Dataloader，我们可以方便地对数据进行相关操作，比如设置 batch_size 以及自定义数据预处理的过程。示例代码如下：

from megengine.data import DataLoader
from megengine.data.dataset import ArrayDataset
from megengine.data.sampler import SequentialSampler
 
def init_dataset():
    rand_data = np.random.randint(0, 255, size=(100, 1, 32, 32), dtype=np.uint8)
    label = np.random.randint(0, 10, size=(100,), dtype=int)
    dataset = ArrayDataset(rand_data, label)
    return dataset
 
dataset = init_dataset()
dataloader = DataLoader(
    dataset, sampler=SequentialSampler(dataset, batch_size=5)
)
 
for batch_data, batch_label in dataloader:
    print(batch_data.shape)
    break

在上面的代码中，我们用 ArrayDataset 对 NumPy ndarray 格式的数据集进行了快速封装，接着使用顺序采样器 SequentialSampler 对 house_dataset 进行了采样，二者用来作为参数初始化 DataLoader, 最终获取到了一个可迭代的对象，每次提供 batch_size 大小的数据和标记。

len(dataloader)    # 20
batch_data.shape   # (5, 1, 32, 32)
batch_label.shape  # (5,)

我们在上面选定的 batch_size 为 5，样本容量为 100, 因此可以划分成 20 批数据。

Dataloader 也支持用户自定义对数据做预处理操作，而在 MegEngine 中也定义很多图像处理领域的预处理方式，如图像裁剪、翻转等。更多 DataLoader 功能介绍，见文档：https://www.megengine.org.cn/doc/stable/zh/user-guide/model-development/data/index.html

附

「MegEngine 使用小技巧」系列文章，重点输出 MegEngine 及周边工具的使用技巧，如有催更或投稿，欢迎联系我们哦～

技术交流 QQ 群：1029741705；Bot 微信：megengine-bot

更多 MegEngine 信息获取，您可以：查看文档和 GitHub 项目，欢迎参与 MegEngine 社区贡献，成为 Awesome MegEngineer，荣誉证书、定制礼品享不停。

{{o.name}}

{{m.name}}

猜你喜欢

转载自my.oschina.net/u/5265910/blog/8531559

MegEngine使用小技巧：借助DataLoader获取分批数据

MegEngine 使用小技巧：借助 DataLoader 获取分批数据

MegEngine 使用小技巧：量化

Dataloader的使用

Salesforce数据工具DataLoader及Jitterbit的使用

使用Dataset 和DataLoader 加载数据集

Dataloader数据集的制作

pytorch的DataLoader使用细节

PyTorch DataLoader()使用

Dataset和DataLoader的使用

MegEngine 使用小技巧：使用 Netron 实现模型可视化

MegEngine 使用小技巧：Profiler使用手册

Pytorch加载自己的数据集(使用DataLoader读取Dataset)

Pytorch对NLP的数据进行处理，使用Dataset和Dataloader方法

PyTorch数据处理，datasets、DataLoader及其工具的使用

使用dataloader加载糖尿病数据集~

使用pytorch的dataloader来平衡不平衡数据的抽取

[高光谱]使用PyTorch的dataloader加载高光谱数据

DataLoader

MegEngine 使用小技巧：如何解读 MegCC 编译模型几个阶段 Pass 的作用

MegEngine 使用小技巧：用 mperf 进行安卓 opencl 算子的 roofline 分析

MegEngine 使用小技巧：如何做 MegCC 的模型性能评测

使用LINQ的Skip和Take函数分批获取数据

用于DataLoader的pytorch数据集

Dataset and DataLoader 加载数据集

【pytorch】DataLoader 和 Dataset 的使用

【python】pytorch中如何使用DataLoader对数据集进行批处理

PyG使用DataLoader实现Mini-Batch批次读取图数据

使用pytorch制作自定义数据集并用DataLoader加载

pytorch中使用Dataset和DataLoader创建自定义数据集入门

今日推荐

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

Spring Boot 3.0：未来企业应用开发的基石

Java 的 AI 前景光明

国内首个智能体生态大会！2024百度万象大会定档5月30日

开源一周年，青语言新版发布

深入浅出：大型语言模型（LLM）的全面解读

顶会ICLR2024论文Time-LLM：基于大语言模型的时间序列预测

周排行

学习笔记(01):Python入门教程-计算机如何区分数字和字符

命令行提示符_颜色

五步轻松搞定Linux下的文件同步(备份)

Visio 2010，如何打开多个窗口

西安新起点|MBA考研十大热门城市

BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation

【蓝桥杯】ADV-73 数组输出

[DeeplearningAI笔记]卷积神经网络4.11一维和三维卷积

Java 逻辑运算符

Python爬虫入门——2. 5 利用正则表达式爬取豆瓣电影 Top 250

每日归档

更多

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)