pytorch---之dataloader使用pandas读取csv(不一次性将csv全部读入内存) - 代码天地

pytorch---之dataloader使用pandas读取csv(不一次性将csv全部读入内存)

其他 2018-10-11 23:54:32 阅读次数: 0

我们使用pandas的read_csv()函数中的iterators=True 来将csv循环分批读取进内存，（如果不使用iterators参数的话，数据量很大的csv文件，会全部读到内存当中去，内存肯定不够）代码如下：

# -*- coding: utf-8 -*-

import csv
import pandas as pd
import numpy as np
import torch
import torch.utils.data as data


class FaceLandmarksDataset(data.Dataset):
	"""Face Landmarks dataset."""
	def __init__(self, csv_file):
		"""
        Args:
            csv_file (string): Path to the csv file with annotations.
            root_dir (string): Directory with all the images.
            transform (callable, optional): Optional transform to be applied
                on a sample.
        """
		self.landmarks_frame = pd.read_csv(csv_file, iterator=True)
	def __len__(self):
		#print len(self.landmarks_frame)
		#return len(self.landmarks_frame)
		return 1800000
	def __getitem__(self, idx):
		print idx
		landmarks = self.landmarks_frame.get_chunk(128).as_matrix().astype('float')
		# landmarks = self.landmarks_frame.ix[idx, 1:].as_matrix().astype('float')

		# 采用这个，不错。
		return landmarks


filename = '/media/czn/e04e3ecf-cf63-416c-afd7-6d737e09968a/zhongkeyuan/dataset/CSV/HGG_pandas.csv'
dataset = FaceLandmarksDataset(filename)
train_loader = torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=True)
for data in train_loader:
	print data

猜你喜欢

转载自blog.csdn.net/zxyhhjs2017/article/details/82868572

pytorch---之dataloader使用pandas读取csv(不一次性将csv全部读入内存)

pytorch在读取数据时一次性生成csv文件（多栏目）

pytorch---之读取csv文件

keras 对于大数据的训练,无法一次性载入内存,使用迭代器

数据量太大无法一次性载入内存训练

C、C++一次将整个文件读入内存

C++ 学习 - 一次性读取文件全部内容

如何将目录下的脚本一次性全部执行

Pandas DataFrame将多列数据一次性从object转换为datetime

一次读入全部文件到内存中

SQLite一次性读取过多记录会造成内存溢出OutOfMemoryError

Java一次性读取文件的内容

Java 一次性读取或写入文件内容

java一次性读取文件

C、C++一次将整个文件读入内存： http://blog.csdn.net/cashey1991/article/details/6769038

python使用matplotlib一次性画图

Python 使用pipeline 一次性操作 Redis

使用webuploader一次性上传多个文件

stylus全局一次性引入使用 vue

小程序订阅消息使用（一次性）

Linux - 一次性计划任务之at命令使用

Vue 之插槽的使用，一次性给你说清楚

pandas分段读取csv

pandas读取csv文件

pandas读取csv

pandas 与csv 的写入与读取

使用pandas将文件中的所有csv文件汇总成一份csv文件

怎么使用pandas读取较大的CSV文件

git不分页不分屏一次性输出全部log日志

mysql 一次性导出全部数据库【数据库备份及迁移】

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)