通过Pandas读取大文件 - 代码天地

通过Pandas读取大文件

其他 2018-05-07 17:54:13 阅读次数: 3

当数据文件过大时，由于计算机内存有限，需要对大文件进行分块读取：

import pandas as pd

f = open('E:/学习相关/Python/数据样例/用户侧数据/test数据.csv')
reader = pd.read_csv(f, sep=',', iterator=True)
loop = True
chunkSize = 100000
chunks = []
while loop:
    try:
        chunk = reader.get_chunk(chunkSize)
        chunks.append(chunk)
    except StopIteration:
        loop = False
        print("Iteration is stopped.")
df = pd.concat(chunks, ignore_index=True)
print(df)

read_csv()函数的iterator参数等于True时，表示返回一个TextParser以便逐块读取文件；

chunkSize表示文件块的大小，用于迭代；

TextParser类的get_chunk方法用于读取任意大小的文件块；

StopIteration的异常表示在循环对象穷尽所有元素时报错；

concat()函数用于将数据做轴向连接：

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, 
keys=None, levels=None, names=None, Verify_integrity=False)

常用参数：
objs：Series,DataFrame或者是Panel构成的序列list;
axis：需要合并连接的轴，0是行，1是列；
join：连接的参数，inner或outer；
ignore=True表示重建索引。

猜你喜欢

转载自blog.csdn.net/th_num/article/details/80008712

通过Pandas读取大文件

用pandas读取大文件

pandas 使用chunkSize 读取大文件

pandas读取tsv大文件(GB)方法

pandas.read_csv分块读取大文件

pandas.read_csv——分块读取大文件

pandas读取大文件时memoryerror的解决办法

pandas chunksize读取大文件csv；dataframe 转json

modin.pandas通过多进程可以使得读取大文件的速度提高4倍左右（pandas替代方案）

在Java中通过POI组件读取Excel大文件

MappedByteBuffer读取大文件

读取大文件

linecache读取大文件

python大文件读取

读取大文件CSV

PYTHON读取大文件

Java读取大文件

python 大文件读取

pandas 处理CSV大文件

pandas读取较大文件卡死问题的一个可能原因

Java高效读取大文件

多线程读取大文件

Python 读取大文件方法

PHP从头读取大文件

python读取txt大文件

Python 读取大文件的方式

C# 读取大文件

强悍的 Python —— 读取大文件

使用python读取大文件

分块读取大文件方法

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)