pandas chunksize读取大文件csv;dataframe 转json

***另:读取大文件json可以参考ijson库

1、chunksize

参考:https://blog.csdn.net/zm714981790/article/details/51375475

read_csv中有个参数chunksize,通过指定一个chunksize分块大小来读取文件,返回的是一个可迭代的对象TextFileReader

chunk也是dataframe

reader = pd.read_table('tmp.sv', sep='|', chunksize=4)

for chunk in reader:
   print(chunk)

指定iterator=True 也可以返回一个可迭代对象TextFileReader :

In [141]: reader = pd.read_table('tmp.sv', sep='|', iterator=True)

In [142]: reader.get_chunk(5)
Out[142]: 
   Unnamed: 0         0         1         2         3
0           0  0.469112 -0.282863 -1.509059 -1.135632
1           1  1.212112 -0.173215  0.119209 -1.044236
2           2 -0.861849 -2.104569 -0.494929  1.071804
3           3  0.721555 -0.706771 -1.039575  0.271860
4           4 -0.424972  0.567020  0.276232 -1.087401


2、to_json

读取是read_json

保存:
df.to_json(orient='records')

在这里插入图片描述
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42357472/article/details/120509074