[python技巧]使用pickle.dump出现memoryError

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/yinhui_zhang/article/details/83413026

问题描述:

    在使用pickle来持久化将大量的numpy arrays存入硬盘时候,使用pickle.dump方法的时出现MemoryError。

解决办法:

    本质原来是因为pickle本身的一些bug,对大量数据无法进行处理,但是在pickle4.0+可以对4G以上的数据进行操作,stack overflow上有人给出了一些解释和分批次写入disk的方法 。

    但是我觉得这都是不是一些好办法,最好的办法就是抛弃pickle,使用joblib这个包来实现持久化存储。其主页详细介绍了如何来使用joblib。

    简单介绍一下joblib中dump和load的使用,比如如果我们要将一个numpy arrays存入文件:

   

import numpy as np
data = [('a', [1, 2, 3]), ('b', np.arange(10))]
with open(filename, 'wb') as fo:  
    joblib.dump(data, fo)
with open(filename, 'rb') as fo:  
    joblib.load(fo)

    joblib还有并行处理和压缩存储等功能,这些都可以在主页找到相应的example。

   

   

   

猜你喜欢

转载自blog.csdn.net/yinhui_zhang/article/details/83413026
今日推荐