Python对象存储:pickle模块的使用讲解

  在机器学习中,我们常常需要把训练好的模型存储起来,这样在进行决策时直接将模型读出,而不需要重新训练模型,这样就大大节约了时间。Python提供的pickle模块就很好地解决了这个问题,它可以序列化对象并保存到磁盘中,并在需要的时候读取出来,任何对象都可以执行序列化操作。

Pickle模块中最常用的函数为:

(1)pickle.dump(obj, file, [,protocol])

        函数的功能:将obj对象序列化存入已经打开的file中。

       参数讲解:

  • obj:想要序列化的obj对象。
  • file:文件名称。
  • protocol:序列化使用的协议。如果该项省略,则默认为0。如果为负值或HIGHEST_PROTOCOL,则使用最高的协议版本。

(2)pickle.load(file)

        函数的功能:将file中的对象序列化读出。

        参数讲解:

  • file:文件名称。

(3)pickle.dumps(obj[, protocol])

       函数的功能:将obj对象序列化为string形式,而不是存入文件中。

       参数讲解:

  • obj:想要序列化的obj对象。
  • protocal:如果该项省略,则默认为0。如果为负值或HIGHEST_PROTOCOL,则使用最高的协议版本。

(4)pickle.loads(string)

       函数的功能:从string中读出序列化前的obj对象。

       参数讲解:

  • string:文件名称。

     【注】 dump() 与 load() 相比 dumps() 和 loads() 还有另一种能力dump()函数能一个接着一个地将几个对象序列化存储到同一个文件中,随后调用load()来以同样的顺序反序列化读出这些对象。

     【代码示例】

      pickleExample.py

[python]  view plain  copy
  1. #coding:utf-8  
  2. __author__ = 'MsLili'  
  3. #pickle模块主要函数的应用举例  
  4. import pickle  
  5. dataList = [[11'yes'],  
  6.             [11'yes'],  
  7.             [10'no'],  
  8.             [01'no'],  
  9.             [01'no']]  
  10. dataDic = { 0: [1234],  
  11.             1: ('a''b'),  
  12.             2: {'c':'yes','d':'no'}}  
  13.   
  14. #使用dump()将数据序列化到文件中  
  15. fw = open('dataFile.txt','wb')  
  16. # Pickle the list using the highest protocol available.  
  17. pickle.dump(dataList, fw, -1)  
  18. # Pickle dictionary using protocol 0.  
  19. pickle.dump(dataDic, fw)  
  20. fw.close()  
  21.   
  22. #使用load()将数据从文件中序列化读出  
  23. fr = open('dataFile.txt','rb')  
  24. data1 = pickle.load(fr)  
  25. print(data1)  
  26. data2 = pickle.load(fr)  
  27. print(data2)  
  28. fr.close()  
  29.   
  30. #使用dumps()和loads()举例  
  31. p = pickle.dumps(dataList)  
  32. print( pickle.loads(p) )  
  33. p = pickle.dumps(dataDic)  
  34. print( pickle.loads(p) )  

    结果为:





二、学习训练模型存储    

   k-均值聚类(尤其是使用如Lloyd’s算法的启发式方法的聚类)即使是在巨大的数据集上也非常容易部署实施。正因为如此,它在很多领域都得到的成功的应用,如市场划分、机器视觉、 地质统计学、天文学和农业等。它经常作为其他算法的预处理步骤,比如要找到一个初始设置。

from sklearn import cluster,datasets
import numpy as np 

iris = datasets.load_iris()
X = iris.data
y = iris.target
km = cluster.KMeans(n_clusters = 3)
km.fit(X)
k_y = km.predict(X)
#根据实际情况设置映射
k2y = np.array([1,0,2])
print(k2y[k_y])
print((k2y[k_y] == y).astype(int).mean())

用pickle模块的方法保存训练后的模型,方便下次直接使用。

import pickle
with open('cc_kmean.pkl','wb') as f:
    pickle.dump(km,f)
with open('cc_kmean.pkl','rb') as f:
    cc_km = pickle.load(f)
print(cc_km.predict(X))
print((k2y[cc_km.predict(X)] == y).astype(int).mean())


猜你喜欢

转载自blog.csdn.net/sinat_23338865/article/details/80409737