转自:http://blog.csdn.net/u010194274/article/details/50817999
转自:点击打开链接
在http://yann.lecun.com/exdb/mnist/ 网上下载好数据集之后解压,得到如下四个文件。
但是这些个文件怎么用呢,参照网站上的说明,他们都是二进制文件,格式分别如下:
我这里只做train_image的过程,其他几个文件类似。参照http://www.cnblogs.com/x1957/archive/2012/06/02/2531503.html
- #! /usr/bin/python
- # -*- coding: utf-8 -*-
- import struct
- import numpy as np
- import matplotlib.pyplot as plt
- import Image
- #二进制的形式读入
- filename='/home/jack/Downloads/train-images.idx3-ubyte'
- binfile=open(filename,'rb')
- buf=binfile.read()
- #大端法读入4个unsigned int32
- #struct用法参见网站 http://www.cnblogs.com/gala/archive/2011/09/22/2184801.html
- index=0
- magic,numImages,numRows,numColumns=struct.unpack_from('>IIII',buf,index)
- index+=struct.calcsize('>IIII')
- #将每张图片按照格式存储到对应位置
- for image in range(0,numImages):
- im=struct.unpack_from('>784B',buf,index)
- index+=struct.calcsize('>784B')
- #这里注意 Image对象的dtype是uint8,需要转换
- im=np.array(im,dtype='uint8')
- im=im.reshape(28,28)
- # fig=plt.figure()
- # plotwindow=fig.add_subplot(111)
- # plt.imshow(im,cmap='gray')
- # plt.show()
- im=Image.fromarray(im)
- im.save('train/train_%s.bmp'%image,'bmp')
如此就成功了
如果提示错误:No module named Image.请这样导入import PIL.Image as Image