机器学习 — 再认识数据集

　　做了一些简单机器学习任务后，发现必须要对数据集有足够的了解才能动手做一些事，这是无法避免的，否则可能连在干嘛都不知道，而一些官方例程并不会对数据集做过多解释，你甚至连它长什么样都不知道。。。

　　以sklearn的手写数字识别为例，例子中，一句

digits = datasets.load_digits()

　　就拿到数据了，然后又几句

images_and_labels = list(zip(digits.images, digits.target))
for index, (image, label) in enumerate(images_and_labels[:4]):
    plt.subplot(2, 4, index + 1)
    plt.axis('off')
    plt.imshow(image, cmap=plt.cm.gray_r, interpolation='nearest')
    plt.title('Training: %i' % label)

# To apply a classifier on this data, we need to flatten the image, to
# turn the data in a (samples, feature) matrix:
n_samples = len(digits.images)
data = digits.images.reshape((n_samples, -1))

　　就把数据集划分好了，对初学者来说，可能都不知道干了些啥。。。当然更重要的是，跑一边程序看到效果不错，想要用训练好的模型玩玩自己的数据集，却无从下手。。。于是，下面就以这个例子来说一下，如何基本的了解数据集，以及如何构造数据集，或许还会谈谈为什么要这样构造。。。

　　1.认识数据集。

　　看代码，我们发现，该数据集主要由两个部分组成:

　　　　1).images

　　　　2).target

　　target 的划分看起来不复杂，所以可以直接看看其中的部分内容：

>>> print(digits.images.shape)
# (1797,)
>>> print(digits.target[:10])
# [0 1 2 3 4 5 6 7 8 9]
>>> print(digits.target[-10:])
# [5 4 8 8 4 9 0 8 9 8]

　　含义是：target是一个形状为长度为1797的行向量，共有1797个（0~9）数字。

　　images 还需要做一些处理才能使用fit接口，但我们也先看看原本长什么样：

>>> print(digits.image.shape)
# (1797, 8, 8)
>>> print(digits.images[0].shape)
# (8, 8)
>>> print(digits.images[0])
'''
[[ 0.  0.  5. 13.  9.  1.  0.  0.]
 [ 0.  0. 13. 15. 10. 15.  5.  0.]
 [ 0.  3. 15.  2.  0. 11.  8.  0.]
 [ 0.  4. 12.  0.  0.  8.  8.  0.]
 [ 0.  5.  8.  0.  0.  9.  8.  0.]
 [ 0.  4. 11.  0.  1. 12.  7.  0.]
 [ 0.  2. 14.  5. 10. 12.  0.  0.]
 [ 0.  0.  6. 13. 10.  0.  0.  0.]]
'''

　　再画出来看看：

>>> import matplotlib.pyplot as plt
>>> plt.axis('off')
>>> plt.title('label: %i' % digits.target[0])
>>> plt.imshow(digits.images[0], cmap='gray_r')
>>> plt.show()

　　含义是：images是由1797张尺寸为8*8的单通道图片组成，而图片内容对应每一张标签的数字的手写数字。

　　于是，这下我们了解了数据集了，但别急，图片集还要做点处理才能使用：

>>> data = digits.images.reshape((n_samples, -1))
>>> print(data.shape)
# (1797, 64)
>>> print(data[0])
'''
[ 0.  0.  5. 13.  9.  1.  0.  0.  0.  0. 13. 15. 10. 15.  5.  0.  0.  3.
 15.  2.  0. 11.  8.  0.  0.  4. 12.  0.  0.  8.  8.  0.  0.  5.  8.  0.
  0.  9.  8.  0.  0.  4. 11.  0.  1. 12.  7.  0.  0.  2. 14.  5. 10. 12.
  0.  0.  0.  0.  6. 13. 10.  0.  0.  0.]
'''

　　把原图片集形状 (numbers, w, h) 变成了 (numbers, w * h)，也就是把2维数组变为一维数组来存储，我个人认为是为了效率...处理一维数组的效率比二维数组高很多。（使用深度学习，我们可以利用神经网络自己构造输入形状和输出形状，便利许多。）

　　现在我们很清楚模型要输入什么样的数据才能进行训练了。

　　2.训练模型。

　　该例子使用svm，不同问题的选择不一，而是根据对算法的理解、经验和观察最终训练效果选择合适的算法。

from sklearn import datasets, svm


digits = datasets.load_digits()
n_samples = len(digits.images)
train_x = digits.images.reshape((n_samples, -1))
train_y = digits.target

model = svm.SVC(gamma=0.001)
model.fit(train_x, train_y,)

　　3.评估模型的效果。

from sklearn import metrics

y_real = dateset.target
...
y_pred = model.predict(test_x)
print(metrics.accuracy_score(y_real, y_pred))

　　4.保存和加载模型。

　　保存模型很简单，sklearn有专门提供便利的方法来保存和加载模型：

from sklearn.externals import joblib

joblib.dump(model, 'mnist.m')

　　加载模型：

model = joblib.load('mnist.m')
y_pred = model.predict(test_x)

　　5.最后，部署模型。

　　上面看到，图片的形状必须为8*8像素大小的单通道图片，假如我们有一批50*50的手写数字图片集，想用该模型测试一下效果怎么办，我们只需要改变一下图片分辨率，把形状变为8*8即可。这样，我们才能用自己的数据集来进行测试，或者部署该模型以提供给别人使用。

　　关于如何部署到web，可以参考前一篇随笔。

　　下面是一个例子，使用了一点opencv来把RGB图片转为灰度图、修改图片尺寸以及一些简单的额外处理：

from sklearn import datasets, svm, metrics
import matplotlib.pyplot as plt
from sklearn.externals import joblib
import numpy as np
import cv2 as cv


digits = datasets.load_digits()
n_samples = len(digits.images)
train_x = digits.images.reshape((n_samples, -1))
train_y = digits.target

model = svm.SVC(gamma=0.001)
model.fit(train_x, train_y,)
joblib.dump(model, 'mnist.m')

w, h = 8, 8
labels = [0, 1, 4, 5]
lenght = len(labels)
images = np.zeros((lenght, h, w), np.uint8)
imgs = []
for i, name in enumerate(labels):
    img = cv.imread('digits/{}.png'.format(name), cv.IMREAD_GRAYSCALE)
    img = cv.resize(img, (h, w), interpolation=cv.INTER_CUBIC)
    for r in range(img.shape[0]):
        for c in range(img.shape[1]):
            if np.all(img[r, c] <= [251, 251, 251]):
                img[r, c] = (0, 0, 0)
    imgs.append(img)
    # gray = cv.cvtColor(img, cv.COLOR_BGR2GRAY)
    # lap = cv.Laplacian(gray, cv.CV_64F)
    images[i] = img
images = images.reshape((lenght, -1))
# model = joblib.load('mnist.m')
pred = model.predict(images)
print(metrics.accuracy_score(labels, pred))
for index, (image, label) in enumerate(list(zip(imgs, pred))):
    plt.subplot(1, lenght, index + 1)
    plt.axis('off')
    plt.imshow(image, cmap='gray_r', interpolation='nearest')
    plt.title('pred: %i' % label)
plt.show()

　　嘛，虽然最后结果很糟。。4张图片识别率只有25%，唯一一张识别成功的，还是因为，数据全部被识别为1，也不知道为啥。。。

　　自己断断续续玩了也有一段时间了，能懂如何生成数据，如何构造模型，如何部署模型等，嘛，很糟糕的说，也算有点成长吧。。。

机器学习 — 再认识数据集

猜你喜欢