机器学习实战之k-近邻算法（KNN）识别手写数字

《机器学习实战》第2章k-近邻算法之识别手写数字

k-近邻算法原理

通过计算目标元素与已知类别元素的距离，距离越小，表示元素之间越相似
取距离最近的k个元素
这k个元素中，出现次数最多的类别，则为目标元素的类别

代码及解释

import numpy as np
from os import listdir		#用于获取文件夹下的文件名

#对目标元素进行分类
def classify0(X, dataset, labels, k):
    size = dataset.shape[0]
    dis = np.sqrt(np.sum(np.square(dataset-X), axis=1))		#差值后平方、求和、开方
    sort_index = np.argsort(dis)		#按照距离排序，返回的是排序后的索引
    label_count = {}
    for i in range(k):
        label = labels[sort_index[i]]
        label_count[label] = label_count.get(label, 0)+1
    sort_label = sorted(label_count.items(), key=lambda d: d[1], reverse=True)		#按照标签出现次数进行排序
    return sort_label[0][0]

#将32*32的二进制图像矩阵转换为1*1024的向量
def digVector(filename):
    vect = np.zeros((1, 1024))
    f = open(filename)
    for i in range(32):
        lines = f.readline()
        for j in range(32):
            vect[0, 32*i+j] = int(lines[j])
    return vect

def classifyDigits():
    trainList = listdir('trainingDigits')		#获取文件夹下文件的名称
    nTrain = len(trainList)
    train_X = np.zeros((nTrain, 1024))
    train_y = []
    for i in range(nTrain):
        filename = trainList[i]
        train_X[i, :] = digVector('trainingDigits/%s'%filename)
        train_y.append(int(filename.split('.')[0].split('_')[0]))		#解读文件名，获取元素的类别，如0_24.txt，表示类别为0

    testList = listdir('testDigits')
    nTest = len(testList)
    error_count = 0
    for i in range(nTest):
        filename = testList[i]
        label = int(filename.split('.')[0].split('_')[0])
        test = digVector('testDigits\%s'%filename)
        result = classify0(test, train_X, train_y, 3)
        print('predict: %d, real: %d'%(result, label))
        if result != label: error_count += 1
    print('the error rate: ', error_count/float(nTest))

缺点

时间效率不高
- 每个目标向量测试要做nTrain次距离计算
- 每个距离计算包括了m个维度的浮点运算，如识别手写数字是1024个维度
存储空间开销大
- 需要为训练数据准备空间，训练数据很大时，必须使用大量的存储空间
无法给出任何数据的基础结构信息，无法知晓平均实例样本和典型实例样本的特征

机器学习实战之k-近邻算法（KNN）识别手写数字

机器学习实战之k-近邻算法（KNN）识别手写数字

k-近邻算法原理

代码及解释

缺点

猜你喜欢