版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Song_Lynn/article/details/82823467
机器学习实战之k-近邻算法(KNN)识别手写数字
《机器学习实战》第2章k-近邻算法之识别手写数字
k-近邻算法原理
- 通过计算目标元素与已知类别元素的距离,距离越小,表示元素之间越相似
- 取距离最近的k个元素
- 这k个元素中,出现次数最多的类别,则为目标元素的类别
代码及解释
import numpy as np
from os import listdir #用于获取文件夹下的文件名
#对目标元素进行分类
def classify0(X, dataset, labels, k):
size = dataset.shape[0]
dis = np.sqrt(np.sum(np.square(dataset-X), axis=1)) #差值后平方、求和、开方
sort_index = np.argsort(dis) #按照距离排序,返回的是排序后的索引
label_count = {}
for i in range(k):
label = labels[sort_index[i]]
label_count[label] = label_count.get(label, 0)+1
sort_label = sorted(label_count.items(), key=lambda d: d[1], reverse=True) #按照标签出现次数进行排序
return sort_label[0][0]
#将32*32的二进制图像矩阵转换为1*1024的向量
def digVector(filename):
vect = np.zeros((1, 1024))
f = open(filename)
for i in range(32):
lines = f.readline()
for j in range(32):
vect[0, 32*i+j] = int(lines[j])
return vect
def classifyDigits():
trainList = listdir('trainingDigits') #获取文件夹下文件的名称
nTrain = len(trainList)
train_X = np.zeros((nTrain, 1024))
train_y = []
for i in range(nTrain):
filename = trainList[i]
train_X[i, :] = digVector('trainingDigits/%s'%filename)
train_y.append(int(filename.split('.')[0].split('_')[0])) #解读文件名,获取元素的类别,如0_24.txt,表示类别为0
testList = listdir('testDigits')
nTest = len(testList)
error_count = 0
for i in range(nTest):
filename = testList[i]
label = int(filename.split('.')[0].split('_')[0])
test = digVector('testDigits\%s'%filename)
result = classify0(test, train_X, train_y, 3)
print('predict: %d, real: %d'%(result, label))
if result != label: error_count += 1
print('the error rate: ', error_count/float(nTest))
缺点
- 时间效率不高
- 每个目标向量测试要做nTrain次距离计算
- 每个距离计算包括了m个维度的浮点运算,如识别手写数字是1024个维度
- 存储空间开销大
- 需要为训练数据准备空间,训练数据很大时,必须使用大量的存储空间
- 无法给出任何数据的基础结构信息,无法知晓平均实例样本和典型实例样本的特征