图像采用文本格式存储,具有相同的色彩和大小: 宽髙是32像素*32像素的黑白图像。
实际图像存储在两个子目录内:目录加如trainingDigits中包含了大约2000个例子, 每个数字大约有200个样本;目录testDigits中包含了大约900个测试数据。我们使用目录trainingDigits中的数据训练分类器,使用目录testDigits中的数据来测试分类器的效果。两组数据没有覆盖。
代码示例:
# -*- coding: utf-8 -*- """ Created on Fri Apr 13 09:52:11 2018 @author: lizihua """ import numpy as np import os import operator #k-近邻算法 def classify0(inX, dataSet, labels, k): dataSetSize = dataSet.shape[0] #获取行数 #计算欧式距离 #将inX扩维,使其与dataSet形状一致,以便实现获得X-dataSet数组 diffMat = np.tile(inX, (dataSetSize,1))-dataSet sqdiffMat = diffMat**2 sqDisatances = sqdiffMat.sum(axis=1) distances=sqDisatances**0.5 #argsort返回distance从小到大的排序索引,此时,distance并没有改变 sortedDistIndicies=np.argsort(distances) classCount={} for i in range(k): #voteIlabel是按照distance从小到大排序的label voteIlabel = labels[sortedDistIndicies[i]] #计算前k个数中,各类出现的频率 classCount[voteIlabel] = classCount.get(voteIlabel,0)+1 #对字典进行排序,并返回列表 #key=operator.itemgetter(1)代表按照第二个元素对字典排序,reversed=True代表从大到小排序 #返回列表形式,例如:[('B', 2), ('A', 1)] sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True) return sortedClassCount[0][0] #将图像转换为测试向量 #图像是32*32的二进制图像,将其转换为1*1024的向量 def img2vector(filename): returnVect = np.zeros((1,1024)) fr = open(filename) for i in range(32): lineStr = fr.readline() for j in range(32): returnVect[0,32*i+j] = int(lineStr[j]) return returnVect #现将文件图像转换为向量,并提取类别 #然后测试分类器 def handwritingClassTest(): hwLabels = [] trainingFileList = os.listdir('trainingDigits') m = len(trainingFileList) trainingMat = np.zeros((m,1024)) for i in range(m): #例如:当i=0时,fileNameStr:0_0.txt fileNameStr = trainingFileList[i] #例如:当i=0时,fileStr:0_0 fileStr = fileNameStr.split('.')[0] #例如,提取类别,由于文件名的第一个数为类别,因此, #当i=0时,classNumStr=0 classNumStr = int (fileStr.split('_')[0]) hwLabels.append(classNumStr) trainingMat[i,:] = img2vector('trainingDigits/%s'% fileNameStr) testFileList = os.listdir('testDigits') errorCount = 0.0 mTest = len(testFileList) for i in range(mTest): fileNameStr = testFileList[i] fileStr = fileNameStr.split('.')[0] classNumStr = int(fileStr.split('_')[0]) vectorUnderTest = img2vector('testDigits/%s'% fileNameStr) #调用k-近邻算法,其中k取3 classifierResult = classify0(vectorUnderTest,trainingMat,hwLabels,3) print("预测值:%d,实际值:%d" % (classifierResult,classNumStr)) if classifierResult != classNumStr: errorCount += 1 print("错误判断的数量:",errorCount) print("错误率:",errorCount/mTest) #测试 if __name__=="__main__": handwritingClassTest()
自我理解的代码改进:由于训练集和测试集图像文本转换为测试向量的步骤相同,因此,将这一步骤定义为file2vector函数,以便调用。即,与上面代码相比,handwritingClassTest方法变成两个方法:file2vector+handwritingClassTest方法。
现展示这两个方法:代码如下:
#将所有图像文件一次性转换为向量,并提取类别 def file2vector(filename): Labels = [] FileList = os.listdir(filename) m = len(FileList) Mat = np.zeros((m,1024)) for i in range(m): #例如:当i=0时,fileNameStr:0_0.txt fileNameStr = FileList[i] #例如:当i=0时,fileStr:0_0 fileStr = fileNameStr.split('.')[0] #例如,提取类别,由于文件名的第一个数为类别,因此, #当i=0时,classNumStr=0 classNumStr = int (fileStr.split('_')[0]) Labels.append(classNumStr) Mat[i,:] = img2vector((filename+'/%s')% fileNameStr) return Mat,Labels #测试分类器 def handwritingClassTest(): trainingMat,hwLabels = file2vector('trainingDigits') errorCount = 0.0 vectorUnderTest,testLabels = file2vector('testDigits') mTest = len(os.listdir('testDigits')) for i in range(mTest): classifierResult = classify0(vectorUnderTest[i],trainingMat,hwLabels,3) print("预测值:%d,实际值:%d" % (classifierResult,testLabels[i])) if classifierResult != testLabels[i]: errorCount += 1 print("错误判断的数量:",errorCount) print("错误率:",errorCount/mTest)
部分结果显示: