kNN算法代码注释


#coding=utf8
#KNN.py
from numpy import *
import operator
 
def createDataSet():
	group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])      #我觉得可以这样理解,每一种方括号都是一个维度(秩),这里就是二维数组,最里面括着每一行的有一个方括号,后面又有一个,就是二维,四行
	labels=['A','A','B','B']
	return group,labels
 
def classify0(inX,dataSet,labels,k):                  #inX是你要输入的要分类的“坐标”,dataSet是上面createDataSet的array,就是已经有的,分类过的坐标,label是相应分类的标签,k是KNN,k近邻里面的k
	dataSetSize=dataSet.shape[0]                     #dataSetSize是sataSet的行数,用上面的举例就是4行
	diffMat=tile(inX,(dataSetSize,1))-dataSet         #前面用tile,把一行inX变成4行一模一样的(tile有重复的功能,dataSetSize是重复4遍,后面的1保证重复完了是4行,而不是一行里有四个一样的),然后再减去dataSet,是为了求两点的距离,先要坐标相减,这个就是坐标相减 [(x1-x2),(y1-y2)]
	sqDiffMat=diffMat**2                              #上一行得到了坐标相减,然后这里要(x1-x2)^2,要求乘方 [(x1-x2)^2,(y1-y2)^2]
	sqDistances=sqDiffMat.sum(axis=1)                 #axis=1是列相加,,这样得到了(x1-x2)^2+(y1-y2)^2
	distances=sqDistances**0.5                        #开根号,这个之后才是距离
	sortedDistIndicies=distances.argsort()            #argsort是排序,将元素按照由小到大的顺序返回下标,比如([3,1,2]),它返回的就是([1,2,0]),返回的是坐标。也就是说返回的是距离哪个点最近的index。如果距离第三个点最近,那么就是[3,*,*,*]
	classCount={}
	for i in range(k):
		voteIlabel=labels[sortedDistIndicies[i]] #取到距离最近点的lables,如果是3,那么就是'B'
		classCount[voteIlabel]=classCount.get(voteIlabel,0)+1            #get是取字典里的元素,如果之前这个voteIlabel是有的,那么就返回字典里这个voteIlabel里的值,如果没有就返回0(后面写的),这行代码的意思就是算离目标点距离最近的k个点的类别,这个点是哪个类别哪个类别就加1
	soredClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)         #key=operator.itemgetter(1)的意思是按照字典里的第1个排序,classCount的第0个是label,第1个是label对应的数量。reverse=True是降序排序
	return soredClassCount[0][0]             #返回类别最多的类别

def file2matrix(filename):
	fr = open(filename)
	arrayOfLines = fr.readlines() #文件读取
	numberOfLines = len(arrayOfLines) #计算行数
	returnMat = zeros((numberOfLines,3)) #将数据拆分成矩阵 m行3列
	classLabelVector = []
	index = 0
	for line in arrayOfLines:
		line = line.strip() #出去列头尾的多余字符比如\t
		listFromLine = line.split('\t')
		returnMat[index,:] = listFromLine[0:3] #取出头三数
		classLabelVector.append(int(listFromLine[-1])) #取出最后个数
		index +=1
	return returnMat, classLabelVector

有人说初学者,啥也不会就不要进入这行,我倒要看看,能不能进!啥不会我就学啥,有啥不一样的,你有脑袋我就没有啊!

numpy 数学库参数

.shape[0] 取行数 .shape[1]取列数

tile(A,(x,n)) 将A重复x行,n列

**2 平方 **0.5 开方

argsort 有小到大排序返回下标

operator.itemgetter(1) 按照第几个参数排列

猜你喜欢

转载自blog.csdn.net/zphshiwo/article/details/81736706