1.1 k-近邻法简介

下面通过一个简单的例子说明一下：如下图，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。

由此也说明了KNN算法的结果很大程度取决于K的选择。

k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理是：存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本最相似数据(最近邻)的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

举个简单的例子，我们可以使用k-近邻算法分类一个电影是爱情片还是动作片。

电影名称	打斗镜头	接吻镜头	电影类型
电影1	1	101	爱情片
电影2	5	89	爱情片
电影3	108	5	动作片
电影4	115	8	动作片

表1.1 每部电影的打斗镜头数、接吻镜头数以及电影类型

表1.1就是我们已有的数据集合，也就是训练样本集。这个数据集有两个特征，即打斗镜头数和接吻镜头数。除此之外，我们也知道每个电影的所属类型，即分类标签。用肉眼粗略地观察，接吻镜头多的，是爱情片。打斗镜头多的，是动作片。以我们多年的看片经验，这个分类还算合理。如果现在给我一部电影，你告诉我这个电影打斗镜头数和接吻镜头数。不告诉我这个电影类型，我可以根据你给我的信息进行判断，这个电影是属于爱情片还是动作片。而k-近邻算法也可以像我们人一样做到这一点，不同的地方在于，我们的经验更”牛逼”，而k-邻近算法是靠已有的数据。比如，你告诉我这个电影打斗镜头数为2，接吻镜头数为102，我的经验会告诉你这个是爱情片，k-近邻算法也会告诉你这个是爱情片。你又告诉我另一个电影打斗镜头数为49，接吻镜头数为51，我”邪恶”的经验可能会告诉你，这有可能是个”爱情动作片”，画面太美，我不敢想象。 (如果说，你不知道”爱情动作片”是什么？请评论留言与我联系，我需要你这样像我一样纯洁的朋友。) 但是k-近邻算法不会告诉你这些，因为在它的眼里，电影类型只有爱情片和动作片，它会提取样本集中特征最相似数据(最邻近)的分类标签，得到的结果可能是爱情片，也可能是动作片，但绝不会是”爱情动作片”。当然，这些取决于数据集的大小以及最近邻的判断标准等因素。

1.2 距离度量

我们已经知道k-近邻算法根据特征比较，然后提取样本集中特征最相似数据(最邻近)的分类标签。那么，如何进行比较呢？比如，我们还是以表1.1为例，怎么判断红色圆点标记的电影所属的类别呢？如图1.1所示。

图1.1 电影分类

图1.2 两点距离公式

通过计算，我们可以得到如下结果：

(101,20)->动作片(108,5)的距离约为16.55

(101,20)->动作片(115,8)的距离约为18.44

(101,20)->爱情片(5,89)的距离约为118.22

(101,20)->爱情片(1,101)的距离约为128.69

通过计算可知，红色圆点标记的电影到动作片 (108,5)的距离最近，为16.55。如果算法直接根据这个结果，判断该红色圆点标记的电影为动作片，这个算法就是最近邻算法，而非k-近邻算法。那么k-邻近算法是什么呢？k-近邻算法步骤如下：

计算已知类别数据集中的点与当前点之间的距离；

按照距离递增次序排序；

选取与当前点距离最小的k个点；

确定前k个点所在类别的出现频率；

返回前k个点所出现频率最高的类别作为当前点的预测分类。

比如，现在我这个k值取3，那么在电影例子中，按距离依次排序的三个点分别是动作片(108,5)、动作片(115,8)、爱情片(5,89)。在这三个点中，动作片出现的频率为三分之二，爱情片出现的频率为三分之一，所以该红色圆点标记的电影为动作片。这个判别过程就是k-近邻算法。

1.3 Python3代码实现

我们已经知道了k-近邻算法的原理，那么接下来就是使用Python3实现该算法，依然以电影分类为例。

1.3.1 准备数据集

对于表1.1中的数据，我们可以使用numpy直接创建，代码如下：

 
   # -*- coding: UTF-8 -*- 
  
   import numpy as np 
  
   import operator 
  
   import collections 
  
   """ 
  
   函数说明:创建数据集 
  
   Parameters: 
  
       无 
  
   Returns: 
  
       group - 数据集 
  
       labels - 分类标签 
  
   """ 
  
   def createDataSet(): 
  
       #四组二维特征 
  
       group = np.array([[1,101],[5,89],[108,5],[115,8]]) 
  
       #四组特征的标签 
  
       labels = ['爱情片','爱情片','动作片','动作片'] 
  
       return group, labels 
  
   if __name__ == '__main__': 
  
       #创建数据集 
  
       group, labels = createDataSet() 
  
       print 
   ( 
   'group is: 
   \n 
   ' 
   ,group 
   ) 
  
       print 
   ( 
   'labels is: 
   \n 
   ' 
   , labels 
   )

运行结果：

group is:

[[ 1 101]

[ 5 89]

[108 5]

[115 8]]

labels is:

['爱情片', '爱情片', '动作片', '动作片']

1.3.2 k-近邻算法

old

 
   """ 
  
   函数说明:kNN算法,分类器 
  
   Parameters: 
  
       inX - 用于分类的数据(测试集) 
  
       dataSet - 用于训练的数据(训练集) 
  
       labes - 分类标签 
  
       k - kNN算法参数,选择距离最小的k个点 
  
   Returns: 
  
       sortedClassCount[0][0] - 分类结果 
  
   Modify: 
  
       2017-07-13 
  
   """ 
  
   def classify0(inX, dataSet, labels, k): 
  
       #numpy函数shape[0]返回dataSet的行数 
  
       dataSetSize = dataSet.shape[0] 
  
       #在列向量方向上重复inX共1次(横向)，行向量方向上重复inX共dataSetSize次(纵向) 
  
       diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet 
  
       #二维特征相减后平方 
  
       sqDiffMat = diffMat**2 
  
       #sum()所有元素相加，sum(0)列相加，sum(1)行相加 
  
       sqDistances = sqDiffMat.sum(axis=1) 
  
       #开方，计算出距离 
  
       distances = sqDistances**0.5 
  
       #返回distances中元素从小到大排序后的索引值 
  
       sortedDistIndices = distances.argsort() 
  
       #定一个记录类别次数的字典 
  
       classCount = {} 
  
       for i in range(k): 
  
           #取出前k个元素的类别 
  
           voteIlabel = labels[sortedDistIndices[i]] 
  
           #dict.get(key,default=None),字典的get()方法,返回指定键的值,如果值不在字典中返回默认值。 
  
           #计算类别次数 
  
           classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 
  
       #python3中用items()替换python2中的iteritems() 
  
       #key=operator.itemgetter(1)根据字典的值进行排序 
  
       #key=operator.itemgetter(0)根据字典的键进行排序 
  
       #reverse降序排序字典 
  
       sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True) 
  
       #返回次数最多的类别,即所要分类的类别 
  
       return sortedClassCount[0][0]

new

 
   """ 
  
   函数说明:kNN算法,分类器 
  
   Parameters: 
  
       inX - 用于分类的数据(测试集) 
  
       dataSet - 用于训练的数据(训练集) 
  
       labes - 分类标签 
  
       k - kNN算法参数,选择距离最小的k个点 
  
   Returns: 
  
       sortedClassCount[0][0] - 分类结果 
  
   """ 
  
   def classify0(inx, dataset, labels, k): 
  
       # 计算距离 
  
       dist = np.sum((inx - dataset)**2, axis=1)**0.5 
  
       # k个最近的标签 
  
       k_labels = [labels[index] for index in dist.argsort()[0 : k]] 
  
       # 出现次数最多的标签即为最终类别 
  
       label = collections.Counter(k_labels).most_common(1)[0][0] 
  
       return label

运行结果:

动作片

可以看到，分类结果根据我们的”经验”，是正确的.

到这里，也许有人早已经发现，电影例子中的特征是2维的，这样的距离度量可以用两点距离公式计算，但是如果是更高维的呢？对，没错。我们可以用欧氏距离(也称欧几里德度量)，如图1.5所示。我们高中所学的两点距离公式就是欧氏距离在二维空间上的公式，也就是欧氏距离的n的值为2的情况。

图1.5 欧氏距离公式

看到这里，有人可能会问：“分类器何种情况下会出错？”或者“答案是否总是正确的？”答案是否定的，分类器并不会得到百分百正确的结果，我们可以使用多种方法检测分类器的正确率。此外分类器的性能也会受到多种因素的影响，如分类器设置和数据集等。不同的算法在不同数据集上的表现可能完全不同。为了测试分类器的效果，我们可以使用已知答案的数据，当然答案不能告诉分类器，检验分类器给出的结果是否符合预期结果。通过大量的测试数据，我们可以得到分类器的错误率-分类器给出错误结果的次数除以测试执行的总数。错误率是常用的评估方法，主要用于评估分类器在某个数据集上的执行效果。完美分类器的错误率为0，最差分类器的错误率是1.0。同时，我们也不难发现，k-近邻算法没有进行数据的训练，直接使用未知的数据与已知的数据进行比较，得到结果。因此，可以说k-邻近算法不具有显式的学习过程。

3.4 Sklearn实现k-近邻算法简介

官网英文文档地址

sklearn.neighbors模块实现了k-近邻算法，内容如图3.3所示。

我们使用sklearn.neighbors.KNeighborsClassifier就可以是实现上小结，我们实现的k-近邻算法。KNeighborsClassifier函数一共有8个参数

KNneighborsClassifier参数说明：

n_neighbors ：默认为5，就是k-NN的k的值，选取最近的k个点。

weights ：默认是uniform，参数可以是uniform、distance，也可以是用户自己定义的函数。uniform是均等的权重，就说所有的邻近点的权重都是相等的。distance是不均等的权重，距离近的点比距离远的点的影响大。用户自定义的函数，接收距离的数组，返回一组维数相同的权重。

algorithm ：快速k近邻搜索算法，默认参数为auto，可以理解为算法自己决定合适的搜索算法。除此之外，用户也可以自己指定搜索算法ball_tree、kd_tree、brute方法进行搜索，brute是蛮力搜索，也就是线性扫描，当训练集很大时，计算非常耗时。kd_tree，构造kd树存储数据以便对其进行快速检索的树形数据结构，kd树也就是数据结构中的二叉树。以中值切分构造的树，每个结点是一个超矩形，在维数小于20时效率高。ball tree是为了克服kd树高纬失效而发明的，其构造过程是以质心C和半径r分割样本空间，每个节点是一个超球体。

leaf_size ：默认是30，这个是构造的kd树和ball树的大小。这个值的设置会影响树构建的速度和搜索速度，同样也影响着存储树所需的内存大小。需要根据问题的性质选择最优的大小。

metric ：用于距离度量，默认度量是minkowski，也就是p=2的欧氏距离(欧几里德度量)。

p ：距离度量公式。在上小结，我们使用欧氏距离公式进行距离度量。除此之外，还有其他的度量方法，例如曼哈顿距离。这个参数默认为2，也就是默认使用欧式距离公式进行距离度量。也可以设置为1，使用曼哈顿距离公式进行距离度量。

metric_params ：距离公式的其他关键参数，这个可以不管，使用默认的None即可。

n_jobs ：并行处理设置。默认为1，临近点搜索并行工作数。如果为-1，那么CPU的所有cores都用于并行工作。

KNeighborsClassifier提供了以一些方法供我们使用

方法

fit（X，y）	使用X作为训练数据并将y作为目标值来拟合模型
get_params ([deep])	获取此估算器的参数。
kneighbors ([X, n_neighbors, return_distance])	找到一个点的K邻居。
kneighbors_graph ([X, n_neighbors, mode])	计算X中点的k-邻居的（加权）图
predict（X）	预测提供的数据的类别标签
predict_proba（X）	测试数据X的返回概率估计。
score (X, y[, sample_weight])	返回给定测试数据和标签上的平均精确度。
set_params (**params)	设置此估算器的参数。

3.5 Sklearn小试牛刀

我们知道数字图片是32x32的二进制图像，为了方便计算，我们可以将32x32的二进制图像转换为1x1024的向量。对于sklearn的KNeighborsClassifier输入可以是矩阵，不用一定转换为向量，不过为了跟自己写的k-近邻算法分类器对应上，这里也做了向量化处理。然后构建kNN分类器，利用分类器做预测。创建kNN_test04.py文件，编写代码如下：

 
   # -*- coding: UTF-8 -*- 
  
   import numpy as np 
  
   import operator 
  
   from os import listdir 
  
   from sklearn.neighbors import KNeighborsClassifier as kNN 
  
   """ 
  
   函数说明:将32x32的二进制图像转换为1x1024向量。 
  
   Parameters: 
  
       filename - 文件名 
  
   Returns: 
  
       returnVect - 返回的二进制图像的1x1024向量 
  
   Modify: 
  
       2017-07-15 
  
   """ 
  
   def img2vector(filename): 
  
       #创建1x1024零向量 
  
       returnVect = np.zeros((1, 1024)) 
  
       #打开文件 
  
       fr = open(filename) 
  
       #按行读取 
  
       for i in range(32): 
  
           #读一行数据 
  
           lineStr = fr.readline() 
  
           #每一行的前32个元素依次添加到returnVect中 
  
           for j in range(32): 
  
               returnVect[0, 32*i+j] = int(lineStr[j]) 
  
       #返回转换后的1x1024向量 
  
       return returnVect 
  
   """ 
  
   函数说明:手写数字分类测试 
  
   Parameters: 
  
       无 
  
   Returns: 
  
       无 
  
   Modify: 
  
       2017-07-15 
  
   """ 
  
   def handwritingClassTest(): 
  
       #测试集的Labels 
  
       hwLabels = [] 
  
       #返回trainingDigits目录下的文件名 
  
       trainingFileList = listdir('trainingDigits') 
  
       #返回文件夹下文件的个数 
  
       m = len(trainingFileList) 
  
       #初始化训练的Mat矩阵,测试集 
  
       trainingMat = np.zeros((m, 1024)) 
  
       #从文件名中解析出训练集的类别 
  
       for i in range(m): 
  
           #获得文件的名字 
  
           fileNameStr = trainingFileList[i] 
  
           #获得分类的数字 
  
           classNumber = int(fileNameStr.split('_')[0]) 
  
           #将获得的类别添加到hwLabels中 
  
           hwLabels.append(classNumber) 
  
           #将每一个文件的1x1024数据存储到trainingMat矩阵中 
  
           trainingMat[i,:] = img2vector('trainingDigits/%s' % (fileNameStr)) 
  
       #构建kNN分类器 
  
       neigh = kNN(n_neighbors = 3, algorithm = 'auto') 
  
       #拟合模型, trainingMat为测试矩阵,hwLabels为对应的标签 
  
       neigh.fit(trainingMat, hwLabels) 
  
       #返回testDigits目录下的文件列表 
  
       testFileList = listdir('testDigits') 
  
       #错误检测计数 
  
       errorCount = 0.0 
  
       #测试数据的数量 
  
       mTest = len(testFileList) 
  
       #从文件中解析出测试集的类别并进行分类测试 
  
       for i in range(mTest): 
  
           #获得文件的名字 
  
           fileNameStr = testFileList[i] 
  
           #获得分类的数字 
  
           classNumber = int(fileNameStr.split('_')[0]) 
  
           #获得测试集的1x1024向量,用于训练 
  
           vectorUnderTest = img2vector('testDigits/%s' % (fileNameStr)) 
  
           #获得预测结果 
  
           # classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3) 
  
           classifierResult = neigh.predict(vectorUnderTest) 
  
           print("分类返回结果为%d\t真实结果为%d" % (classifierResult, classNumber)) 
  
           if(classifierResult != classNumber): 
  
               errorCount += 1.0 
  
       print("总共错了%d个数据\n错误率为%f%%" % (errorCount, errorCount/mTest * 100)) 
  
   """ 
  
   函数说明:main函数 
  
   Parameters: 
  
       无 
  
   Returns: 
  
       无 
  
   """ 
  
   if __name__ == '__main__': 
  
       handwritingClassTest()

上述代码使用的algorithm参数是auto，更改algorithm参数为brute，使用暴力搜索，你会发现，运行时间变长了，变为10s+。更改n_neighbors参数，你会发现，不同的值，检测精度也是不同的。自己可以尝试更改这些参数的设置，加深对其函数的理解。

四总结

4.1 kNN算法的优缺点

优点

简单好用，容易理解，精度高，理论成熟，既可以用来做分类也可以用来做回归；

可用于数值型数据和离散型数据；

训练时间复杂度为O(n)；无数据输入假定；

对异常值不敏感。

缺点：

计算复杂性高；空间复杂性高；

样本不平衡问题（即有些类别的样本数量很多，而其它样本的数量很少）；

一般数值很大的时候不用这个，计算量太大。但是单个样本又不能太少，否则容易发生误分。

最大的缺点是无法给出数据的内在含义。

K-NN

1.1 k-近邻法简介

1.2 距离度量

1.3 Python3代码实现

1.3.1 准备数据集

1.3.2 k-近邻算法

3.4 Sklearn实现k-近邻算法简介

官网英文文档地址

3.5 Sklearn小试牛刀

四总结

4.1 kNN算法的优缺点

猜你喜欢

K-NN

1.1 k-近邻法简介

1.2 距离度量

1.3 Python3代码实现

1.3.1 准备数据集

1.3.2 k-近邻算法

3.4 Sklearn实现k-近邻算法简介

官网英文文档地址

3.5 Sklearn小试牛刀

四 总结

4.1 kNN算法的优缺点

猜你喜欢

四总结