K-近邻(KNN)从原理到算法的实现

原理介绍:首先存在一组训练样本集,而且每个样本都对应一个标签 ,即知道每一个样本所属的类别。输入预测数据,计算预测数据与每个样本的欧氏距离当作其相似性度量,然后提取前K个距离最小的数据,选择K个最相似数据中出现次数最多的分类,作为预测数据的分类,通常k是不大于20的整数。

  • 优点:精度高,对异常值不敏感
  • 缺点:计算复杂度高、空间复杂度高频

K-nearst-neighbor:

  1. 计算已知类别数据集中的点与当前点之间的距离;
  2. 按照距离升序排列;
  3. 选取与当前点距离最小的前K个点;
  4. 确定前K个点所在类别的出现频率;
  5. 返回前K个点出现频率最高的类别作为当前点的预测分类。

1、 新建名为KNN.py的模块,用来生成训练数据集和样本标签:

import numpy as np
def createDateSet():
    group = np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group,labels

2、新建名为KNN-classifier模块,用于预测分类:

#通过前面新建的KNN.py文件来生成数据集和标签
import KNN
group,labels = createDateSet()

import matplotlib.pyplot as plt
plt.scatter(group[:,0],group[:,1])

训练数据集分布如下,右上角为A,左下角为B:

#K-nearst-neighbor
import operator
def classify0(inX,dataSet,labels,k):
    dataSetSize = dataSet.shape[0]#获得dataSet的行数

    #计算欧氏距离
    sub = np.tile(inX,(dataSetSize,1)) - dataSet#np.tile()平铺
    sqr = sub**2
    distances = (sqr.sum(axis=1))**0.5

    sortDis = distances.argsort()#返回排序后元素在原数组中对应的位置
    classCount = {}
    for i in range(k):
        voteLabel = labels[sortDis[i]]#键
        classCount[voteLabel] = classCount.get(voteLabel,0)+1#获取键值,将该键对应的元素值赋0再加1
        #dict.items()以列表形式返回字典键值对,lambda x:x[k]k为0时按键排序,k为1时按键值排序
        result = sorted(classCount.items(),key= lambda x:x[1], reverse = True)
    return result[0][0]

其中inX为输入数据向量,dataSet为训练样本集,labels为样本标签,k表示用于选择最近邻的数目。

3、输入一个数据进行预测:

classify0([0.1,0.2],group,labels,2)

运行结果:B

猜你喜欢

转载自blog.csdn.net/qq_24946843/article/details/83824332
今日推荐