一、K近邻算法(K-NN，K-Nearest Neighbor Classifier )（有监督学习）

一、算法思路

K近邻算法，k-nearest neighbor，即K-NN
通俗来说：给定一个元素，然后以该元素坐标为圆心开始画圆，其中K值是超参数需要人为给定，圆的半径逐渐增大(距离度量采用欧氏距离)，直到包含其他K个元素为止，然后看所包含的K个元素都属于哪些类别，根据决策规则(采用少数服从多数原则)，看K个元素属于哪些类别多，那么x就归为哪类。

应用场景：已知有两个类别绿色五边形和蓝色六边形，新加入一个橙色元素x，问x可归为哪一类？
在这里插入图片描述

三要素：`距离度量、K值、决策规则`

①距离度量

空间中，距离越近的元素越容易是同一个类别，因为其相似度较高。
距离度量方法很多，常用的有欧式距离、曼哈顿距离、余弦距离等

Ⅰ、欧氏距离

两点之间距离公式：在这里插入图片描述
当然可以是更高维度的距离，同样道理计算方法都一样，高维度也可以应用。

Ⅱ、曼哈顿距离

两个点在坐标系上的绝对轴距总和：在这里插入图片描述

Ⅲ、余弦距离

向量空间中两个向量夹角的余弦值：在这里插入图片描述

距离度量目的是看未知元素与哪个已存在的类别最近，那么新来的元素就可以归为这类

②K值

K值可以理解为结束条件，是个超参数，需要人为给定
不同的K值最终算法表现出来的效果也不尽相同，甚至可以会差异很大
通常使用交叉验证的方法来确定最优K值
交叉验证可参考博文：十、评估指标、二、模型评估方法

③决策规则

常见的决策规则有：少数服从多数原则、加权平均原则等

Ⅰ、少数服从多数

这个很容易了解，比如K个元素，看哪个出现的类别多，那么新来的元素就是这个类别

Ⅱ、加权平均

这种情况提前是所有的类别均有对应的权值，将K个元素所对应的类别权重相加取平均，看该值离哪个类别权重值最近，就归为这个类别

二、官网API

官网API

class sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, *, weights='uniform', algorithm='auto', leaf_size=30, p=2, metric='minkowski', metric_params=None, n_jobs=None)

这里的参数还是比较多的，具体的参数使用，可以根据官网给的demo进行学习，多动手尝试；这里就以一些常用的参数进行说明。
导包：from sklearn.neighbors import KNeighborsClassifier

①n_neighbors

该参数就是三要素中的K值，就是结束的条件，找到K个元素之后就停止，然后看K个值中类别最多的那个，就把新来的元素规定为这个类别；默认情况下是5

具体官网详情如下：
在这里插入图片描述

使用方式

KNeighborsClassifier(n_neighbors=2)

②weights

权重函数设置选择
‘uniform’：所有元素的权重都是一样，一视同仁，默认使用
‘distance’：离的近的元素权重更大
当然也可以自定义权重函数

具体官网详情如下：
在这里插入图片描述

使用方式

KNeighborsClassifier(weights={'distance'})
KNeighborsClassifier(weights={'uniform'})

③algorithm

采用什么算法去计算相邻元素

具体官网详情如下：
在这里插入图片描述
‘ball_tree’：采用BallTree算法去求解
‘kd_tree’：采用KDTree算法去求解
'brute’：暴力BF算法求解
‘auto’：尝试根据传递给拟合方法的值决定最合适的算法

使用方式

KNeighborsClassifier(algorithm="ball_tree")
KNeighborsClassifier(algorithm="kd_tree")
KNeighborsClassifier(algorithm="brute")
KNeighborsClassifier(algorithm="auto")

其他参数的具体使用流程以及作用可以看官网进行学习

④最终构建模型

KNeighborsClassifier(n_neighbors=4,algorithm=“auto”)

三、代码实现

①导包

这里需要评估、训练、保存和加载模型，以下是一些必要的包，若导入过程报错，pip安装即可

import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import joblib
%matplotlib inline
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score

②加载数据集

数据集可以自己简单整个，csv格式即可，我这里使用的是6个自变量X和1个因变量Y
在这里插入图片描述

fiber = pd.read_csv("./fiber.csv")
fiber.head(5) #展示下头5条数据信息

在这里插入图片描述

③划分数据集

前六列是自变量X，最后一列是因变量Y

常用的划分数据集函数官网API：train_test_split
在这里插入图片描述
test_size：测试集数据所占比例
train_size：训练集数据所占比例
random_state：随机种子
shuffle：是否将数据进行打乱
因为我这里的数据集共48个，训练集0.75，测试集0.25，即训练集36个，测试集12个

X = fiber.drop(['Grade'], axis=1)
Y = fiber['Grade']

X_train, X_test, y_train, y_test = train_test_split(X,Y,train_size=0.75,test_size=0.25,random_state=42,shuffle=True)

print(X_train.shape) #(36,6)
print(y_train.shape) #(36,)
print(X_test.shape) #(12,6)
print(y_test.shape) #(12,)

④构建KNN模型

参数可以自己去尝试设置调整

knn = KNeighborsClassifier(n_neighbors=4,algorithm="auto")

⑤模型训练

就这么简单，一个fit函数就可以实现模型训练

knn.fit(X_train,y_train)

⑥模型评估

把测试集扔进去，得到预测的测试结果

y_pred = knn.predict(X_test)

看看预测结果和实际测试集结果是否一致，一致为1否则为0，取个平均值就是准确率

accuracy = np.mean(y_pred==y_test)
print(accuracy) # 0.8333333333333333

也可以通过score得分进行评估，计算的结果和思路都是一样的，都是看所有的数据集中模型猜对的概率，只不过这个score函数已经封装好了，当然传入的参数也不一样，需要导入accuracy_score才行，from sklearn.metrics import accuracy_score

score = knn.score(X_test,y_test)
print(score)

⑦模型测试

拿到一条数据，使用训练好的模型进行评估
这里是六个自变量，我这里随机整个test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
扔到模型里面得到预测结果，prediction = knn.predict(test)
看下预测结果是多少，是否和正确结果相同，print(prediction)

test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
prediction = knn.predict(test)
print(prediction) #[2]

⑧保存模型

knn是模型名称，需要对应一致
后面的参数是保存模型的路径

joblib.dump(knn, './knn.model')#保存模型

⑨加载和使用模型

knn_yy = joblib.load('./knn.model')

test = np.array([[11,99498,5369,9045.27,28.47,3827588.56]])#随便找的一条数据
prediction = knn_yy.predict(test)#带入数据，预测一下
print(prediction) #[4]

完整代码

模型训练和评估，不包含⑧⑨。

import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import joblib
%matplotlib inline
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score

fiber = pd.read_csv("./fiber.csv")

X = fiber.drop(['Grade'], axis=1)
Y = fiber['Grade']

X_train, X_test, y_train, y_test = train_test_split(X,Y,train_size=0.75,test_size=0.25,random_state=42,shuffle=True)

knn = KNeighborsClassifier(n_neighbors=4,algorithm="auto")

knn.fit(X_train,y_train)

y_pred = knn.predict(X_test)

accuracy = np.mean(y_pred==y_test)
print(accuracy) # 0.8333333333333333
score = knn.score(X_test,y_test)
print(score)