将数据集分为两部分，一部分用作训练模型，一部分用作测试模型：

train_data = iris_data[:120]  # 前120条作为训练集
test_data = iris_data[120:]  # 120~150作为作测试集

def distance(data1,data2):  # 计算两点距离
    dist = 0
    for i, j in zip(data1, data2):
        dist = dist + (i - j) ** 2
    dist = dist ** 0.5
    return dist

def knn(predict_data, train_data, k):
    dist_list  = []
    for index, row in train_data.iterrows():  # 与每一个训练集中数据计算距离
        dist = distance(predict_data[:-1], row[:-1])
        dist_list.append(dist)
    dist_df = train_data.loc[:,['class_name']]
    dist_df['distance'] = dist_list  # 将距离和类标签放入同一DataFrame中
    dist_df = dist_df.sort_values(by=['distance'],ascending=True)  # 根据距离进行升序排序
    dist_df_k = dist_df[:k]  #取前K个
    predict_class = 'Iris-setosa'
    class_num = 0
    for class_name in ['Iris-setosa','Iris-versicolor','Iris-virginica']:  # 统计三个类别那个最多
        temp_num = dist_df_k.groupby(['class_name']).size().get(class_name,0)  # 各类别的数量
        if temp_num > class_num:
            predict_class = class_name
            class_num = temp_num
    return predict_class

def predict(test_data, train_data, k):
    predict_class_list = []
    for _, test_row in test_data.iterrows():
        predict_class = knn(test_row, train_data, k)
        predict_class_list.append(predict_class)
    result_df = test_data.copy()
    result_df['predict_class'] = predict_class_list
    print(result_df.loc[:,['class_name','predict_class']].head(10))
    return result_df
result_df = predict(test_data, train_data, 10)

          class_name    predict_class
120   Iris-virginica   Iris-virginica
121   Iris-virginica   Iris-virginica
122   Iris-virginica   Iris-virginica
123      Iris-setosa      Iris-setosa
124   Iris-virginica   Iris-virginica
125      Iris-setosa      Iris-setosa
126      Iris-setosa      Iris-setosa
127  Iris-versicolor  Iris-versicolor
128  Iris-versicolor  Iris-versicolor
129  Iris-versicolor  Iris-versicolor

# 计算准确率
def calculate_accuracy(result_df):
    sum = len(result_df)
    right = 0
    for index, row in result_df.iterrows():
        if row['class_name'] == row['predict_class']:
            right += 1
    accuracy = right / sum 
    print('准确率：',accuracy)
calculate_accuracy(result_df)

准确率： 0.9333333333333333

4 sklearn库中的KNN算法¶

最后通过调用sklearn库中的KNN算法来实现Iris数据预测。
虽然sklearn苦衷自带Iris数据集，不过为了更好与上一章节实现进行对比，我们还是和上面一样从文件中读取数据。

from sklearn.neighbors import KNeighborsClassifier  # KNN算法
from sklearn.model_selection import train_test_split  # 分割数据集
from sklearn.preprocessing import MinMaxScaler  # 数据归一化
import pandas as pd

# 读取数据，并指定列名
names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class_name']  # 为每列指定一个列名
iris_data = pd.read_csv('iris.data',names=names)

在使用sklearn库进行预测时，属性和分类必须分开保存：

iris_x = iris_data.loc[:,['sepal_length', 'sepal_width', 'petal_length', 'petal_width']]  # 取出所有属性
iris_y = iris_data.loc[:,['class_name']]  # 取出所有分类

用sklearn自带库对数据进行归一化：

iris_x = MinMaxScaler().fit_transform(iris_x)

# 将数据分为训练集和测试机，train_test_split自带打乱功能
train_data_x,test_data_x,train_data_y,test_data_y = train_test_split(iris_x, iris_y, test_size=0.25, random_state=0)

train_data_y = [elem[0] for elem in train_data_y.values]  # 转换为一维list，训练模型时类别最好使用一维数组存放

# 定义模型
knn=KNeighborsClassifier(n_neighbors=10)

# 训练模型
knn.fit(train_data_x,train_data_y)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=10, p=2,
                     weights='uniform')

result=knn.predict(test_data_x)  # 预测

test_data_y = test_data_y.reset_index(drop=True)  # 重设索引，不然索引也是乱序的，下面不好遍历

# 计算准确率
count=0
for i,row in test_data_y.iterrows():
    if result[i]==row['class_name']:
        count+=1
print('准确率:',float(count)/float(len(test_data_y)))

准确率: 0.9736842105263158

	count	mean	std	min	25%	50%	75%	max
sepal_length	150.0	5.843333	0.828066	4.3	5.1	5.80	6.4	7.9
sepal_width	150.0	3.054000	0.433594	2.0	2.8	3.00	3.3	4.4
petal_length	150.0	3.758667	1.764420	1.0	1.6	4.35	5.1	6.9
petal_width	150.0	1.198667	0.763161	0.1	0.3	1.30	1.8	2.5

	sepal_length	sepal_width	petal_length	petal_width	class_name
0	0.222222	0.625000	0.067797	0.041667	Iris-setosa
1	0.166667	0.416667	0.067797	0.041667	Iris-setosa
2	0.111111	0.500000	0.050847	0.041667	Iris-setosa
3	0.083333	0.458333	0.084746	0.041667	Iris-setosa
4	0.194444	0.666667	0.067797	0.041667	Iris-setosa
5	0.305556	0.791667	0.118644	0.125000	Iris-setosa
6	0.083333	0.583333	0.067797	0.083333	Iris-setosa
7	0.194444	0.583333	0.084746	0.041667	Iris-setosa
8	0.027778	0.375000	0.067797	0.041667	Iris-setosa
9	0.166667	0.458333	0.084746	0.000000	Iris-setosa

	sepal_length	sepal_width	petal_length	petal_width	class_name
0	0.194444	0.416667	0.101695	0.041667	Iris-setosa
1	0.222222	0.625000	0.067797	0.083333	Iris-setosa
2	0.555556	0.375000	0.779661	0.708333	Iris-virginica
3	0.361111	0.416667	0.593220	0.583333	Iris-versicolor
4	0.416667	0.333333	0.694915	0.958333	Iris-virginica
5	0.138889	0.583333	0.101695	0.041667	Iris-setosa
6	0.027778	0.500000	0.050847	0.041667	Iris-setosa
7	0.861111	0.333333	0.864407	0.750000	Iris-virginica
8	0.611111	0.333333	0.610169	0.583333	Iris-versicolor
9	0.666667	0.458333	0.627119	0.583333	Iris-versicolor

机器学习回顾篇（6）：KNN算法

1 引言

2 算法原理

3 Python实现KNN算法¶

4 sklearn库中的KNN算法¶

猜你喜欢