K-NN算法概述

一、KNN算法(k-NearestNeighbor),k临近值算法:在给出一个数据点以后,判断它和已有数据点之间的距离,取k个距离最近的点,这些点中存在的那一类点最多就讲这个新的数据点归位那一类。

 • 容易存在的问题:

  1.、k 值过小,容易出现过拟合问题,结果就是在训练集上准确度很高,但是在测试集上就很低。

  2、特征的比重失衡。在计算样本点之间的距离时,如果不同的维度存在数量级差异,就会导致某些特征所起到的作用(对距离的影响)过大或过小。所以要进行归一化处理来避免这种问题的出现。

 • 距离的度量:欧式距离、曼哈顿距离、取最大值等等

二、k-d(K-demension tree)树:将空间划分为特定的几个部分,在特定的部分内进行相关搜索。

猜你喜欢

转载自www.cnblogs.com/yyf2019/p/11578878.html