对未知类别属性的数据集中的每个点依次执行以下操作:
(1)计算已知类别数据集中的点与当前点之间的距离;
(2)按照距离递增次序排序;
(3)选取与当前点距离最小的k个点;
(4)确定前k个点所在类别的出现频率;
(5)返回前k个点出现频率最高的类别作为当前点的预测分类。
可调整的参数有训练集大小,k值。
期间要注意数据集各特征值的大小,差异大需要做归一化处理。
实际使用时,算法的执行效率并不高,每次都要进行距离计算。
对未知类别属性的数据集中的每个点依次执行以下操作:
(1)计算已知类别数据集中的点与当前点之间的距离;
(2)按照距离递增次序排序;
(3)选取与当前点距离最小的k个点;
(4)确定前k个点所在类别的出现频率;
(5)返回前k个点出现频率最高的类别作为当前点的预测分类。
可调整的参数有训练集大小,k值。
期间要注意数据集各特征值的大小,差异大需要做归一化处理。
实际使用时,算法的执行效率并不高,每次都要进行距离计算。