【机器学习笔记】K-Nearest Neighbors Algorithm(最近邻算法,KNN)

要点


 

KNN是对数据进行分类的一种超级简单的算法。

第一步:准备已知类别的数据集(比如不同类型的肠道肿瘤细胞),使用PCA进行简化。这些数据集被称为训练数据(Training Data)。

第二步:寻找合适的K值。K-Nearest Neighbors中的“K”表示序列号/数目。

第四步显示了如何使用K值。

寻找K值需要训练与测试,因此我们要将训练数据划分出一部分作为测试数据(Testing Data)。

K值较小时,容易受附近的异常值影响;K值较大时,数据较少的类别容易被覆盖。

可以顺便尝试交叉验证法:https://blog.csdn.net/Ha1f_Awake/article/details/102900491

第三步:从另一个肠道提取类别未知的新细胞加到PCA图中。

  

第四步:寻找新细胞的最近邻细胞。

在下面例子中,假如K=11,其中7个最近邻点是红色,3个最近邻点是橙色,1个最近邻点是绿色,则新细胞最终被判定为红色。

   

发布了153 篇原创文章 · 获赞 184 · 访问量 5万+

猜你喜欢

转载自blog.csdn.net/Ha1f_Awake/article/details/102947788