机器学习 K-近邻算法(KNN)

其他 2020-01-16 08:50:22 阅读次数: 0

很久前的草稿了，总结发出来吧，是为了后续的学习比较系统。方法比较简单就不过多写了，从网上东拼西凑出来的。

1.介绍

K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：在特征空间中，如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别，则该样本也属于这个类别。

2.案例

如下图所示，有两类不同的样本数据，分别用蓝色的小正方形和红色的小三角形表示，而图正中间的那个绿色的圆所标示的数据则是待分类的数据。
在这里插入图片描述
我们常说，物以类聚，人以群分，判别一个人是一个什么样品质特征的人，常常可以从他/她身边的朋友入手，所谓观其友，而识其人。我们不是要判别上图中那个绿色的圆是属于哪一类数据么，好说，从它的邻居下手。但一次性看多少个邻居呢？假设为K个。从上图中，你能看到：

如果K=3，绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形，少数从属于多数，判定绿色的这个待分类点属于红色的三角形一类。
如果K=5，绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形，还是少数从属于多数，判定绿色的这个待分类点属于蓝色的正方形一类。

如果我们给上图中的每个正方形、三角形和圆打上坐标（以中心为坐标），就可以计算出绿圆到每个样本的距离：
$L=\sqrt{(x_1-x_2)^2+(y_1-y_2)^2}$
，即欧式几何距离。

3.算法描述：

计算测试数据与各个训练数据之间的距离；
按照距离的递增关系进行排序；（不用排完，排出最小的K个点就行了）
选取距离最小的K个点；
确定前K个点所在类别的出现频率；
返回前K个点中出现频率最高的类别作为测试数据的预测分类

4.K的取值

K的取法：
　　常用的方法是从k=1开始，使用检验集估计分类器的误差率。重复该过程，每次K增值1，允许增加一个近邻。选取产生最小误差率的K。
　　一般k的取值不超过20，上限是n的开方，随着数据集的增大，K的值也要增大。

误差计算：
一般数据集分为样本数据和测试数据，误差可以通过预测测试数据得到的结果与真实结果来计算。

注：K值不能取偶数，因为可能存在最近不同类型样本数量相等的情况。

参考资料：
《百度百科-k近邻算法》
《kNN算法：K最近邻(kNN，k-NearestNeighbor)分类算法》

李乾文博客专家

发布了154 篇原创文章 · 获赞 349 · 访问量 71万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/Leytton/article/details/103845536

机器学习-KNN(K-近邻算法)

机器学习--k-近邻（kNN）算法

机器学习——K-近邻（KNN）算法

机器学习 K-近邻算法(KNN)

KNN算法[K-近邻]学习笔记

【学习笔记】K-近邻算法(KNN)

机器学习--k-近邻（kNN, k-NearestNeighbor）算法

【机器学习实战】K- 近邻算法（KNN算法）

机器学习--k-近邻算法（kNN）学习笔记

机器学习之k-最近邻（kNN）算法

机器学习实战 k-近邻算法（kNN）

机器学习笔记4 - K-最近邻算法（KNN）

机器学习（二）K-近邻算法 kNN

机器学习之k-近邻（kNN）算法与Python实现

机器学习（二）k-近邻分类算法（kNN）

机器学习入门☞k-近邻算法(kNN)

我与机器学习 - [Today is Knn] - [K-近邻算法]

机器学习(一)之Knn(K-近邻算法)

瞎聊机器学习——K-近邻（KNN）算法

机器学习（一）——K-近邻（KNN）算法

机器学习实战-K-近邻算法（kNN）

机器学习(5): k-近邻算法(kNN) 小结及实验

机器学习之K-近邻算法(KNN)

机器学习之分类算法KNN（K-近邻）

sklearn 机器学习（二）——K-近邻（KNN）算法使用

机器学习实战之k-近邻算法（kNN）

机器学习之k-近邻算法（KNN）

机器学习实战（一）—— K-近邻算法（KNN）

K-近邻学习（KNN）

深度学习之——KNN算法（k-最近邻算法）

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)