机器学习第一周打卡:knn算法学习

用途:用来做分类或者做逻辑回归用
模型是由三个核心元素构成:
1、距离度量
2、K值
3、分类决策规则

整体算法流程:
1、计算测试集到训练集的各个数据点的距离,这里就可以用很多距离进行考核
2、对距离进行排序
3、选择K值,这个K值,是指距离测试集最近的训练集要选多少个
4、看选择K值后的几个训练值频次是怎么样的,然后把测试集的结果=频次最高的那个结果就完事儿了

其实挺简单,可以理解为:找距离我最近的几个样本,他们中大部分的样子就是我的样子
在这里插入图片描述
回答上面问题哈:
1、优点:简单已理解,可以给业务迅速讲清楚
缺点:如果测试集数据在训练集范围外部,就不好进行预测
2、在这里插入图片描述
可能存在距离相等,但是位置对称的情况,这样就选错范围了
3、如何选取K值
多测几遍,看预测值与真实值的误差,最终选取最小误差情况下的k值
4、时间复杂度o(n),高维数据进行降维。

发布了23 篇原创文章 · 获赞 0 · 访问量 622

猜你喜欢

转载自blog.csdn.net/macmurphy/article/details/104576554