ML模型1:KNN概述及优缺点

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/a786150017/article/details/80397622

简介

给定有监督的训练集,对新的输入实例,在训练集中找到与该实例最近的k个实例。如果这k个实例的多数属于某个类,就把该输入实例分为这个类。

三要素

k值的选择,距离度量方法和分类决策规则。

  • k值的选择

    k值较小(,意味着整体模型复杂,可能会导致过拟合
    k值较大,相当于在较大邻域进行预测,这时与输实例较远(不相似的)训练实例也会起作用,使预测发生错误。
    应用中,k一般取较小的数值,通常采用交叉验证选取最优k值。
    ( k=1为最近邻)

  • 距离度量方法

    欧式距离,曼哈顿距离等

  • 分类决策规则

    KNN做分类预测时,一般是选择多数表决法,即训练集里和预测的样本特征最近的K个样本,预测为里面有最多类别数的类别。
    KNN做回归时,一般是选择平均法,即最近的K个样本的样本输出的平均值作为回归预测值。


优缺点分析

优点

① 训练时间复杂度比支持向量机之类的算法低,仅为O(n)
② 和朴素贝叶斯之类的算法比,对数据没有假设,准确度高,对异常点不敏感
③ KNN主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合

缺点

① 计算复杂性高;空间复杂性高;
② 样本不平衡的时候,对稀有类别的预测准确率低
③ 可解释性差,无法给出决策树那样的规则。

猜你喜欢

转载自blog.csdn.net/a786150017/article/details/80397622