k-NN算法与kd tree

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/github_38325884/article/details/78814402

1. k-NN

k-NN是最经典的分类算法之一,核心原理很简单:对于目标类别的判断,取决于目标周围k个nearest neighbour的投票结果。k-NN模型没有什么要设置的超参数,主要就是k值的选取,距离的定义,以及投票的方式。整个过程也没有什么显性的训练行为,可能也就是k值选取算得上训练行为吧。

1.1 k值选取

k值的选取对模型结果影响很大。较小的k值意味着较小的采样范围,因此对距离较近的实例点较依赖,bias较小,variance较大。较大的k值意味着与输入较远的,关系不那么大的实例点也将发挥作用,不过更大规模的采样对标注的要求没有那么高,这使得bias变大,variance变小。

k值的选取一般是通过cross validation的结果选取表现最优的值,这个值一般不会太大。

2. kd tree

猜你喜欢

转载自blog.csdn.net/github_38325884/article/details/78814402