KNN(k-nearest neighbors) K近邻算法深入

K近邻法是机器学习中一种很基本的算法，可以用做分类和回归，主要的思想跟我们生活中近墨者黑，近朱者赤的思想雷同。例如我们看一个人人品的好坏只需要看与之相交的人的品格好坏。KNN算法分类和回归主要区别在于最后做预测时候的决策方式不同：分类时我们选取与之相近的K个样本采取多数表决法来判断类别，回归时我们选取K个样本的平均值来作为预测值。

1.KNN算法的三个要素

K值对于K值的选取可根据我们的经验，然而有时候并不是那么的好，我们需要通过交叉验证来不断地调节K值，直到选择到满意的值。K选择较小的值，就会使用训练实例中较小领域的训练实例进行预测，训练的误差会减小，那也就意味这只有与之相近的样本才对预测结果影响，这样会使模型变得复杂，容易发生过拟合。K选择较小的值，就会使用训练实例中较大的训练实例进行预测，这样会使模型变得简单，模型的泛化能力增强，但同时也意味着与之相距较远的实例会对其预测结果产生影响，会使训练误差增大。
距离度量我们有很多种距离度量的方式，可推荐参考距离度量。standard Euclidean distance（标准欧式距离）是最常见的选择。
决策规则分类我们一般使用的是对数表决法，回归采用K个样本标签均值

2. KNN的实现

暴力实现
最简单的近邻搜索的实现涉及数据集中所有成对点之间距离的暴力计算：对于 $D$ 维度中的 $N$ 个样本来说, 这个方法的复杂度是 $O[D N^2]$ 。对于小数据样本，高效的暴力近邻搜索是非常有竞争力的。然而，随着样本数 $N$ 的增长，暴力方法很快变得不切实际了。
K-D树
为了解决效率低下的暴力计算方法，已经发明了大量的基于树的数据结构。总的来说，这些结构试图通过有效地编码样本的 aggregate distance (聚合距离) 信息来减少所需的距离计算量。基本思想是，若 $A$ 点距离 $B$ 点非常远， $B$ 点距离 $C$ 点非常近，可知 $A$ 点与 $C$ 点很遥远，不需要明确计算它们的距离。通过这样的方式，近邻搜索的计算成本可以降低为 $O[D N \log(N)]$ 或更低。这是对于暴力搜索在大样本数 $N$ 中表现的显著改善。

利用这种聚合信息的早期方法是 KD tree 数据结构（* K-dimensional tree* 的简写）, 它将二维 Quad-trees 和三维 Oct-trees推广到任意数量的维度. KD 树是一个二叉树结构，它沿着数据轴递归地划分参数空间，将其划分为嵌入数据点的嵌套的各向异性区域。 KD 树的构造非常快：因为只需沿数据轴执行分区, 无需计算 $D$ -dimensional 距离。一旦构建完成, 查询点的最近邻距离计算复杂度仅为 $O[\log(N)]$ 。虽然 KD 树的方法对于低维度 ( $D < 20$ ) 近邻搜索非常快, 当 $D$ 增长到很大时, 效率变低: 这就是所谓的 “维度灾难” 的一种体现。
ball 树
为了解决 KD 树在高维上效率低下的问题, ball 树 数据结构就被研发出来了. 其中 KD 树沿卡迪尔轴（即坐标轴）分割数据, ball 树在沿着一系列的 hyper-spheres 来分割数据. 通过这种方法构建的树要比 KD 树消耗更多的时间, 但是这种数据结构对于高结构化的数据是非常有效的, 即使在高维度上也是一样.

ball 树将数据递归地划分为由质心 $C$ 和半径 $r$ 定义的节点, 使得节点中的每个点位于由 $r$ 和 $C$ 定义的 hyper-sphere 内. 通过使用 triangle inequality（三角不等式） 减少近邻搜索的候选点数:

$|x+y| \leq |x| + |y|$

通过这种设置, 测试点和质心之间的单一距离计算足以确定距节点内所有点的距离的下限和上限.

3.KNN几种实现的性能及时间复杂度

对于给定数据集的最优算法是一个复杂的选择, 并且取决于多个因素:

样本数量 $N$ (i.e. n_samples) 和维度 $D$ (例如. n_features).
- Brute force 查询时间以 $O[D N]$ 增长
- Ball tree 查询时间大约以 $O[D \log(N)]$ 增长
- KD tree 的查询时间 $D$ 的变化是很难精确描述的.
  
  对于较小的 $D$ (小于20) 的成本大约是 $O[D\log(N)]$ , 并且 KD 树更加有效.
  
  对于较大的 $D$ 成本的增加接近 $O[DN]$ , 由于树结构引起的开销会导致查询效率比暴力还要低.
对于小数据集 ( $N$ 小于30), $\log(N)$ 相当于 $N$ , 暴力算法比基于树的算法更加有效.

4.KNN应用的一点建议

最近邻回归是用在数据标签为连续变量，而不是离散变量的情况下。分配给查询点的标签是由它的最近邻标签的均值计算而来的。

scikit-learn 实现了两种不同的最近邻回归：KNeighborsRegressor 基于每个查询点的 $k$ 个最近邻实现，其中 $k$ 是用户指定的整数值。RadiusNeighborsRegressor 基于每个查询点的固定半径 $r$ 内的邻点数量实现，其中 $r$ 是用户指定的浮点数值。

基本的最近邻回归使用统一的权重：即，本地邻域内的每个邻点对查询点的分类贡献一致。在某些环境下，对邻点加权可能是有利的，使得附近点对于回归所作出的贡献多于远处点。这可以通过 weights 关键字来实现。默认值 weights = 'uniform' 为所有点分配同等权重。而 weights = 'distance' 分配的权重与查询点距离呈反比。或者，用户可以自定义一个距离函数用来计算权重。