统计机器学习【3】- K近邻法（二）Kd-Tree

为什么需要kd树呢？
因为在实现k近邻法时，主要考虑的问题是如何对训练数据进行快速k近邻搜索，这点在特征空间的维度大及训练数据容量大时尤其必要。k近邻法最简单的实现方法是线性扫描，这时要计算输入实例与每一个训练实例点的距离，当训练集很大时，计算非常耗时，这种方法是不可行的。为了提高k近邻搜索的效率，可以使用特殊的结果存储训练数据，以提高效率。

（1）构造kd树

kd树是一种对k维空间(这里的k指的是k维空间不是knn中的k，knn中的k指的是k个近邻点)中的实例点进行存储以便对其进行快速检索的树形数据结构。kd树是二叉树，表示对k维空间的一个划分。构造kd树相当于不断地用垂直于坐标轴的超平面将k维空间切分，构成一系列的k维超矩形区域。kd树的每一个结点对应于一个k维超矩形区域。

输入：k维空间数据集 $\tau = \{ x_1, x_2, ..., x_N\}$ ，其中 $x_i = (x_i^{(1)}, x_i^{(2)}, .., x_i^{(k)}), i = 1, 2, ..., N;$
输出：kd树

（1）开始：构造根节点，根节点对应于包含 $T$ 的k维空间的超矩形区域。
选择 $x^{(1)}$ 为坐标轴，以 $T$ 中所有实例的 $x^{(1)}$ 坐标的中位数为切分点，将根节点对应的超矩形区域分成两个子区域，切分由通过切分点并与坐标轴 $x^{(1)}$ 垂直的超平面实现。
由根节点生成深度为1的左、右子节点：左子节点对应坐标 $x^{(1)}$ 小于切分点的子区域，右子节点对应坐标 $x^{(1)}$ 大于切分点的子区域。
将落在切分超平面上的实例点保存在跟节点上。

（2）重复：对深度为 $j$ 的节点，选择 $x^{(l)}$ 为切分的坐标轴， $l = j(mod k) + 1$ ，以该节点区域中的所有实例的 $x^{(l)}$ 坐标的中位数为切分点，将该节点对应的超矩形区域划分为两个子区域，切分由通过切分点并于坐标轴 $x^{(l)}$ 垂直的超平面实现。

由该结点生成深度为 $j+1$ 的左、右子节点：左子结点对应坐标 $x^{(l)}$ 小于切分点的子区域，右结点对应坐标 $x^{(l)}$ 大于切分点的子区域。

将落在切分超平面上的实例点保存在该结点。

(2)搜索kd树

将kd树构造成功后，对于任意一个输入的点，我们应该如何找到这个点的k个近邻呢？？
这就是我们要将的kd树。

输入：已构造的kd数；目标点x；
输出：x的最近邻

（1）在kd树种找到包含目标点x的叶结点：从根节点出发，递归地向下访问kd树，若目标点x当前维的坐标小于切分点的坐标，则移动到左子结点，否则移动到右子结点，直到子结点为叶结点为止。
（2）以此叶结点为“当前最近点”。
（3）递归地向上回退，在每个结点进行以下操作：
（a）如果该结点保存的实例点比当前最近点距离目标点更近，则以该实例点为“当前最近点”。
（b）当前最近点一定存在于该结点一个子结点对应的区域。检查该子结点的父结点的另一个结点对应的区域是否有更近的点。具体地，检查另一子结点对应的区域是否与以目标点为球心、以目标点与“当前最近点”间的距离为半径的超球面相交。
如果相交，可能在另一个子结点对应的区域内存在距目标点更近的点，移动到另一个子结点，接着，递归递归地进行最近邻搜索；
如果不相交，向上回退。
（4）当退回到根节点时，搜索结束，最后的“当前最近点”即为x的最近邻点。
如果实例点是随机分布的，kd树搜索的平均计算复杂度是 $O(log N)$ ，N为训练实例树。kd树更适合用于训练实例数远大于空间维度时的k近邻搜索，当空间维度接近训练实例数时，它的效率会迅速下降，几乎接近线性扫描。

参考文献：
【1】统计学习方法——李航

需要更详细的了解KD-Tree的可以下载华盛顿大学Kd-Tree的PPT-提取码：6izr

同时在sklearn关于knn的算法中，在底层有两个选择：KdTree和Ball Tree，有兴趣的可查看维基百科关于Ball Tree的介绍-提取码：ugem