统计机器学习【3】- K近邻法(二)Kd-Tree

为什么需要kd树呢?
因为在实现k近邻法时,主要考虑的问题是如何对训练数据进行快速k近邻搜索,这点在特征空间的维度大及训练数据容量大时尤其必要。k近邻法最简单的实现方法是线性扫描,这时要计算输入实例与每一个训练实例点的距离,当训练集很大时,计算非常耗时,这种方法是不可行的。为了提高k近邻搜索的效率,可以使用特殊的结果存储训练数据,以提高效率。

(1)构造kd树

kd树是一种对k维空间(这里的k指的是k维空间不是knn中的k,knn中的k指的是k个近邻点)中的实例点进行存储以便对其进行快速检索的树形数据结构。kd树是二叉树,表示对k维空间的一个划分。构造kd树相当于不断地用垂直于坐标轴的超平面将k维空间切分,构成一系列的k维超矩形区域。kd树的每一个结点对应于一个k维超矩形区域。

输入:k维空间数据集 τ = { x 1 , x 2 , . . . , x N } \tau = \{ x_1, x_2, ..., x_N\} , 其中 x i = ( x i ( 1 ) , x i ( 2 ) , . . , x i ( k ) ) , i = 1 , 2 , . . . , N ; x_i = (x_i^{(1)}, x_i^{(2)}, .., x_i^{(k)}), i = 1, 2, ..., N;
输出:kd树

(1)开始:构造根节点,根节点对应于包含 T T 的k维空间的超矩形区域。
选择 x ( 1 ) x^{(1)} 为坐标轴,以 T T 中所有实例的 x ( 1 ) x^{(1)} 坐标的中位数为切分点,将根节点对应的超矩形区域分成两个子区域,切分由通过切分点并与坐标轴 x ( 1 ) x^{(1)} 垂直的超平面实现。
由根节点生成深度为1的左、右子节点:左子节点对应坐标 x ( 1 ) x^{(1)} 小于切分点的子区域,右子节点对应坐标 x ( 1 ) x^{(1)} 大于切分点的子区域。
将落在切分超平面上的实例点保存在跟节点上。

(2)重复:对深度为 j j 的节点,选择 x ( l ) x^{(l)} 为切分的坐标轴, l = j ( m o d k ) + 1 l = j(mod k) + 1 ,以该节点区域中的所有实例的 x ( l ) x^{(l)} 坐标的中位数为切分点,将该节点对应的超矩形区域划分为两个子区域,切分由通过切分点并于坐标轴 x ( l ) x^{(l)} 垂直的超平面实现。

由该结点生成深度为 j + 1 j+1 的左、右子节点:左子结点对应坐标 x ( l ) x^{(l)} 小于切分点的子区域,右结点对应坐标 x ( l ) x^{(l)} 大于切分点的子区域。

将落在切分超平面上的实例点保存在该结点。

(2)搜索kd树

将kd树构造成功后,对于任意一个输入的点,我们应该如何找到这个点的k个近邻呢??
这就是我们要将的kd树。

输入:已构造的kd数;目标点x;
输出:x的最近邻

(1)在kd树种找到包含目标点x的叶结点:从根节点出发,递归地向下访问kd树,若目标点x当前维的坐标小于切分点的坐标,则移动到左子结点,否则移动到右子结点,直到子结点为叶结点为止。
(2)以此叶结点为“当前最近点”。
(3)递归地向上回退,在每个结点进行以下操作:
(a)如果该结点保存的实例点比当前最近点距离目标点更近,则以该实例点为“当前最近点”。
(b)当前最近点一定存在于该结点一个子结点对应的区域。检查该子结点的父结点的另一个结点对应的区域是否有更近的点。具体地,检查另一子结点对应的区域是否与以目标点为球心、以目标点与“当前最近点”间的距离为半径的超球面相交。
如果相交,可能在另一个子结点对应的区域内存在距目标点更近的点,移动到另一个子结点,接着,递归递归地进行最近邻搜索;
如果不相交,向上回退。
(4)当退回到根节点时,搜索结束,最后的“当前最近点”即为x的最近邻点。
如果实例点是随机分布的,kd树搜索的平均计算复杂度是 O ( l o g N ) O(log N) ,N为训练实例树。kd树更适合用于训练实例数远大于空间维度时的k近邻搜索,当空间维度接近训练实例数时,它的效率会迅速下降,几乎接近线性扫描。

参考文献:
【1】统计学习方法——李航

需要更详细的了解KD-Tree的可以下载华盛顿大学Kd-Tree的PPT-提取码:6izr

同时在sklearn关于knn的算法中,在底层有两个选择:KdTree和Ball Tree,有兴趣的可查看维基百科关于Ball Tree的介绍-提取码:ugem

猜你喜欢

转载自blog.csdn.net/weixin_43763859/article/details/106362087