KNN的优化算法3：Ball-tree

参考文档：https://www.cnblogs.com/lesleysbw/p/6074662.html

https://www.zhihu.com/question/30957691

1. 原理：

　　为了改进KDtree的二叉树树形结构，并且沿着笛卡尔坐标进行划分的低效率，ball tree将在一系列嵌套的超球体上分割数据。也就是说：使用超球面而不是超矩形划分区域。虽然在构建数据结构的花费上大过于KDtree，但是在高维甚至很高维的数据上都表现的很高效。

　　球树递归地将数据划分为由质心C和半径r定义的节点，使得节点中的每个点都位于由r和C定义的超球内。通过使用三角不等式来减少邻居搜索的候选点数量的。

2. 构建

　　选择一个距离当前圆心最远的观测点i1，和距离i1最远的观测点 i2，将圆中所有离这两个点最近的观测点都赋给这两个簇的中心，然后计算每一个簇的中心点和包含所有其所属观测点的最小半径。不断递归，得到上图c的结果。

3. 查询

　　使用ball tree时，先自上而下找到包含target的叶子结点（c, r），从此结点中找到离它最近的观测点。这个距离就是最近邻的距离的上界。检查它的兄弟结点中是否包含比这个上界更小的观测点。方法是：如果目标点距离兄弟结点的圆心的距离 > 兄弟节点所在的圆半径 + 前面的上界的值，则这个兄弟结点不可能包含所要的观测点。否则，检查这个兄弟结点是否包含符合条件的观测点。

如果：该点的最近距离上确界+兄弟节点的半径 > 该点到兄弟节点圆心的距离，则表明构成了三角形，两个圆必然相交

KNN的优化算法3：Ball-tree

猜你喜欢