Algorithm:SimHash算法+倒排索引

一、SimHash算法

1、SimHash算法五个步骤

2、抽屉原理
图中随机的五个点(x,y),其中x和y均非奇即偶,
原理:其中,至少有两个点肯定有属于同一个类别比如(奇数,偶数),两点加起来除以2,因为奇数相加/2、偶数相加/2都是整数,中间的即为格子点。只有当x1、x2(或y1、y2)属于不同类型的时候,比如(奇数+偶数)不能够除以2。所以,要从图中五个点中找到同类型的点即可,而点的选取非奇即偶,只有四种类型(偶数、奇数)、(偶数、偶数)、(奇数、偶数)、(奇数、奇数)。所以取>4的坐标点,肯定存在类型相同的。

二、倒排索引

1、倒排索引的应用

2、建立查找树

3、处理Hash冲突

4、Hash查找

猜你喜欢

转载自blog.csdn.net/qq_41185868/article/details/81394133