一、SimHash算法
1、SimHash算法五个步骤
2、抽屉原理
图中随机的五个点(x,y),其中x和y均非奇即偶,
原理:其中,至少有两个点肯定有属于同一个类别比如(奇数,偶数),两点加起来除以2,因为奇数相加/2、偶数相加/2都是整数,中间的即为格子点。只有当x1、x2(或y1、y2)属于不同类型的时候,比如(奇数+偶数)不能够除以2。所以,要从图中五个点中找到同类型的点即可,而点的选取非奇即偶,只有四种类型(偶数、奇数)、(偶数、偶数)、(奇数、偶数)、(奇数、奇数)。所以取>4的坐标点,肯定存在类型相同的。
二、倒排索引
1、倒排索引的应用
2、建立查找树
3、处理Hash冲突
4、Hash查找