MIT算法导论公开课之第8课 全域哈希和完全哈希

哈希的缺陷

对于任意的哈希函数而言,都存在一个不好的键集,使得所有键值都会哈希映射到同一个槽中。
  • 解决方案:
    随机选择哈希函数,使其与输入哈希运算的键值情况相独立。

全域哈希(universal hashing)

定义:设U为键值的全域,H为哈希函数的一个有限集,H的哈希函数将U的键映射到哈希表的槽
{0,1,2,…,m-1}里,并且满足:
    对任意的x、y∈U,且x≠y,|{h∈H,h(x)=h(y)}|=|H|/m
从另一个角度看,如果哈希函数h是随机的从函数H里选出的,那么x和y发生碰撞的几率为1/m。 

全域哈希

  • 在哈希函数集H中,随机的选择函数h,假设我们要将n个键放入T表的m个槽里,对于给定的键x,它发生碰撞的期望次数E[#collision]小于n/m(load factor α)。
  • 证明过程如下:
    碰撞期望次数的证明
  • 构造全域哈希函数:
    全域哈希函数

  • 证明此函数集H是全域的:
    证明函数集H是全域的

数论定理

m为一个质数,对于任意的z∈Zm(对m取余后的整数),且z≠0,存在唯一一个z^(-1)(z的倒数)∈Zm,使得z·z^(-1)≡1(mod m)。
数论定理
注:必须为质数。

完全哈希(perfect hashing)

将n个键值创建为一个静态的哈希表,其空间上槽的数量m=O(n),并且在最坏的情况下能得到O(1)的
运行时间。
使用两级哈希的方法,使得在第二级哈希函数运算结果中不会出现碰撞现象。

完全哈希

设在一级哈希中,有ni个元素被哈希映射到同一个槽i中,则在此槽的二级哈希中使用m=ni^2个槽。
采用二级哈希的策略,查找一条记录只需进行两次哈希函数的计算,可以实现常数时间内的查找。
  • 证明二级哈希的策略可以避免碰撞:
    二级哈希的策略

马尔可夫(Markov)不等式

马尔可夫不等式

课外补充

  • 生日悖论:
    生日悖论

猜你喜欢

转载自blog.csdn.net/rye_whiskey/article/details/81986042