hash表详解与红黑树（RB-Tree）

hash表（散列表）一般被用来加密，压缩等。
当选择的hash函数足够复杂时（难以破解），那么密码的明码通过此hash函数生成散列值的过程就是不可逆的，这往往被IT公司用来保存用户的密码，防止泄露。
hash table被用来压缩，主要是因为通过hash函数映射后，数据存储的空间大大缩小，提高空间利用率，往往被用来处理大数据，这是由于通过hash函数映射的散列值所占用的空间远远小于原数据。
以百度TopK面试题为例进行说明：
问题描述
搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。
假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G。
分析：
第一步：统计各个查询串出现的次数
1.首先直接将数据存入内存中是不合适的，因为根据题意此一千万条数据占用的内存大于1G，所以不能选择内部排序。考虑外排后，再遍历所有数据统计频数。
2.外排时，文件排序用归并排序是最合适的，时间复杂度为O(nlogn)。而用hash table的时间复杂度为O（n）。
用法如下：
1.以查询串为Key值，以出现的次数为value创建哈希表，key值通过哈希函数映射为数字，数字对数组长度取余，余数就为hash表的下表，将对应的数据进行存储。hash表的实现方式有多种，邻接表是一个不错的实现。例如：
这里写图片描述
2.依次遍历数据，如果查询串已经在哈希表中存在，那么将次数加1，如果不存在，通过映射进行存储，初始数据设为1。这样一次遍历完后就将每个查询串的频数统计完毕。即使300万条记录均只出现一次且散列值不同，占用的存储空间也满足要求。
第二步：找出Top10
这一步就是单纯的将查询串根据出现的频次进行排序。使用时间复杂度较小的堆排序，建立小顶堆（堆排序参考我的相关博文）。先遍历最初的十个数据建立小顶堆，然后依次遍历后续数据，和小顶堆根节点（最小的数据比较）。如果数据小于根节点，继续遍历。如果数据大于根节点，将根节点删除吗，将此数据放入堆中，调整为小顶堆，继续遍历比较。直到最后生成堆的是个数据便是Top10。遍历的时间复杂度为O(n),建堆调整堆的时间复杂度为O((n-k)logk),此处k为10。所以用堆操作的查找Top10时间复杂度为O(nlogn)。
必须指出的是，hash table 的优劣完全依赖哈希函数的选取，一般选取哈希函数有取模取余，平方等。显然这些简单的哈希函数映射后会有冲突发生，多个key值对应同一个存储空间，当然邻接链表结构是可以很好解决。但选取一个合适的函数是非常必要的，一般的公式为index=(value*x)>>28,右移，为除以2^28次方。
推荐x选取使用斐波那契（Fibonacci）散列法
斐波那契序列：0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610， 987, 1597, 2584, 4181, 6765, 10946，…
对我们常见的32位整数而言，公式： index = (value * 2654435769) >> 28
对于64位整数而言，这个乘数是11400714819323198485

红黑树的介绍，发现一篇文图文并茂的文章
https://www.sohu.com/a/201923614_466939
多读两遍，相信会有不小的收获

hash表详解与红黑树（RB-Tree）

猜你喜欢