渐进式rehash

Redis之如何解决hash冲突：链式存储、rehash、渐进式rehash

我们知道Redis是通过全局hash表来存储key-value键值对的，既然是hash表，那么肯定是会存在hash冲突问题的，而在redis中主要通过链式哈希、渐进式rehash方法来解决这个问题

我们先来了解一下redis中很重要的三个数据结构：

dict：是Redis中的字典结构，包含两个dictht；
dictht：表示一个全局Hash表，包含一个或多个dictEntry；
dictEntry：表示一个Key-Value节点；

通过下面redis源代码，发现每一个字典中有两个全局hash表（用于rehash），这个我们后面会详细介绍它的作用

/*
 * dict 字典
 * 大家需要关注的是dictht ht[2]：
 * 这里设计存储两个dictht 的指针是用于Redis的rehash，后文中进行详解
 */
typedef struct dict {
    
    
    dictType *type;			/*类型特定函数*/
    void *privdata;			/*私有数据*/
    dictht ht[2];			/*用于存储数据的两个hash表，正常只有一个hash表中有数据，只有在rehash的过程中才会出现两个hash表同时存在数据*/
    long rehashidx; 		/*rehash目前进度，当哈希表进行rehash的时候用到，其他情况下为-1*/
    unsigned long iterators; /*迭代器数量*/
} dict;

/* 
 * 这是我们的哈希表结构。 每个字典都有两个
 * 一个哈希表里面有多个哈希表节点(dictEntry)，每个节点表示字典的一个键值对
 */
typedef struct dictht {
    
    
    dictEntry **table;		/*哈希表数组指针*/
    unsigned long size; 	/*hashtable 容量 数组大小*/
    unsigned long sizemask;	/*size -1*/
    unsigned long used;		/*hashtable中元素个数，正常情况下当used/size=1时将进行扩容操作*/
} dictht;

/* 
 * 哈希表节点
 */
typedef struct dictEntry {
    
    
    void *key;
    union {
    
    
        void *val;		/*指向Value值的指针，正常是指向一个redisObject*/
        uint64_t u64;
        int64_t s64;
        double d;
    } v;
    struct dictEntry *next;	/*当出现hash冲突时使用链表形式保存hashcode相等但是field 不相等的数据，这里就是指向下一条数据的指针*/
} dictEntry;

下面我开始从链式哈希->rehash->渐进式rehash这个流程来依次解释它们是如何处理hash冲突的，以及一些它们的优缺点

链式哈希

链式hash法也是一种比较常见的处理hash冲突的方法，在很多地方都会利用（例如java中的hashmap）。

链式哈希：同一个哈希桶中的多个元素用一个链表来保存，它们之间依次用指针连接。
在这里插入图片描述
产生的问题：虽然上述解决了hash冲突的问题，但是随着hash冲突可能越来越多，就会导致某些hash冲突链过长，进而导致链上的元素查找耗时长，效率降低。

对于以上这种问题，我们必须要有办法解决。例如在jdk1.8以后的hashmap中，会在同一个桶中的节点数大于8时，将链表来转换为红黑树提升查找效率。

而在redis中也类似，当桶中的节点数超过一定的数量时（已插入的元素数量是桶容量的5倍），就会进行相应的优化。

rehash

为了解决上述链式哈希存在的问题，我们可以尝试使用rehash操作

redis中rehash的核心思想是，增加现有的哈希桶数量，让逐渐增多的 entry 元素能在更多的桶之间分散保存，减少单个桶中的元素数量，从而减少单个桶中的冲突。下面是它的大致流程：

为了使 rehash 操作更高效，Redis 默认使用了两个全局哈希表：哈希表 1 和哈希表 2。一开始，当你刚插入数据时，默认使用哈希表 1，此时的哈希表 2 并没有被分配空间。随着数据逐步增多，Redis 开始执行 rehash，这个过程分为三步：

给哈希表 2 分配更大的空间，一般是当前哈希表 1 大小的两倍；

把哈希表 1 中的数据重新映射并拷贝到哈希表 2 中（在hash表2下进行重新计算hash值）；

释放哈希表 1 的空间。

感觉这个和一些JVM的垃圾收集算法中的新生代的survivor0、survivor1的工作流程有一点类似

到此，我们就可以从哈希表 1 切换到哈希表 2，用增大的哈希表 2 保存更多数据，而原来的哈希表 1 留作下一次 rehash 扩容备用。下面是源代码的实现（只截取了重要的部分）

    /**
    *  如果所有桶中的节点已经搬迁完了，释放ht[0]空间，并将 d->ht[1] 赋值给ht[0]
    *  重置ht[1]空间
    *  将hash索引 d->rehashidx设置为-1
    */
    if (d->ht[0].used == 0) {
    
    
        zfree(d->ht[0].table);
        d->ht[0] = d->ht[1];
        _dictReset(&d->ht[1]);
        d->rehashidx = -1;
        return 0;
    }

产生的问题：上述过程中的第二步，可能会涉及大量的数据拷贝，如果一次性把哈希表1的数据拷贝到哈希表2，那么会造成Redis线程阻塞。也就无法服务其它请求，redis也就无法访问数据了。