Redis底层详解（七） HyperLogLog 基数估计

一、HyperLogLog 概述

HyperLogLog 算法一种概率算法，用来实现大数据下的基数估计，即无法精确计算集合的基数，存在一定偏差。具体的算法实现可以参见我写的另一篇文章：夜深人静写算法（十四）- 基数估计 (Cardinality Estimation)。
Redis 对这个算法进行了一些改进。主要有以下几点：
a) 采用 64 位哈希函数，这样基数数值就不用局限在 10^9 了，当基数在 2^32 附近的时候，不需要额外进行修正；
b) 采用 16384 个 6比特的寄存器（桶）提高计算的精确度，每个集合的内存总数仅有 12K （16384 * 6 / 8 / 1024 = 12）；
c) 存储采用 Redis 自带的 sds 字符串（Redis底层详解（二）字符串），并提供了两种存储方式：密集型存储和稀疏型存储；
1、算法概述
改进后算法的简介如下：
给定一个集合 S，集合中的元素可以是整数、指针、字符串等等任意对象。给定一个 64 位的哈希函数 H，能够将这些对象进行映射，映射后的值是一个 64 位的比特串（每位是 0 或 1），比特串的低 14 位用来表示寄存器（也称为桶）编号，剩下 50 位用来寻找“最长 0 尾缀”。一共 16384 (2 的 14次幂) 个寄存器，用来存储 “最长 0 尾缀”（原算法用的是前缀，Redis为了方便计算采用尾缀的形式，其实是一样的）。然后计算这些 “最长 0 尾缀” 的调和平均数得到一个初始估值 E。然后根据 E 的相对大小再进行二次估值得到最后的集合基数。其中 E 的计算公式如下：

m 即寄存器的数量，M[i] 代表第 i 个寄存器中的 “最长 0 尾缀” 的值，C 在 m 确定的情况下是个常量，E 就是调和平均数。
2、存储优化
由于当集合元素较少时，大多数的寄存器的值为 0，所以在存储时，可以采用 Run Length Encoding 进行压缩存储，这种压缩后的存储方式就是稀疏型存储（HLL_SPARSE），对应的，未压缩前的存储方式就是密集型存储（HLL_DENSE）。两种存储方式对应的核心算法是一致的，只不过在持久化时采用不同的存储方式，介于篇幅的关系，本文只介绍密集型存储。

二、HyperLogLog 结构

1、HyperLogLog 头

无论是密集型存储还是稀疏型存储，都有一个头结构 hllhdr，定义如下：

struct hllhdr {
    char magic[4];      
    uint8_t encoding;   
    uint8_t notused[3]; 
    uint8_t card[8];    
    uint8_t registers[]; 
};

#define HLL_HDR_SIZE sizeof(struct hllhdr)
#define HLL_DENSE_SIZE (HLL_HDR_SIZE+((HLL_REGISTERS*HLL_BITS+7)/8))
#define HLL_DENSE 0
#define HLL_SPARSE 1

magic[4] 为四个 “魔法” （固定不变的意思）字符，即 “HYLL”，代表这是一个 HyperLogLog 结构，区分于普通的 sds 字符串；
encoding 代表存储的编码方式，总共两种：密集型编码存储 HLL_DENSE、稀疏型编码存储 HLL_SPARSE；
notused[3] 为三个暂时不用到的保留字节，值为0；
card[8] 以小端序存储了一个 64 位的整数，代表上次计算出来的近似集合基数。这个是很有用的，因为每次在执行集合插入的过程中，有很大概率是不会改变原有的数据结构的，这样这个近似的基数值就可以直接拿过来用而不需要重新计算。
registers[] 存储了寄存器，根据 encoding 来决定存储的编码方式。寄存器的作用会在下文中详述。以下是 HyperLogLog 的内存结构的示意图（可以理解成整个 HyperLogLog 结构就是一个以 "HYLL" 为首的 sds 字符串）：

2、HyperLogLog 寄存器

寄存器（register）又名桶（bucket），每个寄存器用来存储分配给它的元素在进行哈希后的 “最长 0 尾缀” 的值，HyperLogLog 正是利用所有寄存器的值来计算调和平均数，最终得到集合的基数的初始估计值。一些寄存器常量定义如下：

#define HLL_P 14
#define HLL_REGISTERS (1<<HLL_P)
#define HLL_P_MASK (HLL_REGISTERS-1)

#define HLL_BITS 6
#define HLL_REGISTER_MAX ((1<<HLL_BITS)-1)

HLL_P 的值越大，计算得到的基数的误差越小。HLL_REGISTERS 是寄存器的总数量，值为 16384 。HLL_P_MASK 用来将取模运算转化成位与，下面会讲到。

三、HyperLogLog 算法详解

1、最长 0 尾缀
在分析 HyperLogLog 算法之前，先来看下之前提到的 “最长 0 尾缀” 的实现方式，hllPatLen 的作用是将传入的字符串 ele，通过 MurmurHash64 哈希算法得到一个 64 比特的串，然后将这个串的低 14 位作为寄存器编号，高 50 用来计算 “0” 尾缀。那么顾名思义，“最长 0 尾缀” 就是在寄存器编号相同的情况下，“0” 尾缀的最大值。实现如下：

int hllPatLen(unsigned char *ele, size_t elesize, long *regp) {
    uint64_t hash, bit, index;
    int count;
    hash = MurmurHash64A(ele,elesize,0xadc83b19ULL);      /* a */
    index = hash & HLL_P_MASK;                            /* b */
    hash |= ((uint64_t)1<<63);                            /* c */
    bit = HLL_REGISTERS;
    count = 1;
    while((hash & bit) == 0) {
        count++;
        bit <<= 1;
    }
    *regp = (int) index;
    return count;
}

a、MurmurHash64A 是一个哈希算法：MurmurHash2。通过传入的字符串计算出一个 64 位的整数（其中 0xadc83b19ULL 是哈希计算时的种子 seed）。Redis 中的这个函数修改了一下，支持大端序和小端序两种版本。
b、hash & HLL_P_MASK 的含义是 hash % HLL_REGISTERS，作用是通过取模找到对应的寄存器。用 & 有两个好处：位运算速度远快于取模；取模可能产生负数，而 & 不会。寄存器编号会存储在 regp 并通过指针的方式返回出去。
c、从 hash 这个 64 位整数的低位开始第 14 位（即 HLL_P，0 - based）开始往高位一位一位的找，找到第一个值为 1 的位，中间如果有 k 个 0，则 “0” 尾缀的值 count = k + 1。为了不在 while 时产生死循环，将 hash 的最高位（第 63 位）用位或设置为 1。
如下图所示，分别表示两个 hash 值的 64 个比特位，内存从上往下递增，每个字节的右侧为比特位的低位（LSB），左侧为高位（MSB）。第一个 hash 从 14 位开始遍历 4 次找到第一个 1，所以“0” 尾缀的值为4；第二个 hash 的 14 位已经是 1 了，所以“0” 尾缀的值为 1 。

那么，所有的集合元素计算完毕，每个寄存器的值（最长0尾缀的值）也就得到了。

2、密集型存储
密集型存储相对于稀疏型存储来说比较简单，采用紧凑型的编码方式，每 HLL_BITS （默认为 6）个比特位存储一个寄存器，所以寄存器能够存储的最大值为 63 （二进制表示为 6 个 1），即 HLL_REGISTER_MAX 宏定义。
但是计算机存储的基本单元是字节，一个字节 8 个比特位，所以为了节约内存，某些寄存器是跨字节存储的。
如下图所示，红色代表 0 号寄存器的 6个比特位，橙色代表 1 号寄存器，黄色代表 2 号，以此类推。6 和 8 的最小公倍数为 24，所以 3个字节一个周期。每 3 个字节存储 4 个寄存器，总共 16384 个寄存器，占用字节数为 16384 / 4 * 3 = 12288 = 12K。

3、寄存器值获取
寄存器的获取通过宏 HLL_DENSE_GET_REGISTER 实现。源码实现如下：

#define HLL_DENSE_GET_REGISTER(target,p,regnum) do { \
    uint8_t *_p = (uint8_t*) p; \
    unsigned long _byte = regnum*HLL_BITS/8; \
    unsigned long _fb = regnum*HLL_BITS&7; \
    unsigned long _fb8 = 8 - _fb; \
    unsigned long b0 = _p[_byte]; \
    unsigned long b1 = _p[_byte+1]; \
    target = ((b0 >> _fb) | (b1 << _fb8)) & HLL_REGISTER_MAX; \
} while(0)

target 用于存储寄存器的值，当返回值用；p 是所有寄存器内存首地址；regnum 表示第几个寄存器（0-based）。这个宏定义的含义就是获取第 regnum 个寄存器存的值并且返回到 target 中。让我们来看下这些位运算的含义。
首先，由于寄存器的长度（6个比特位）小于 1 个字节的比特位长度，所以每个寄存器最多跨越两个字节，我们定义内存地址小的叫低字节，地址大的叫高字节。所以低字节的高 k 位和高字节的低 (6 - k) 位组成了一个完整的寄存器。如图所示，浅蓝色部分是一个完整的寄存器地址，它由低字节的高 2 位和高字节的低 4 位组成。

_byte 用来计算第 regnum 个寄存器的低字节相对于 p 的字节偏移量。那么 p[_byte] 和 p[_byte+1] 就分别代表了上文提到的低字节和高字节的值。_fb 的 “位与 7 ” 相当于 “模 8 ”，再用 8 去减后得到 _fb8，这里的 _fb8 就是上图中得到的 k 。最后 target 的值分四步获得：
(1) 低字节的值右移 ( 8 - k ) 位，得到 x；
(2) 高字节的值左移 k，得到 y；
(3) x 位或 y，得到 z；
(4) z 位与 HLL_REGISTER_MAX，截掉无用高位，得到最终值 target；
举例说明，当 regnum = 5 时，则需要取到蓝色寄存器的值，k 的值为 8 - 5 * 6 % 8 = 2。计算 target 的过程如下：

4、寄存器值设置
寄存器的设置通过宏 HLL_DENSE_SET_REGISTER 实现。源码实现如下：

#define HLL_DENSE_SET_REGISTER(p,regnum,val) do { \
    uint8_t *_p = (uint8_t*) p; \
    unsigned long _byte = regnum*HLL_BITS/8; \
    unsigned long _fb = regnum*HLL_BITS&7; \
    unsigned long _fb8 = 8 - _fb; \
    unsigned long _v = val; \
    _p[_byte] &= ~(HLL_REGISTER_MAX << _fb); \
    _p[_byte] |= _v << _fb; \
    _p[_byte+1] &= ~(HLL_REGISTER_MAX >> _fb8); \
    _p[_byte+1] |= _v >> _fb8; \
} while(0)

这个宏定义的含义就是将第 regnum 个寄存器存的值设置为 val 。和获取一样，同样需要分成高低两字节进行设置。假设低字节的高 k 位和高字节的低 (6 - k) 位组成了一个完整的寄存器。那么只要截取 val 的低 k 位和高 (6 - k) 位分别放到寄存器的对应位置就行了。
对于寄存器的低字节操作如下：
(1) HLL_REGISTER_MAX 左移 (8 - k) 位，然后取反得到 x ，使得 x 的高 k 位等于 0；
(2) 低字节位与上 x，目的是清空低字节的高 k 位的值；
(3) val 左移 (8 - k) 位得到 y ；
(4) 低字节位或 y ，将 val 的低 k 位填充到低字节的高 k 位上；
举例说明，当 regnum = 5 时，则需要设置蓝色寄存器的值，k 的值为 8 - 5 * 6 % 8 = 2。低字节的计算过程如下：

  对于寄存器的高字节操作如下：
  (1) HLL_REGISTER_MAX 右移 k 位，然后取反得到 x ，使得 x 的低 (6 - k) 位等于 0；
(2) 高字节位与上 x，目的是清空高字节的低 (6 - k) 位的值；
  (3) val 右移 k 位得到 y ；
  (4) 高字节位或 y ，将 val 的高 (6 - k) 位填充到高字节的低 (6 - k) 位上；
举例说明，同样当 regnum = 5 时，则需要设置蓝色寄存器的值，k 的值为 8 - 5 * 6 % 8 = 2。高字节的计算过程如下：

结合以上两种情况，我们就将 val 的值设置到蓝色寄存器上了，如图所示（val 前两个比特位为虚线是因为 val 的值不会超过 2 的 6 次减 1，即 63）：

5、集合添加元素
集合增加元素调用 hllAdd 接口，这对应的是更新 "最长 0 尾缀" 的过程，实现如下：

int hllAdd(robj *o, unsigned char *ele, size_t elesize) {
    struct hllhdr *hdr = o->ptr;
    switch(hdr->encoding) {
        case HLL_DENSE: return hllDenseAdd(hdr->registers,ele,elesize);
        case HLL_SPARSE: return hllSparseAdd(o,ele,elesize);
        default: return -1;
    }
}

根据存储方式选择不同的接口，密集型存储调用 hllDenseAdd，稀疏型存储调用 hllSparseAdd。稀疏型存储的实现相对较复杂，这里以密集型存储实现为例来说明实现机理。添加元素的过程的并非真正的元素添加，只有当传入的字符串算出来的 "最长 0 尾缀" 比对应寄存器中存的值大的时候才做更新，否则保持原样。主要用到了上文提到的两个宏定义：HLL_DENSE_GET_REGISTER 和 HLL_DENSE_SET_REGISTER。源码在 hyperloglog.c 中，实现如下：

int hllDenseAdd(uint8_t *registers, unsigned char *ele, size_t elesize) {
    uint8_t oldcount, count;
    long index;
    count = hllPatLen(ele,elesize,&index);
    HLL_DENSE_GET_REGISTER(oldcount,registers,index);
    if (count > oldcount) {
        HLL_DENSE_SET_REGISTER(registers,index,count);
        return 1;
    } else {
        return 0;
    }
}

6、集合元素统计
统计就是利用 16384 个寄存器计算调和平均数的过程，调用 hllCount 接口完成统计工作，实现如下：

uint64_t hllCount(struct hllhdr *hdr, int *invalid) {
    double m = HLL_REGISTERS;
    double E, alpha = 0.7213/(1+1.079/m);
    int j, ez;
    ...                                                               /* a */
    if (hdr->encoding == HLL_DENSE) {                                 /* b */
        E = hllDenseSum(hdr->registers,PE,&ez);
    } else if (hdr->encoding == HLL_SPARSE) {
        E = hllSparseSum(hdr->registers,
           sdslen((sds)hdr)-HLL_HDR_SIZE,PE,&ez,invalid);
    } else if (hdr->encoding == HLL_RAW) {
        E = hllRawSum(hdr->registers,PE,&ez);
    } else {
        serverPanic("Unknown HyperLogLog encoding in hllCount()");
    }
    E = (1/E)*alpha*m*m;                                              /* c */

    if (E < m*2.5 && ez != 0) {
        E = m*log(m/ez);                                              /* d */
    } else if (m == 16384 && E < 72000) {
        double bias = 5.9119*1.0e-18*(E*E*E*E)                        /* e */
                      -1.4253*1.0e-12*(E*E*E)+
                      1.2940*1.0e-7*(E*E)
                      -5.2921*1.0e-3*E+
                      83.3216;
        E -= E*(bias/100);
    }
    return (uint64_t) E;
}

a) 初始化计算 PE 的过程，PE[i] = 2 ^ (-i)，为了避免重复计算，节省时间，所以预处理在数组 PE[] 中；
b) hllDenseSum、hllSparseSum 分别表示在不同存储方式下计算调和平均数的分母（下文作详细讲解）。hllRawSum 是原生的存储方式，用1个字节代表一个寄存器，不对外开放，用于加速计算；
c) 这个公式是本文开始提到的初始估值的计算公式；
d) 数据量比较小时采用线性估值(Linear Counting)；
e) 误差修正；
hllDenseSum 求的是如下式子，其中 r 为寄存器数组，max 是寄存器数量：

先来看代码如何实现的，同样在 hyperloglog.c 中：

double hllDenseSum(uint8_t *registers, double *PE, int *ezp) {
    double E = 0;
    int j, ez = 0;
    if (HLL_REGISTERS == 16384 && HLL_BITS == 6) {
        uint8_t *r = registers;
        unsigned long r0, r1, r2, r3, r4, r5, r6, r7, r8, r9,
                      r10, r11, r12, r13, r14, r15;
        for (j = 0; j < 1024; j++) {
            r0 = r[0] & 63; if (r0 == 0) ez++;
            r1 = (r[0] >> 6 | r[1] << 2) & 63; if (r1 == 0) ez++;
                      ....... 此处省略，节约篇幅
            r14 = (r[10] >> 4 | r[11] << 4) & 63; if (r14 == 0) ez++;
            r15 = (r[11] >> 2) & 63; if (r15 == 0) ez++;
            E += (PE[r0] + PE[r1]) + (PE[r2] + PE[r3]) + (PE[r4] + PE[r5]) +
                 (PE[r6] + PE[r7]) + (PE[r8] + PE[r9]) + (PE[r10] + PE[r11]) +
                 (PE[r12] + PE[r13]) + (PE[r14] + PE[r15]);
            r += 12;
        }
    } else {
        for (j = 0; j < HLL_REGISTERS; j++) {
            unsigned long reg;
            HLL_DENSE_GET_REGISTER(reg,registers,j);
            if (reg == 0) ez++;
            else E += PE[reg];
        }
        E += ez;
    }
    *ezp = ez;
    return E;
}

计算密集型存储，各个寄存器的相反数作为指数，且底数为 2 的幂的和。其中 PE[i] = 2 ^ (-i)，为了避免重复计算，节省时间，所以预处理在数组 PE[] 中。*ezp 记录了值为 0 的寄存器数量。为了提高效率，当 HLL_REGISTERS 等于 16384 且 HLL_BITS 等于 6 时，这种属于默认情况，所以为了提高效率写了一堆位运算进行优化。如果已经理解寄存器的存储结构，那么这段代码很容易理解，它的执行效果和 else 语句里执行 HLL_REGISTERS 次 for 的效果是一样的，都是为了求 E = Sum(r, max)。

四、HyperLogLog 常用命令

1、pfadd 向集合中增加元素

pfadd key element [element ...]

127.0.0.1:6370> pfadd hyperloglog_key1 1 2 3 4 5 6
(integer) 1
127.0.0.1:6370> pfadd hyperloglog_key2 0 3 4 5 
(integer) 1

2、pfcount 统计集合中元素个数

pfcount key [key ...]

127.0.0.1:6370> pfcount hyperloglog_key1
(integer) 6
127.0.0.1:6370> pfcount hyperloglog_key2
(integer) 4
127.0.0.1:6370> pfcount hyperloglog_key1 hyperloglog_key2
(integer) 7

3、pfmerge 对集合作合并操作

pfmerge destkey sourcekey [sourcekey ...]

127.0.0.1:6370[1]> pfmerge hyperloglog_keymerge hyperloglog_key1 hyperloglog_key2
OK
127.0.0.1:6370[1]> pfcount hyperloglog_keymerge
(integer) 7

由于 HyperLogLog 结构并没有存储实际的集合元素，所以无法输出集合的成员。