本文基于Github上的开发版。稳定版Redis 2.8中并无crc16.c文件，该文件后被收录到Redis 3.0版本中。

在阅读Redis源码的时候，看到了两个文件：crc16.c、crc64.c。下面我抛砖引玉，简析一下原理。

CRC即循环冗余校验码，是信息系统中一种常见的检错码。大学课程中的“计算机网络”、“计算机组成”等课程中都有提及。我们可能都了解它的数学原理，在试卷上手工计算一个CRC校验码，并不是难事。但是计算机不是人，现实世界中的数学原理需要转化为计算机算法才能实现目的。实际上作为计算机专业背景人并不会经常使用或接触到CRC的计算机算法实现的原理，通常是电子学科背景的人士会接触的比较多点。计算机当然是可以直接模拟出CRC的原始算法的（我们手工计算的算法），但是效率肯定不高。那我们来看一下计算机是如何实现CRC校验码算法的吧！

CRC概念

CRC基本原理不懂的，请移步维基百科：循环冗余检验码

通常根据CRC校验码的位数（也等于生成多项式【G(x)】最高的幂次）的不同来区分不同的CRC算法，如CRC-1、CRC-8、CRC-16等。幂次相同的情况下，不同的标准也有不同的CRC算法。比如G(x)最高次幂为16的时候有：CRC-16-CCITT、CRC-16-IBM等。Redis使用的是CRC-16-CCITT标准，即G(x)为：x¹⁶ + x¹² + x⁵ + 1 。

G(x)的通常表征方式是将多项式转换成二进制： 1 0001 0000 0010 0001。用十六进制表示为：0x11021。该数存储空间是17位（2个字节+1个位，C语言实际存储是3个字节），实际上，在模二除的时候，被除数的最高位 1 和除数最高位 1 总是对齐的，其异或结果，总为0，故可省略，则G(x) = 0x1021（2个字节），节省了一个字节的空间。

源码

redis的src目录下的 crc16.c文件：

static const uint16_t crc16tab[256]= {
    0x0000,0x1021,0x2042,0x3063,0x4084,0x50a5,0x60c6,0x70e7,
    0x8108,0x9129,0xa14a,0xb16b,0xc18c,0xd1ad,0xe1ce,0xf1ef,
    0x1231,0x0210,0x3273,0x2252,0x52b5,0x4294,0x72f7,0x62d6,
    0x9339,0x8318,0xb37b,0xa35a,0xd3bd,0xc39c,0xf3ff,0xe3de,
    0x2462,0x3443,0x0420,0x1401,0x64e6,0x74c7,0x44a4,0x5485,
    0xa56a,0xb54b,0x8528,0x9509,0xe5ee,0xf5cf,0xc5ac,0xd58d,
    0x3653,0x2672,0x1611,0x0630,0x76d7,0x66f6,0x5695,0x46b4,
    0xb75b,0xa77a,0x9719,0x8738,0xf7df,0xe7fe,0xd79d,0xc7bc,
    0x48c4,0x58e5,0x6886,0x78a7,0x0840,0x1861,0x2802,0x3823,
    0xc9cc,0xd9ed,0xe98e,0xf9af,0x8948,0x9969,0xa90a,0xb92b,
    0x5af5,0x4ad4,0x7ab7,0x6a96,0x1a71,0x0a50,0x3a33,0x2a12,
    0xdbfd,0xcbdc,0xfbbf,0xeb9e,0x9b79,0x8b58,0xbb3b,0xab1a,
    0x6ca6,0x7c87,0x4ce4,0x5cc5,0x2c22,0x3c03,0x0c60,0x1c41,
    0xedae,0xfd8f,0xcdec,0xddcd,0xad2a,0xbd0b,0x8d68,0x9d49,
    0x7e97,0x6eb6,0x5ed5,0x4ef4,0x3e13,0x2e32,0x1e51,0x0e70,
    0xff9f,0xefbe,0xdfdd,0xcffc,0xbf1b,0xaf3a,0x9f59,0x8f78,
    0x9188,0x81a9,0xb1ca,0xa1eb,0xd10c,0xc12d,0xf14e,0xe16f,
    0x1080,0x00a1,0x30c2,0x20e3,0x5004,0x4025,0x7046,0x6067,
    0x83b9,0x9398,0xa3fb,0xb3da,0xc33d,0xd31c,0xe37f,0xf35e,
    0x02b1,0x1290,0x22f3,0x32d2,0x4235,0x5214,0x6277,0x7256,
    0xb5ea,0xa5cb,0x95a8,0x8589,0xf56e,0xe54f,0xd52c,0xc50d,
    0x34e2,0x24c3,0x14a0,0x0481,0x7466,0x6447,0x5424,0x4405,
    0xa7db,0xb7fa,0x8799,0x97b8,0xe75f,0xf77e,0xc71d,0xd73c,
    0x26d3,0x36f2,0x0691,0x16b0,0x6657,0x7676,0x4615,0x5634,
    0xd94c,0xc96d,0xf90e,0xe92f,0x99c8,0x89e9,0xb98a,0xa9ab,
    0x5844,0x4865,0x7806,0x6827,0x18c0,0x08e1,0x3882,0x28a3,
    0xcb7d,0xdb5c,0xeb3f,0xfb1e,0x8bf9,0x9bd8,0xabbb,0xbb9a,
    0x4a75,0x5a54,0x6a37,0x7a16,0x0af1,0x1ad0,0x2ab3,0x3a92,
    0xfd2e,0xed0f,0xdd6c,0xcd4d,0xbdaa,0xad8b,0x9de8,0x8dc9,
    0x7c26,0x6c07,0x5c64,0x4c45,0x3ca2,0x2c83,0x1ce0,0x0cc1,
    0xef1f,0xff3e,0xcf5d,0xdf7c,0xaf9b,0xbfba,0x8fd9,0x9ff8,
    0x6e17,0x7e36,0x4e55,0x5e74,0x2e93,0x3eb2,0x0ed1,0x1ef0
};

uint16_t crc16(const char *buf, int len) {
    int counter;
    uint16_t crc = 0;
    for (counter = 0; counter < len; counter++)
            crc = (crc<<8) ^ crc16tab[((crc>>8) ^ *buf++)&0x00FF];
    return crc;
}

前文提到了CRC校验码不同的机构有不同的标准，这里Redis遵循的标准是CRC-16-CCITT标准，这也是被XMODEM协议使用的CRC标准，所以也常用XMODEM CRC代指。

该段代码的算法原理并不是作者首创的，这是比较经典的“基于字节查表法的CRC校验码生成算法”。

下面内容节选自一篇论文（请见最后的“参考资料”）。

其实原文中在这里之后还有两步化简，不过感觉不需要理解了。注意上面的符号都是模二的，分数线【——】是模二除，加号【+】是模二加，即异或运算。

这里先明确几个概念：

CRC16的校验码是两个字节，所以Redis的源码中使用了 uint16_t类型（unsigned short int）
CRC16要校验的数据位是8位
在求解CRC校验码的过程中，会用到模二除，实际我们最后不关心它的商Q(x)，只关心关心余数R(x)，它也是两个字节的大小
余数R(x)分为高字节RH(x)和低字节RL(x)两个部分：R(x) = RH(x) * X^8 + RL(x) （这个+，可以理解成异或，也可以理解成+号）
任何数和0异或结果还是这个数

观察最后一个多项式的第二个部分，可以发现这也是一个CRC校验码计算过程，它求解的数据是方括号内的内容——原校验码的高字节与当前数据位进行异或运算，设其结果为Dnew，然后对Dnew再求一次CRC校验码，设其结果为CRC（Dnew），再将CRC（Dnew）和原校验码的低字节进行异或。

上面等式，我简单概括一下（商可忽略）：

CRC(Mn+1(x)) = CRC(RnH(x) + M0(x)) + (RnL(x) * X^8)/G(x)

可以发现这个等式，等号左右两边都用到了CRC算法，不过其参数不同，很明显这是一个递归的形式。如果直接用计算机模拟这个公式，其时间效率是很低的，所以发明了“查表法”。

因为CRC算法要校验的数据位是8位的，所以CRC算法的参数只有256种可能，所以事先将这256中参数（数据位）的CRC校验码计算出来，保存到数组之中，这个实际计算CRC校验码的时候，直接查表就可以了，其时间复杂度是O(1)。

CRC16查表法的推广

在Redis源码目录下，还有一个crc64的文件，即64位CRC校验码的算法，实际上和CRC16查表法的原理是一样的，它也是校验的8位数据，所以其事先生成的CRC表（数组）中也是有256个元素，不过其中每个元素都是uint64_t类型（unsigned long int）

CRC16的查表法当然还可以推广到CRC32算法中。这里还要提一下，该算法不一定是对8位数据进行校验，也可以对16位进行校验，这是CRC表中就需要有65536(2^16)个元素，浪费存储空间。也可以对半字节（4位）进行校验，这时CRC表要存储的元素个数是32（2^4），虽然节省了内存，但是同样的数据，每次只校验四个字节的话，会导致校验的次数增加很多，花费的计算时间变多。所以每次校验8字节，是在综合了时间和空间效率的前提下的一种折中方案。

很多算法都是时间和空间，二者不可得兼的。

--------------------------------------------

参考资料

原明亭蒋伟. 基于字节查表的循环冗余校验码的软件生成算法. 山东：山东矿业学院学报（自然科学版）， 1999，第18卷第2期

Redis源码中的CRC校验码（crc16、crc64）原理浅析

CRC概念

源码

CRC16查表法的推广

参考资料

猜你喜欢