纠删码--分布式存储数据备份

什么是纠删码

Erasure Code（简称 EC），即纠删码，是一种前向错误纠正技术（Forward Error Correction，FEC），主要应用在网络传输中避免包的丢失，存储系统利用它来提高存储、可靠性。相比多副本复制而言，纠删码能够以更小的数据冗余度获得更高数据可靠性，但编码方式较复杂，需要大量计算。纠删码只能容忍数据丢失，无法容忍数据篡改，纠删码正是得名与此。

EC 的定义：Erasure Code 是一种编码技术，它可以将 n 份原始数据，增加 m 份数据，并能通过 n+m 份中的任意 n 份数据，还原为原始数据。即如果有任意小于等于 m 份的数据失效，仍然能通过剩下的数据还原出来。

目前，纠删码技术在分布式存储系统中的应用主要有三类，阵列纠删码（Array Code: RAID5、RAID6等）、RS(Reed-Solomon)里德-所罗门类纠删码和 LDPC(LowDensity Parity Check Code)低密度奇偶校验纠删码。

RAID 是 EC 的特殊情况。在传统的 RAID 中，仅支持有限的磁盘失效，RAID5 只支持一个盘失效，RAID6 支持两个盘失效，而 EC 支持多个盘失效。

EC 主要运用于存储和数字编码领域。例如磁盘阵列存储（RAID 5、RAID 6），云存储（RS）等。

LDPC 码也可以提供很好的保障可靠性的冗余机制。与 RS 编码相比，LDPC 编码效率要略低，但编码和解码性能要优于 RS 码以及其他的纠删码，主要得益于编解码采用的相对较少并且简单的异或操作。LDPC 码目前主要用于通信、视频和音频编码等领域。

本文主要讲解 RS 类纠删码。

Reed-Solomon Code
RS code是基于有限域的一种编码算法，有限域又称为Galois Field，是以法国著名数学家伽罗华（Galois）命名的，在RS code中使用GF(2^w)，其中2 ^w >= n + m。

RS code 的编解码定义如下：

❝
编码：给定 n 个数据块（Data block）D1、D2……Dn，和一个正整数 m，RS 根据 n 个数据块生成 m 个编码块（Code block），C1、C2……Cm。
❞
RS 编码以 word 为编码和解码单位，大的数据块拆分到字长为 w（取值一般为8或者16位）的 word，然后对 word 进行编解码。数据块的编码原理与 word 编码原理相同，后文中一 word 为例说明，变量 Di, Ci 将代表一个 word。

把输入数据视为向量D=(D1，D2，…, Dn）, 编码后数据视为向量（D1, D2,…, Dn, C1, C2,…, Cm)，RS 编码可视为如下图所示矩阵运算。
在这里插入图片描述
上图最左边是编码矩阵（或称为生成矩阵、分布矩阵，Distribution Matrix），编码矩阵需要满足任意n*n子矩阵可逆。

为方便数据存储，编码矩阵上部是单位阵（n行n列），下部是m行n列矩阵。下部矩阵可以选择范德蒙德矩阵或柯西矩阵。
RS code编码数据恢复原理
RS最多能容忍m个数据块被删除。数据恢复的过程如下：

（1）假设D1、D4、C2丢失，从编码矩阵中删掉丢失的数据块/编码块对应的行。
在这里插入图片描述

根据图1所示RS编码运算等式，可以得到如下B’ 以及等式。
在这里插入图片描述
（2）由于B’ 是可逆的，记B’的逆矩阵为 (B’^-1)，则B’ * (B’^-1) = I 单位矩阵。两边左乘B’ 逆矩阵

（3）得到如下原始数据D的计算公式

即恢复原始数据D：

4）对D重新编码，可得到丢失的编码码