磁盘阵列（Raid）详解

一. JBOD

JBOD （ Just a Bunch Of Disks ）不是标准的 RAID 等级，它通常用来表示一个没有控制软件提供协调控制的磁盘集合。 JBOD 将多个物理磁盘串联起来，提供一个巨大的逻辑磁盘。 JBOD （如图 1 ）的数据存放机制是由第一块磁盘开始按顺序往后存储，当前磁盘存储空间用完后，再依次往后面的磁盘存储数据。 JBOD 存储性能完全等同于单块磁盘，而且也不提供数据安全保护。它只是简单提供一种扩展存储空间的机制， JBOD 可用存储容量等于所有成员磁盘的存储空间之和。目前 JBOD 常指磁盘柜，而不论其是否提供 RAID 功能。如下图：
在这里插入图片描述

二.标准RAID等级

1.RAID0

RAID0 是一种简单的、无数据校验的数据条带化技术。实际上不是一种真正的 RAID ，因为它并不提供任何形式的冗余策略。 RAID0 将所在磁盘条带化后组成大容量的存储空间（如图 2 所示），将数据分散存储在所有磁盘中，以独立访问方式实现多块磁盘的并读访问。由于可以并发执行 I/O 操作，总线带宽得到充分利用。再加上不需要进行数据校验，RAID0 的性能在所有 RAID 等级中是最高的。理论上讲，一个由 n 块磁盘组成的 RAID0 ，它的读写性能是单个磁盘性能的 n 倍，但由于总线带宽等多种因素的限制，实际的性能提升低于理论值。

RAID0 具有低成本、高读写性能、 100% 的高存储空间利用率等优点，但是它不提供数据冗余保护，一旦数据损坏，将无法恢复。因此， RAID0 一般适用于对性能要求严格但对数据安全性和可靠性不高的应用，如视频、音频存储、临时数据缓存空间等。（ RAID0 ：无冗错的数据条带）
在这里插入图片描述
2.RAID1

RAID1 称为镜像，它将数据完全一致地分别写到工作磁盘和镜像磁盘，它的磁盘空间利用率为 50% 。 RAID1 在数据写入时，响应时间会有所影响，但是读数据的时候没有影响。 RAID1 提供了最佳的数据保护，一旦工作磁盘发生故障，系统自动从镜像磁盘读取数据，不会影响用户工作。工作原理如图 3 所示。

RAID1 与 RAID0 刚好相反，是为了增强数据安全性使两块磁盘数据呈现完全镜像，从而达到安全性好、技术简单、管理方便。 RAID1 拥有完全容错的能力，但实现成本高。 RAID1 应用于对顺序读写性能要求高以及对数据保护极为重视的应用，如对邮件系统的数据保护。（RAID1 ：无校验的相互镜像）
　　在这里插入图片描述
　　3.RAID2

RAID2 称为纠错海明码磁盘阵列，其设计思想是利用海明码实现数据校验冗余。海明码是一种在原始数据中加入若干校验码来进行错误检测和纠正的编码技术，其中第 2n 位（ 1, 2, 4, 8, … ）是校验码，其他位置是数据码。因此在 RAID2 中，数据按位存储，每块磁盘存储一位数据编码，磁盘数量取决于所设定的数据存储宽度，可由用户设定。图 4 所示的为数据宽度为 4 的 RAID2 ，它需要 4 块数据磁盘和 3 块校验磁盘。如果是 64 位数据宽度，则需要 64 块数据磁盘和 7 块校验磁盘。可见， RAID2 的数据宽度越大，存储空间利用率越高，但同时需要的磁盘数量也越多。

海明码自身具备纠错能力，因此 RAID2 可以在数据发生错误的情况下对纠正错误，保证数据的安全性。它的数据传输性能相当高，设计复杂性要低于后面介绍的 RAID3 、 RAID4 和 RAID5 。

但是，海明码的数据冗余开销太大，而且 RAID2 的数据输出性能受阵列中最慢磁盘驱动器的限制。再者，海明码是按位运算， RAID2 数据重建非常耗时。由于这些显著的缺陷，再加上大部分磁盘驱动器本身都具备了纠错功能，因此 RAID2 在实际中很少应用，没有形成商业产品，目前主流存储磁盘阵列均不提供 RAID2 支持。（RAID2 ：海明码校验）
　　在这里插入图片描述
　　4.RAID3
　　RAID3 （图 5 ）是使用专用校验盘的并行访问阵列，它采用一个专用的磁盘作为校验盘，其余磁盘作为数据盘，数据按位可字节的方式交叉存储到各个数据盘中。RAID3 至少需要三块磁盘，不同磁盘上同一带区的数据作 XOR 校验，校验值写入校验盘中。 RAID3 完好时读性能与 RAID0 完全一致，并行从多个磁盘条带读取数据，性能非常高，同时还提供了数据容错能力。向 RAID3 写入数据时，必须计算与所有同条带的校验值，并将新校验值写入校验盘中。一次写操作包含了写数据块、读取同条带的数据块、计算校验值、写入校验值等多个操作，系统开销非常大，性能较低。

如果 RAID3 中某一磁盘出现故障，不会影响数据读取，可以借助校验数据和其他完好数据来重建数据。假如所要读取的数据块正好位于失效磁盘，则系统需要读取所有同一条带的数据块，并根据校验值重建丢失的数据，系统性能将受到影响。当故障磁盘被更换后，系统按相同的方式重建故障盘中的数据至新磁盘。

RAID3 只需要一个校验盘，阵列的存储空间利用率高，再加上并行访问的特征，能够为高带宽的大量读写提供高性能，适用大容量数据的顺序访问应用，如影像处理、流媒体服务等。目前， RAID5 算法不断改进，在大数据量读取时能够模拟 RAID3 ，而且 RAID3 在出现坏盘时性能会大幅下降，因此常使用 RAID5 替代 RAID3 来运行具有持续性、高带宽、大量读写特征的应用。（RAID3 ：带有专用位校验的数据条带）
　　在这里插入图片描述
　　5.RAID4

RAID4 与 RAID3 的原理大致相同，区别在于条带化的方式不同。 RAID4 （图 6 ）按照块的方式来组织数据，写操作只涉及当前数据盘和校验盘两个盘，多个 I/O 请求可以同时得到处理，提高了系统性能。 RAID4 按块存储可以保证单块的完整性，可以避免受到其他磁盘上同条带产生的不利影响。

RAID4 在不同磁盘上的同级数据块同样使用 XOR 校验，结果存储在校验盘中。写入数据时， RAID4 按这种方式把各磁盘上的同级数据的校验值写入校验盘，读取时进行即时校验。因此，当某块磁盘的数据块损坏， RAID4 可以通过校验值以及其他磁盘上的同级数据块进行数据重建。

RAID4 提供了非常好的读性能，但单一的校验盘往往成为系统性能的瓶颈。对于写操作， RAID4 只能一个磁盘一个磁盘地写，并且还要写入校验数据，因此写性能比较差。而且随着成员磁盘数量的增加，校验盘的系统瓶颈将更加突出。正是如上这些限制和不足， RAID4 在实际应用中很少见，主流存储产品也很少使用 RAID4 保护。（RAID4 ：带有专用块级校验的数据条带）
　　在这里插入图片描述
　　6.RAID5

RAID5 应该是目前最常见的 RAID 等级，它的原理与 RAID4 相似，区别在于校验数据分布在阵列中的所有磁盘上，而没有采用专门的校验磁盘。对于数据和校验数据，它们的写操作可以同时发生在完全不同的磁盘上。因此， RAID5 不存在 RAID4 中的并发写操作时的校验盘性能瓶颈问题。另外， RAID5 还具备很好的扩展性。当阵列磁盘数量增加时，并行操作量的能力也随之增长，可比 RAID4 支持更多的磁盘，从而拥有更高的容量以及更高的性能。

RAID5 （图 7）的磁盘上同时存储数据和校验数据，数据块和对应的校验信息存保存在不同的磁盘上，当一个数据盘损坏时，系统可以根据同一条带的其他数据块和对应的校验数据来重建损坏的数据。与其他 RAID 等级一样，重建数据时， RAID5 的性能会受到较大的影响。

RAID5 兼顾存储性能、数据安全和存储成本等各方面因素，它可以理解为 RAID0 和 RAID1 的折中方案，是目前综合性能最佳的数据保护解决方案。 RAID5 基本上可以满足大部分的存储应用需求，数据中心大多采用它作为应用数据的保护方案。（RAID5 ：带分散校验的数据条带）
　　在这里插入图片描述
　　7.RAID6

前面所述的各个 RAID 等级都只能保护因单个磁盘失效而造成的数据丢失。如果两个磁盘同时发生故障，数据将无法恢复。 RAID6 （如图 8 ）引入双重校验的概念，它可以保护阵列中同时出现两个磁盘失效时，阵列仍能够继续工作，不会发生数据丢失。 RAID6 等级是在 RAID5 的基础上为了进一步增强数据保护而设计的一种 RAID 方式，它可以看作是一种扩展的 RAID5 等级。

RAID6 不仅要支持数据的恢复，还要支持校验数据的恢复，因此实现代价很高，控制器的设计也比其他等级更复杂、更昂贵。 RAID6 思想最常见的实现方式是采用两个独立的校验算法，假设称为 P 和 Q ，校验数据可以分别存储在两个不同的校验盘上，或者分散存储在所有成员磁盘中。当两个磁盘同时失效时，即可通过求解两元方程来重建两个磁盘上的数据。

RAID6 具有快速的读取性能、更高的容错能力。但是，它的成本要高于 RAID5 许多，写性能也较差，并有设计和实施非常复杂。因此， RAID6 很少得到实际应用，主要用于对数据安全等级要求非常高的场合。它一般是替代 RAID10 方案的经济性选择。（RAID6 ：带双重分散校验的数据条带）
　　在这里插入图片描述

三.RAID 组合等级

标准 RAID 等级各有优势和不足。自然地，我们想到把多个 RAID 等级组合起来，实现优势互补，弥补相互的不足，从而达到在性能、数据安全性等指标上更高的 RAID 系统。目前在业界和学术研究中提到的 RAID 组合等级主要有 RAID00 、 RAID01 、 RAID10 、 RAID100 、 RAID30 、 RAID50 、 RAID53 、 RAID60 ，但实际得到较为广泛应用的只有 RAID01 和 RAID10 两个等级。当然，组合等级的实现成本一般都非常昂贵，只是在少数特定场合应用。 [12]

1.RAID00

简单地说， RAID00 是由多个成员 RAID0 组成的高级 RAID0 。它与 RAID0 的区别在于， RAID0 阵列替换了原先的成员磁盘。可以把 RAID00 理解为两层条带化结构的磁盘阵列，即对条带再进行条带化。这种阵列可以提供更大的存储容量、更高的 I/O 性能和更好的 I/O 负均衡。

2. RAID01 和 RAID10

一些文献把这两种 RAID 等级看作是等同的，本文认为是不同的。 RAID01 是先做条带化再作镜像，本质是对物理磁盘实现镜像；而 RAID10 是先做镜像再作条带化，是对虚拟磁盘实现镜像。相同的配置下，通常 RAID01 比 RAID10 具有更好的容错能力，原理如图 9 所示。

RAID01 兼备了 RAID0 和 RAID1 的优点，它先用两块磁盘建立镜像，然后再在镜像内部做条带化。 RAID01 的数据将同时写入到两个磁盘阵列中，如果其中一个阵列损坏，仍可继续工作，保证数据安全性的同时又提高了性能。 RAID01 和 RAID10 内部都含有 RAID1 模式，因此整体磁盘利用率均仅为 50% 。
　　(典型的 RAID01 （上）和 RAID10 （下）模型)
　　在这里插入图片描述
　　
　　3.RAID100
　　通常看作 RAID 1+0+0 ，有时也称为 RAID 10+0 ，即条带化的 RAID10 。原理如图 10 所示。 RAID100 的缺陷与 RAID10 相同，任意一个 RAID1 损坏一个磁盘不会发生数据丢失，但是剩下的磁盘存在单点故障的危险。最顶层的 RAID0 ，即条带化任务，通常由软件层来完成。

RAID100 突破了单个 RAID 控制器对物理磁盘数量的限制，可以获得更高的 I/O 负载均衡， I/O 压力分散到更多的磁盘上，进一步提高随机读性能，并有效降低热点盘故障风险。因此， RAID100 通常是大数据库的最佳选择。
　在这里插入图片描述　
4.RAID30 （ RAID53 ）、 RAID50 和 RAID60

这三种 RAID 等级与 RAID00 原理基本相同，区别在于成员 “ 磁盘 ” 换成了 RAID3 、 RAID5 和 RAID6 ，分别如图 11 、 12 、 13 所示。其中， RAID30 通常又被称为 RAID53[13] 。其实，可把这些等级 RAID 统称为 RAID X0 等级， X 可为标准 RAID 等级，甚至组合等级（如 RAID100 ）。利用多层 RAID 配置，充分利用 RAID X 与 RAID0 的优点，从而获得在存储容量、数据安全性和 I/O 负载均衡等方面的大幅性能提升。
　　典型的 RAID30 模型
　　在这里插入图片描述
　　典型的 RAID50 模型
　　
　　典型的 RAID60 模型
　　

四、实现方式

通常计算机功能既可以由硬件来实现，也可以由软件来实现。对于 RAID 系统而言，自然也不例外，它可以采用软件方式实现，也可以采用硬件方式实现，或者采用软硬结合的方式实现。 [3][8]

1 .软 RAID

软 RAID 没有专用的控制芯片和 I/O 芯片，完全由操作系统和 CPU 来实现所的 RAID 的功能。现代操作系统基本上都提供软 RAID 支持，通过在磁盘设备驱动程序上添加一个软件层，提供一个物理驱动器与逻辑驱动器之间的抽象层。目前，操作系统支持的最常见的 RAID 等级有 RAID0 、 RAID1 、 RAID10 、 RAID01 和 RAID5 等。比如， Windows Server 支持 RAID0 、 RAID1 和 RAID5 三种等级， Linux 支持 RAID0 、 RAID1 、 RAID4 、 RAID5 、 RAID6 等， Mac OS X Server 、 FreeBSD 、 NetBSD 、 OpenBSD 、 Solaris 等操作系统也都支持相应的 RAID 等级。

软 RAID 的配置管理和数据恢复都比较简单，但是 RAID 所有任务的处理完全由 CPU 来完成，如计算校验值，所以执行效率比较低下，这种方式需要消耗大量的运算资源，支持 RAID 模式较少，很难广泛应用。
　　软 RAID 由操作系统来实现，因此系统所在分区不能作为 RAID 的逻辑成员磁盘，软 RAID 不能保护系统盘 D 。对于部分操作系统而言， RAID 的配置信息保存在系统信息中，而不是单独以文件形式保存在磁盘上。这样当系统意外崩溃而需要重新安装时， RAID 信息就会丢失。另外，磁盘的容错技术并不等于完全支持在线更换、热插拔或热交换，能否支持错误磁盘的热交换与操作系统实现相关，有的操作系统热交换。

2 .硬 RAID

硬 RAID 拥有自己的 RAID 控制处理与 I/O 处理芯片，甚至还有阵列缓冲，对 CPU 的占用率和整体性能是三类实现中最优的，但实现成本也最高的。硬 RAID 通常都支持热交换技术，在系统运行下更换故障磁盘。
　　
　　硬 RAID 包含 RAID 卡和主板上集成的 RAID 芯片，服务器平台多采用 RAID 卡。 RAID 卡由 RAID 核心处理芯片（ RAID 卡上的 CPU ）、端口、缓存和电池 4 部分组成。其中，端口是指 RAID 卡支持的磁盘接口类型，如 IDE/ATA 、 SCSI 、 SATA 、 SAS 、 FC 等接口。
　　3 .软硬混合 RAID

软 RAID 性能欠佳，而且不能保护系统分区，因此很难应用于桌面系统。而硬 RAID 成本非常昂贵，不同 RAID 相互独立，不具互操作性。因此，人们采取软件与硬件结合的方式来实现 RAID ，从而获得在性能和成本上的一个折中，即较高的性价比。

这种 RAID 虽然采用了处理控制芯片，但是为了节省成本，芯片往往比较廉价且处理能力较弱， RAID 的任务处理大部分还是通过固件驱动程序由 CPU 来完成。

五、RAID 应用选择

RAID 等级的选择主要有三个因素，即数据可用性、 I/O 性能和成本。　目前，在实际应用中常见的主流 RAID 等级是 RAID0 ， RAID1 ， RAID3 ， RAID5 ， RAID6 和 RAID10 ，它们之间的技术对比情况如表 1 所示。如果不要求可用性，选择 RAID0 以获得高性能。如果可用性和性能是重要的，而成本不是一个主要因素，则根据磁盘数量选择 RAID1 。如果可用性，成本和性能都同样重要，则根据一般的数据传输和磁盘数量选择 RAID3 或 RAID5 。在实际应用中，应当根据用户的数据应用特点和具体情况，综合考虑可用性、性能和成本来选择合适的 RAID 等级。 [10]

表1 主流 RAID 等级技术对比

RAID 等级  	RAID0 	RAID1      RAID3	           RAID5	         RAID6	       RAID10
别名	      条带	      镜像	  专用奇偶校验条带	 分布奇偶校验条带	双重奇偶校验条带	镜像加条带
容错性  	 无	       有       	有        	      有	           有	         有
冗余类型	 无	       有	      有	            有               有	         有
热备份选择	 无	       有	      有	            有	           有	         有
读性能	       高	       低       	高              	高	            高	         高
随机写性能  	 高	       低	      低	           一般	            低	        一般
连续写性能	 高	       低	      低	            低	            低	        一般
需要磁盘数	 n≥1	     2n (n≥1)	n≥3	           n≥3	           n≥4	      2n(n≥2)≥4
可用容量 	 全部	       50%	    (n-1)/n	    (n-1)/n	    (n-2)/n	   50%

近年来，企业的信息化水平不断发展，数据已经取代计算成为了信息计算的中心，信息数据的安全性就显得尤为至关重要。随着存储技术的持续发展， RAID 技术在成本、性能、数据安全性等诸多方面都将优于其他存储技术，例如磁带库、光盘库等，大多数企业数据中心首选 RAID 作为存储系统。当前存储行业的知名存储厂商均提供全线的磁盘阵列产品，包括面向个人和中小企业的入门级的低端 RAID 产品，面向大中型企业的中高端 RAID 产品。这些存储企业包括了国内外的主流存储厂商，如 EMC 、 IBM 、 HP 、 SUN 、 NetApp 、 NEC 、 HDS 、 H3C 、 Infortrend 、华赛等。另外，这些厂商在提供存储硬件系统的同时，还往往提供非常全面的软件系统，这也是用户采购产品的一个主要参考因素。

不同的存储厂商的产品在技术、成本、性能、管理、服务等方面各有优势和不足。用户选择 RAID 的原则是：在成本预算内，满足数据存储需求的前提下，选择最优的存储厂商解决方案。因此，首先用户需要对存储需求作深入的调研和分析，并给出成本预算，然后对众多存储厂商的解决方案进行分析和对比，最后选择出一个综合最优的存储方案。其中，存储产品的扩展性和存储厂家的售后服务需要重点考察，存储需求（如容量、性能）可能会不断升级，存储产品发生故障后的维修和支持保障，这些都要未雨先缪。