华为云计算HCIA(二)-存储

目录

目录

存储技术基础

狭义的存储定义:CD、DVD、ZIP,磁带,硬盘等存储介质

广义的存储定义:

▫ 存储硬件系统(磁盘阵列,控制器,磁盘柜,磁带库等)

▫ 存储软件(备份软件,管理软件,快照,复制等增值软件)

▫ 存储网络(HBA卡,光纤交换机,FC/SAS线缆等)

▫ 存储解决方案(集中存储,归档,备份,容灾等)

 存储架构的发展历程经历了传统存储、外挂存储、存储网络、分布式存储和云存储几 个阶段。

SAN是典型的存储网络,主要使用FC网络传输数据,随后出现了IP存储区域网络。

外挂存储即直连存储,最早的形态是JBOD,仅仅是将一些磁盘串联在一起,被称为 JBOD(Just a Bunch Of Disks,磁盘簇),主机看到的就是一堆独立的硬盘,只增加 了容量,无法提供安全保障。

• 分布式存储采用通用服务器硬件构建存储资源池,更适合云计算的场景。

 

 DAS存储简介

 DAS(Direct Attached Storage)

时间:70年代

背景:用户最早因为数据量的增多而产生存 储的需求,从而产生最早最简单的存储架构: 直连附加存储DAS

连接方式:FC,SCSI,SAS

访问方式:直连式存储与服务器主机之间的 连接通道通常采用SAS连接

链路速率:3 Gbit/s、6 Gbit/s、12 Gbit/s

提供快照、备份等功能

NAS存储简介(1)

开发NFS是为了允许在局域网上的系统之间共享文件。

Linux NFS客户端支持三个版本的NFS协议:NFSv2 [RFC1094]、NFSv3 [RFC1813] 和NFSv4 [RFC3530]。其中NFSv2使用UDP协议,数据访问和传输能力有限,已经过时;

NFS的工作机制:主要是采用远程过程调用RPC机制。

▫ RPC提供了一组与机器、操作系统以及低层传送协议无关的存取远程文件的操 作,允许远程客户端以与本地文件系统类似的方式,来通过网络进行访问。

▫ NFS客户端向NFS服务器端发起RPC请求,服务器将请求传递给本地文件访问进 程,进而读取服务器主机上的本地磁盘文件,返回给客户端。

CIFS(Common Internet File System)是一种网络文件系统协议,用于在网络上的 机器之间提供对文件和打印机的共享访问。现在主要实现在Windows主机之间进行网 络文件共享功能。

NAS存储简介(2)

NAS:Network Attached Storage,网络附加存储,是一种将分布、独立的数据进行整合,集中 化管理,以便于对不同主机和应用服务器进行访问的技术。

NAS可作为网络节点,直接接入网络中,理论上NAS可支持各种网络技术,支持多种 网络拓扑,但是以太网是目前最普遍的一种网络连接方式,我们主要讨论是以以太网 为网络基础的NAS环境。

NAS本身能够支持多种协议(如NFS、CIFS等),而且能够支持各种操作系统。通过 任何一台工作站,采用IE或Netscape浏览器就可以对NAS设备进行直观方便的管理。

SAN存储简介

SAN:Storage Area Networks,存储区域网络,是通过专用高速网将一个或多个网络存储设备和 服务器连接起来的专用存储系统。

存储区域网络(Storage Area Networks,SAN):一个存储网络是一个用在服务器 和存储资源之间的、专用的、高性能的网络体系。 SAN是独立于LAN的服务器后端存 储专用网络。 SAN采用可扩展的网络拓扑结构连接服务器和存储设备,每个存储设 备不隶属于任何一台服务器,所有的存储设备都可以在全部的网络服务器之间作为对 等资源共享。

SAN主要利用Fibre Channel Protocol(光纤通道协议),通过FC交换机建立起与服 务器和存储设备之间的直接连接,因此我们通常也称这种利用FC连接建立起来的SAN 为FC-SAN。FC特别适合这项应用,原因在于一方面它可以传输大块数据,另一方面 它能够实现较远距离传输。SAN主要应用在对于性能、冗余度和数据的可获得性都有 很高要求的高端、企业级存储应用上。

随着存储技术的发展,目前基于TCP/IP协议的IP-SAN也得到很广泛的应用。IP-SAN 具备很好的扩展性、灵活的互通性,并能够突破传输距离的限制,具有明显的成本优 势和管理维护容易等特点。

NAS和SAN最大的区别就在于NAS有文件操作和管理系统,而SAN却没有这样的系统 功能,其功能仅仅停留在文件管理的下一层,即数据管理。SAN和NAS并不是相互冲 突的,是可以共存于一个系统网络中的,但NAS通过一个公共的接口实现空间的管理 和资源共享,SAN仅仅是为服务器存储数据提供一个专门的快速后方存储通道。

• FC:Fiber Channel,光纤通道,是指一种用于在光纤或者铜缆上传输100 Mbit/s到 4.25 Gbit/s信号的标准数据存储网络。用于建立存储区域网的高速传输技术。光纤通 道能够用于支持ATM, IP等协议的一般网络,但它主要用途是从服务器上传输小型 计算机系统接口(SCSI)流量到磁盘阵列。

 iSCSI:Internet Small Computer System Interface,Internet小型计算机系统接口, 是一种基于因特网及SCSI-3协议下的存储技术,它将原来只用于本机的SCSI协议透过 TCP/IP网络发送,使连接距离可作无限延伸。

三种存储组网总结对比

存储形态简介

集中式存储

集中式存储系统,即整个存储是集中在一个系统中的。企业级的存储设备一般都是集中式存储。但集中式存储并不是一个 单独的设备,是集中在一套系统当中的多个设备。以华为公司的存储为例,整个存储系统可能需要几个机柜来存放。集中 式存储按照技术架构可以划分为SAN和NAS,其中SAN又可以细分为FC-SAN、IP-SAN。

集中式存储最大的特点就是部署结构简单,无需考虑如何对服务进行多个节点的部署,也就不用考虑多个节点之间的分布 式协作问题。

集中式存储的缺点:

▫ 孤立的存储资源,存储通过专用网络连接到有限数量的服务器;

▫ 集中式纵向扩容通过增加硬盘框实现,硬件控制器性能(单控制器带盘能力) 成为瓶颈;

▫ 集中式存储横向扩容需要通过控制器全连接实现,硬件控制器性能成为扩容瓶 颈;

▫ 集中式存储资源缺乏共享,存储设备和资源往往由不同厂家提供,设备之间无 法进行资源共享,数据中心看到的是一个个孤立的存储池;

▫ 集中式存储采用集中式元数据管理方式,系统所能提供的并发操作能力将受限 于元数据服务的性能,元数据服务也将会成为系统的性能瓶颈;

分布式存储

分布式存储系统,是将数据分散存储在多台独立的服务器上。分布式网络存储系统采用可扩展的系统结构,利用多台存储 服务器分担存储负荷,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。随着分布式存储越来越普及,现在 一些对性能要求比较高的应用也开始使用分布式存储,比如金融系统的数据库。

分布式存储利用软件重构存储服务形式,通过软件模拟原先硬件控制器实现功能的同 时,规避硬件控制器的种种弊端。

资源池:类似于SAN的RAID组概念。

存储业务类型

对象存储是一种新兴存储技术,对象存储系统综合了NAS和SAN的优点,同时具有 SAN的高速直接访问和NAS的数据共享等优势,提供了高可靠性、跨平台性以及安全 的数据共享的存储体系结构。对象存储与块存储、文件存储的对比如下:

▫ 块存储对存储层直接访问,开销最小,效率最高,速度最快。但成本最高,扩 展困难。块存储采用iSCSI/FC协议,很难跨网络传输。适合的应用场景是企业 数据库,如运行Oracle等;

▫ 文件存储是在块存储之上构建了文件系统,采用目录-目录-文件的方式组织数 据,更容易管理。因为大多数应用程序都是对文件进行操作,因此文件存储更 容易和应用系统对接。文件系统受目录树的限制,扩展性受限,一般最多扩展 到几十PB。文件系统适用于企业内部应用整合,文件共享场景;

▫ 对象存储是在块存储之上构建了对象管理层,与文件系统相比,对象系统层是 扁平的,扩展限制少,因此拥有近乎无限的扩展性。对象由唯一的Key,文件, 数据(文件),元数据,自定义元数据构成,由于包含了自管理信息,更加智能。对象存储采用兼容标准的互联网协议接口,可以跨地域传输。对象存储适 用于面向互联网服务的存储场景,以及企业内部的归档、备份场景。

存储关键技术

RAID技术

存储协议

RAID基本概念

RAID:Redundant Array of Independent Disks,独立磁盘冗余阵列,RAID技术将多个单独的物 理硬盘以不同的方式组合成一个逻辑硬盘,从而提高了硬盘的读写性能和数据安全性。

 根据不同的组合方式可以分为不同的RAID级别

  同时采用两种不同的RAID方式还能组合成新的RAID级别

 RAID的数据组织形式

硬盘的条带化:将硬盘空间按照设定的大小分为多个条带,数据写入时也按照条带的大小来划分 数据模块。

条带(strip):硬盘中单个或者多个连续的扇区构成一个条带,是组成分条的元素。

分条(stripe):同一硬盘阵列中的多个硬盘驱动器上的相同“位置”(或者说是相同编号)的条 带。

RAID的数据保护方式

方法一:镜像(Mirroring),在另一块冗余的硬盘上保存数据的副本。

方法二:奇偶校验算法(XOR)。

 XOR运算广泛地使用在数字电子和计算机科学中。

 XOR校验的算法—相同为假,相异为真:

        0⊕0=0; 0⊕1=1; 1⊕0=1; 1⊕1=0;

RAID技术通常有2种不同的方式进行数据保护:

▫ 在另一块冗余的硬盘上保存数据的副本,提高可靠性,并可以提高读性能。

▫ 使用奇偶校验算法。奇偶校验码是使用用户数据计算出的额外信息。对于使用 奇偶校验的RAID类型,它意味着需要额外的校验硬盘。奇偶校验采用的是异或 (XOR的计算符号⊕)算法。

RAID热备和重构概念

热备(Hot Spare)的定义

 当冗余的RAID组中某个硬盘失效时,在不干扰当前RAID系统正常使用的情况下,用RAID系统中另外一个正常的备用 硬盘自动顶替失效硬盘,及时保证RAID系统的冗余性。

热备一般分为两种

 全局式:备用硬盘为系统中所有的冗余RAID组共享。

 专用式:备用硬盘为系统中某一组冗余RAID组专用

 数据校验,利用冗余数据进行数据错误检测和修复,冗余数据通常采用海明码、异或 操作等算法来计算获得。

利用校验功能,可以很大程度上提高磁盘阵列的可靠性、高 性能和容错能力。

不过,数据校验需要从多处读取数据并进行计算和对比,会影响系 统性能。

一般来说, RAID不可作为数据备份的替代方案,它对非磁盘故障等造成的数据丢失 无能为力,比如病毒、人为破坏、意外删除等情形。此时的数据丢失是相对操作系统、 文件系统、卷管理器或者应用系统来说的,对于RAID而言,数据都是完好的,没有 发生丢失。所以,数据备份、灾备等数据保护措施是非常必要的,与RAID相辅相成, 保护数据在不同层次的安全性,防止发生数据丢失。

常见RAID级别介绍

RAID 0 :没有容错设计的条带硬盘阵列,以条带形式将RAID组的数据均匀分布在各 个硬盘中。

RAID 1 :又称镜像(Mirror),数据同时一致写到主硬盘和镜像硬盘

RAID 3 :带有校验的并行数据传输阵列,数据条带化分布在数据盘中,同时使用专 用校验硬盘存放校验数据。

RAID 5 :与RAID 3机制类似,但校验数据均匀分布在各数据硬盘上,RAID成员硬盘 上同时保存数据和校验信息,数据块和对应的校验信息保存在不同硬盘上。RAID 5是 最常用的RAID方式之一。

RAID 10 :将镜像和条带进行两级组合的RAID级别,第一级是RAID 1镜像对,第二 级为RAID 0。RAID 10 也是一种应用比较广泛的RAID级别。

RAID 6 DP工作原理

DP:Double Parity,就是在RAID 4所使用的一个行XOR校验硬盘的基础上又增加了一个硬盘用于 存放斜向的XOR校验信息。

横向校验盘中P0-P3为各个数据盘中横向数据的校验信息。

 例:P0=D0 XOR D1 XOR D2 XOR D3

斜向校验盘中DP0-DP3为各个数据盘及横向校验盘的斜向数据校验信息。

 例:DP0=D0 XOR D5 XOR D10 XOR D15

RAID 6 DP也有两个独立的校验数据块。第一个校验信息与RAID 6 P+Q的第一个校验 值是相同的,第二个不同于RAID 6 P+Q,采用的是斜向异或运算得到行对角奇偶校 验数据块。行奇偶校验值是同一分条的用户数据异或运算获得到,如图所示:P0是由 分条0上的D0,D1,D2和D3异或运算得到

第二个校验数据块是由阵列的对角线数据块进行异或运算。数据块的选择过程比较复 杂。DP0是由硬盘1的分条0上的D0,硬盘2的分条1上的D5,硬盘3上的分条2的D10, 和硬盘上4 分条3上的D15异或操作得到。DP1是对硬盘2的分条0上的D1,硬盘3的分 条1上的D6,硬盘4上分条2的D11,和第一块校验硬盘分条3上的P3进行异或运算得 到。DP2是硬盘3分条0上的D2,硬盘4上的分条1的D7,奇偶硬盘分条2的P2,和硬 盘1分条3上的D12进行异或运算得到。所以,DP0 = D0⊕D5⊕D10⊕D15,DP1 = D1⊕D6⊕D11⊕P3,如此类推。

一个RAID 6阵列能够容忍双硬盘失效。

一个RAID 6组的性能,无论算法是DP还是P+Q,相对都比较慢。因此,RAID 6适用 两种场景:

▫ 数据非常重要,需要尽可能长的时间处于在线和可使用的状态。

▫ 使用的硬盘容量非常大(通常超过2 T)。大容量硬盘的重建时间较长,两个硬 盘都失效是会造成数据较长时间不能访问。在RAID 6中,可以实现一个硬盘重 构时另一个硬盘失效。一些企业希望在使用大容量硬盘后,存储阵列的供应商 使用一个双重保护的RAID组。

RAID 2.0技术介绍

RAID 2.0

 增强型RAID技术,有效解决了机械硬盘容量越来越大,重构一块机械硬盘所需时间越来越长,传统RAID 组重构窗口越来越大而导致重构期间又故障一块硬盘而彻底丢失数据风险的问题。

RAID 2.0+

 在RAID 2.0的基础上提供了更细粒度(可以达几十KB粒度)的资源颗粒,形成存储资源的标准分配及回 收单位,类似计算虚拟化中的虚拟机,我们称之为虚拟块技术。

华为RAID 2.0+

 是华为针对传统RAID的缺点,设计的一种满足存储技术虚拟化架构发展趋势的全新的RAID技术,其传统 固定管理模式为两层虚拟化管理模式,在底层块级虚拟化(Virtual for Disk)硬盘管理的基础之上,通 过一系列Smart效率提升软件,实现了上层虚拟化(Virtual for Pool)的高效资源管理。

块级虚拟化的含义是:将系统中的硬盘划分成若干个连续的固定大小的存储空间,称 为存储块,即Chunk,或简称CK。

RAID 2.0+块虚拟化技术

存储的数据最终都会存储到SSD盘上,如果有些盘片上存放的数据不均匀,就可能导致某些压力 大的SSD盘成为系统的瓶颈。

为应对该问题,华为存储系统采用新型的RAID 2.0+块虚拟化技术,通过更细粒度的划分,实现所 有LUN的数据均衡的分布在每个SSD盘上,实现盘的负载均衡。

1. 多块硬盘组成一个存储池。

2. 存储系统将存储池中的每个SSD硬盘划分为固定大小的CK(通常大小为4MB)进行 逻辑空间管理。

3. 来自不同SSD硬盘的CHUNK按照用户在DeviceManager上设置的“RAID策略”组 成CKG。

4. CKG再被划分为更细粒度的Grain(通常为8KB)。用户创建LUN时,存储系统以 Grain为单位映射到LUN,实现对存储资源的精细化管理。

• 相比传统RAID机制,RAID2.0+具备如下优势:

• 业务负载均衡,避免热点。数据打散到资源池内所有硬盘上,没有热点,硬盘 负荷平均,避免个别盘因为承担更多的写操作而提前达到寿命的上限。

• 快速重构,缩小风险窗口。当硬盘故障时,故障盘上的有效数据会被重构到资 源池内除故障盘外的所有盘上,实现了多对多的重构,速度快,大幅缩短数据 处于非冗余状态的时间。

• 全盘参与重构。资源池内所有硬盘都会参与重构,每个盘的重构负载很低,重 构过程对上层应用无影响。

猜你喜欢

转载自blog.csdn.net/qq_45179904/article/details/127881009