企业如何预防「意外掉电」带来的数据安全威胁?

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Memblaze_2011/article/details/77963266

先来回顾一起事件,真的发生在我们身边。

2016年4月22日,某公司北京亦庄数据中心UPS升级改造过程中,因供电中断,导致机房全部设备断电,系统宕机,73家村镇银行的核心、支付、网银、手机银行等业务全部中断,涉及全国12个省份,且恢复时间长达7个32分钟,同时造成部分服务器、存储设备损坏,以及部分银行金融机构的开发测试系统、灾备系统、生产业务等系统相继中断。

 

我们先不说此处事件导致的硬件设备损失,单是银行核心业务系统中断带来的经济损失就已无法预估,而且如此大面积故障,如果没有完善的应急灾备方案,必定会造成大量数据不完整或丢失。

 

断电,作为掉电的一种,突发事件同样会造成不良结果。拿企业SSD存储举例,当系统正在进行分区表或关键区域写入操作时,突然掉电,90%会造成数据写入不完整,出现数据混乱、丢失,严重的SSD将无法读盘,就是我们常说的“挂掉”了。

 

如果是安全(正常)关机,系统会提前发出通知设备电源要中断,让SSD 有足够的时间处理还没有落盘的数据,SSD 此时会将缓存的或者正在写入的用户数据完整的刷写进NAND【如图1所示】,同时不再接收新的IO请求。这是因为SSD固有结构的限制,借助高速随机存储器(RAM)缓存数据达到性能提升的目的,而RAM 有易失性,必须周期性对数据进行刷新,并且没有供电时,缓存在RAM上的用户数据会丢失。


图1:用户写数据流程图

而随着“掉电保护”方面的技术增强,当下企业级SSD产品在这方面表现非常不错,掉盘概率微乎其微,但企业用户仍需做到防患于未然,以防突发性掉电事件的发生。作为中国独具自主研发和创新能力的领先企业级SSD产品供应商,Memblaze新一代PBlaze5系列PCIe NVMe SSD存储产品在意外掉电保护方面做了进一步技术增强。


或许有人会问,SSD因意外掉电可能会丢失哪些数据?

  1. 缓存DRAM中的大量用户数据+元数据(用户数据通过控制器的DMA引擎会增加ECC校验信息)
  2. 在DRAM中运行并时时更新的元数据(如FTL表,端到端DIX模式的保护信息等)
  3. 从DRAM向NAND介质正在写入的用户数据和元数据

『意外掉电增强技术

为了最小化异常电力中断造成的数据丢失,MemblazePBlaze5系列SSD设计了包含高能量密度电容的掉电检测电路。如图2所示,e-Fuse模块会持续监控SSD的供电电压,一旦业务供电降低到设定的阈值,则预示意外掉电事件的发生。e-Fuse就会切断供电电路,同时SW2关闭,SW1开关打开,电容所在电路形成通路并开始放电。电容电量的选择是基于缓存数据量的大小,同时要考虑这些数据量向NAND刷写的最长时间,所选的电容能够保证最坏情况下刷写数据的电量(Q)要求。所以充足的电力保护窗口,给予数据从缓存刷写到NAND充足的时间。当电源接通时,电容会快速充电。


图2:包含电容的掉电保护电路

同时,在产品出厂前,会通过对硬件下发指令,电路板上的MCU模块会模拟异常掉电机制对PBlaze5电容的生命状况进行监测,来验证电容的有效性,从而保证电容的可靠性。

 

“取消擦除”技术

除了上述增强保护外,PBlaze5还采用了“取消擦除”新技术,用来进一步保证异常电力中断时,数据的完整性。为什么用户需要这项技术:

原因一,“擦除”是非常耗时的操作,如遇到电力异常中断,在电容放电的窗口期,从DRAM向NAND介质刷写中掺杂有擦除指令,在极端情况下,整个刷写周期有可能超过电容的有效放电时间,其结果是导致部分数据丢失。因此,将“擦除”指令取消等待上电后重新执行,不需要电容电量的增加,就可以给关键的“编程”指令充足的执行时间保证。

 

原因二,采用“取消擦除”技术的原因是由于NAND 结构的差异,PBlaze5采用新一代3D eTLC,而TLC 相比MLC 需要更长的编程周期。因为MLC 是一个cell 存储2bits 信息,分别为Lower Page Data 和Upper Page Data。而TLC 是一个cell 存储3bits 信息,除了和MLC相同的两个信息位,还包含Extra Page Data,正如图3存储状态显示,因此TCL 编程时间要大于MLC 编程时间( TTLC_prog = TLP_prog + TUP +XP_prog > TMLC_prog = TLP_prog + TUP_prog)。


图3:TLC&MLC存储状态显示

原因三,考虑到在SSD 使用过程中,由于大量的充放电过程,电容会慢慢老化同时伴随着电容电量降低,而“取消擦除”技术还可以增强在产品生命末期,遇到异常掉电时的数据完整性。

 

从数据安全角度来讲,Memblaze 新一代PBlaze5 SSD通过高能量密度电容的掉电电路检测和“取消擦除”技术做到了意外掉电事故发生时的预防,确保了数据的完整性和安全性。

猜你喜欢

转载自blog.csdn.net/Memblaze_2011/article/details/77963266