灾备小记

容错,高可用和灾备

容错:发生故障时,如何让系统继续运行。

高可用:系统中断时,如何尽快恢复。

灾备:系统毁灭时,如何抢救数据。

容错

容错(fault tolerance)指的是, 发生故障时,系统还能继续运行。

飞机有四个引擎,如果一个引擎坏了,剩下三个引擎,还能继续飞,这就是“容错”。同样的,汽车的一个轮子扎破了,剩下三个轮子,也还是勉强能行驶。

容错的目的是,发生故障时,系统的运行水平可能有所下降,但是依然可用,不会完全失败。

高可用

高可用(high availability)指的是, 系统能够比正常时间更久地保持一定的运行水平。

汽车的备胎就是一个高可用的例子。如果没有备胎,轮胎坏了,车就开不久了。备胎延长了汽车行驶的可用时间。

注意,高可用不是指系统不中断(那是容错能力),而是指一旦中断能够快速恢复,即中断必须是短暂的。如果需要很长时间才能恢复可用性,就不叫高可用了。上面例子中,更换备胎就必须停车,但只要装上去,就能回到行驶状态。

灾备

灾备(又称灾难恢复,disaster recovery)指的是, 发生灾难时恢复业务的能力。

上图中,飞机是你的 IT 基础设施,飞行员是你的业务,飞行员弹射装置就是灾备措施。一旦飞机即将坠毁,你的基础设施就要没了,灾备可以让你的业务幸存下来。

灾备的目的就是,保存系统的核心部分。一个好的灾备方案,就是从失败的基础设施中获取企业最宝贵的数据,然后在新的基础设施上恢复它们。注意,灾备不是为了挽救基础设置,而是为了挽救业务。

灾备等级

根据恢复的目标与需要的成本投入,灾备大体可以分为三个等级,可以用三个嵌套的同心圆表示,从数据级灾备、应用级灾备到业务级灾备,业务恢复等级逐步提高,而需要的投资费用也相应增长。

数据级灾备强调数据的备份和恢复,包括数据的复制、备份、恢复等在内的数据级灾备是所有灾备工作的基础。

应用级灾备强调应用的具体功能接管,它提供比数据级灾备更高级别的业务恢复能力,同时也是业务级灾备的基础,只有具体应用得到恢复,后续的业务才能有效进行。

业务级灾备是最高级别的灾备建设,如果说数据级灾备、应用级灾备都是在IT系统的范畴之内,业务级灾备则是在以上两个等级的灾备基础上,还需考虑到IT系统之外的业务因素,包括备用办公场所、办公人员等,而且业务级灾备通常对支持业务的IT系统会有更高的要求(RTO在分钟级)。

灾难恢复衡量指标

在灾难恢复方面,组织会考虑二个方面的目标恢复能力:RTO与RPO。

RTO(Recovery Time Objective)恢复时间目标:指所能容忍的业务停止服务的最长时间,也就是从灾难发生到业务系统恢复服务功能所需要的最短时间周期,而且RTO针对的是造成中断的事件,并不一定是灾难事件。RTO值越小就意味着所要求的恢复能力越强。

RPO(Recovery Point Objective)恢复点目标:指的是业务系统所能容忍的数据丢失量。如果RPO等于零,就意味着要求数据零丢失。否则为了恢复业务处理,就需要对丢失数据进行修复或追补。

RTO针对的是服务丢失,RPO针对的是数据丢失,二者没有必然的关联性。RTO和RPO的确定必须在进行风险分析和业务影响分析后根据不同的业务需求确定,对于不同企业的同一种业务,RTO和RPO的需求也会有所不同。

参考

灾备行业最全常用术语 仅此一份

容错,高可用和灾备

发布了934 篇原创文章 · 获赞 1229 · 访问量 568万+

猜你喜欢

转载自blog.csdn.net/pan_tian/article/details/104419300