企业灾备-RPO与RTO

1 简介
    容灾是企业数据管理中的一个重要环节,容灾备份系统要保证灾难发生时系统能够做到最快恢复和最小损失,RTO和RPO是衡量容灾系统的两个重要指标,通俗来讲,是这两个指标可以描述为业务连续性目标及数据一致性目标 。
2 名词解释
    RTO(Recovery Time Objective):

    即恢复时间目标,主要指当发生灾难或紧急事件时,业务系统所能容忍的停止服务的最长时间,也就是从灾难发生到业务系统恢复服务功能所需要的最短时间周期。
    RPO(Recovery Point Objective):
    即数据恢复点目标,主要指当发生灾难或紧急事件时,业务系统所能容忍的数据丢失量。例如每天凌晨1:00进行数据备份,那么如果今天发生了宕机事件,数据可以恢复到的最糟糕的增备时间点(RPO)就是昨天的凌晨1:00。
3 SHARE78国际标准七级灾难备份方案
    要建设容灾系统,就必须提出相应 的设计指标,以此作为衡量和选择容灾解决方案的参数。目前,国际上通用的容灾系统的评审标准为Share 78,主要包括以下内容。
    3.1 主要等级划分参考:
    1 备份/恢复的范围
    2 灾难恢复计划的状态
    3 应用站点与灾难备份站点之间的距离
    4 应用站点与灾难备份站点之间是如何相互连接的
    5 数据是怎样在两个站点之间传送的
    6 允许有多少数据被丢失
    7 怎样保证更新的数据在灾难备份站点被更新
    8 灾难备份站点可以开始灾难备份工作的能力
    3.2 等级划分内容:
    0级:无异地备份

    0等级容灾方案数据仅在本地进行备份,没有在异地备份数据,未制定灾难恢复计划。这种方式是成本最低的灾难恢复解决方案,但不具备真正灾难恢复能力。
    在这种容灾方案中,最常用的是备份管理软件加上磁带机,可以是手工加载磁带机或自动加载磁带机。它是所有容灾方案的基础,从个人用户到企业级用户都广泛采用了这种方案。其特点是用户投资较少,技术实现简单。缺点是一旦本地发生毁灭性灾难,将丢失全部的本地备份数据,业务无法恢复。
    1级:实现异地备份
    第1级容灾方案是将关键数据备份到本地磁带介质上,然后送往异地保存,但异地没有可用的备份中心、备份数据处理系统和备份网络通信系统,未制定灾难恢复计划。灾难发生后,使用新的主机,利用异地数据备份介质(磁带)将数据恢复起来。
    这种方案成本较低,运用本地备份管理软件,可以在本地发生毁灭性灾难后,恢复从异地运送过来的备份数据到本地,进行业务恢复。但难以管理,即很难知道什么数据在什么地方,恢复时间长短依赖于何时硬件平台能够被提供和准备好。以前被许多进行关键业务生产的大企业所广泛采用,作为异地容灾的手段。目前,这一等级方案在许多中小网站和中小企业用户中采用较多。对于要求快速进行业务恢复和海量数据恢复的用户,这种方案是不能够被接受的。
    2级:热备份站点备份
    第2级容灾方案是将关键数据进行备份并存放到异地,制定有相应灾难恢复计划,具有热备份能力的站点灾难恢复。一旦发生灾难,利用热备份主机系统将数据恢复。它与第1级容灾方案的区别在于异地有一个热备份站点,该站点有主机系统,平时利用异地的备份管理软件将运送到异地的数据备份介质(磁带)上的数据备份到主机系统。当灾难发生时可以快速接管应用,恢复生产。
    由于有了热备中心,用户投资会增加,相应的管理人员要增加。技术实现简单,利用异地的热备份系统,可以在本地发生毁灭性灾难后,快速进行业务恢复。但这种容灾方案由于备份介质是采用交通运输方式送往异地,异地热备中心保存的数据是上一次备份的数据,可能会有几天甚至几周的数据丢失。这对于关键数据的容灾是不能容忍的。
    3级:在线数据恢复
    第3级容灾方案是通过网络将关键数据进行备份并存放至异地,制定有相应灾难恢复计划,有备份中心,并配备部分数据处理系统及网络通信系统。该等级方案特点是用电子数据传输取代交通工具传输备份数据,从而提高了灾难恢复的速度。利用异地的备份管理软件将通过网络传送到异地的数据备份到主机系统。一旦灾难发生,需要的关键数据通过网络可迅速恢复,通过网络切换,关键应用恢复时间可降低到一天或小时级。这一等级方案由于备份站点要保持持续运行,对网络的要求较高,因此成本相应有所增加。
    4级:定时数据备份
    第4级容灾方案是在第3级容灾方案的基础上,利用备份管理软件自动通过通信网络将部分关键数据定时备份至异地,并制定相应的灾难恢复计划。一旦灾难发生,利用备份中心已有资源及异地备份数据恢复关键业务系统运行。
    这一等级方案特点是备份数据是采用自动化的备份管理软件备份到异地,异地热备中心保存的数据是定时备份的数据,根据备份策略的不同,数据的丢失与恢复时间达到天或小时级。由于对备份管理软件设备和网络设备的要求较高,因此投入成本也会增加。但由于该级别备份的特点,业务恢复时间和数据的丢失量还不能满足关键行业对关键数据容灾的要求。
    5级:实时数据备份
    第5级容灾方案在前面几个级别的基础上使用了硬件的镜像技术和软件的数据复制技术,也就是说,可以实现在应用站点与备份站点的数据都被更新。数据在两个站点之间相互镜像,由远程异步提交来同步,因为关键应用使用了双重在线存储,所以在灾难发生时,仅仅很小部分的数据被丢失,恢复的时间被降低到了分钟级或秒级。由于对存储系统和数据复制软件的要求较高,所需成本也大大增加。
    这一等级的方案由于既能保证不影响当前交易的进行,又能实时复制交易产生的数据到异地,所以这一层次的方案是目前应用最广泛的一类,正因为如此,许多厂商都有基于自己产品的容灾解决方案。
    6级:零数据丢失
    第6级容灾方案是灾难恢复中最昂贵的方式,也是速度最快的恢复方式,它是灾难恢复的最高级别,利用专用的存储网络将关键数据同步镜像至备份中心,数据不仅在本地进行确认,而且需要在异地(备份)进行确认。因为,数据是镜像地写到两个站点,所以灾难发生时异地容灾系统保留了全部的数据,实现零数据丢失。
    这一方案在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力,不仅保证数据的完全一致性,而且存储和网络等环境具备了应用的自动切换能力。一旦发生灾难,备份站点不仅有全部的数据,而且应用可以自动接管,实现零数据丢失的备份。通常在这两个系统中的光纤设备连接中还提供冗余通道,以备工作通道出现故障时及时接替工作,当然由于对存储系统和存储系统专用网络的要求很高,用户的投资巨大。采取这种容灾方式的用户主要是资金实力较为雄厚的大型企业和电信级企业。但在实际应用过程中,由于完全同步的方式对生产系统的运行效率会产生很大影响,所以适用于生产交易较少或非实时交易的关键数据系统,目前采用该级别容灾方案的用户还很少。
    这七个级别的灾备方案中,随着灾备目标不同,方案及成本也有不同。恢复时间要求越短,恢复数据丢失越少,成本就越高。合适的灾备方案应是基于“风险和成本相应平衡”的。企业应该基于风险分析的基础上,选择业务需求目标和成本相平衡的灾备方案。
    3.3 业界share78成本与选型模型

4 技术选型及成本权衡
    作为银行,除开展自身业务之外,更多数据来自上下级银行间的财务汇兑与结算。站在管理者的位置上,一旦灾难发生,最重要的是在尽可能短的时间内排除障碍,恢复业务,保证系统做到连续运行。因此,从这个角度出发,银行容许系统停滞的时间应当越短越好。选择 RTO 刚好合适。
    但是,RTO 对成本要求太高,与回报似乎不成正比。企业资金不可能无限制地投入到一个灾备系统中。对于银行证券这样的联机交易事故处理非常紧密的金融机构而言,可能每一笔、每一单、每一分钱都很重要,所以都需要恢复。RPO 显然更为合适。
    对于一个企业来讲,RTO与RPO都很重要,但是最佳的方案不一定是效益最好的。RTO及RPO与方案售价有着密切的关系,然而完美的方案当然是RTO及RPO皆为零,表示当灾难发生后,系统立即恢复,而且完全没有数据丢失,可是其造价是非常昂贵的,而且也不一定有这个必要。因此,最佳方案必需在RTO,RPO,维护及价钱多方面,都能达致平衡。尤其是中小企业,在资源紧拙的情况,应先好好了解对RTO及RPO的要求,然后再看看价钱,那就比较容易找到,适合企业的方案了
5 总结
    进行容灾系统设计时,必须根据用户业务系统的使用情况,并综合考虑地理环境、网络条件、投资规模、业务系统长远发展规划等各种因素,制定合理、可行的容灾系统设计指标。
****************************************************************************************
    原文地址: http://blog.csdn.net/jesseyoung/article/details/41801269
    博客主页: http://blog.csdn.net/jesseyoung
****************************************************************************************

猜你喜欢

转载自blog.csdn.net/JesseYoung/article/details/41801269