【阿里云】灾备概念及设计思路

灾备
大家好,今天和大家聊聊灾备。灾备是容灾和备份的简称

  • 备份的定义:指用户为应用系统产生的重要数据(或者原有的重要数据信息)制作一份货多分拷贝,以增强数据的安全性
  • 容灾的定义:指在相隔较远的两地(同城或者异地)建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换。当一处系统因意外(天灾、人祸)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。
    灾备方案的组成
    备份方案+容灾方案=灾备方案

备份方案产生的逻辑
天灾人祸导致的故障场景
1、误操作、程序BUG等导致产生脏数据或数据误删除
2、服务器故障,如宕机、硬盘损坏等
3、机房内部网络设备故障,如宕机、路由配置错误等
4、因火灾、光缆挖断、掉电、运营商故障等原因导致机房不可用
5、地震、洪水等地域性自然灾害

故障产生的不良后果
1、数据丢失OR数据不可用——应对思路:数据备份及恢复
2、IT系统功能异常、完全或部分不可用、业务中断——应对思路:系统高可用

问题的应对思路关注点
数据备份及恢复:1、备份方法。2、备份的保存。3、备份的恢复。
系统高可用:1、消灭单点。2、数据同步
RTO与RPO

RTO和RPO
恢复时间目标(RTO:Recovery Time Object)
-指灾难发生后,从IT系统宕机导致业务停顿时开始,到IT系统恢复至可以支持各部门运作,业务恢复运营之时,此两点之间的时间段称为RTO。
-RTO是反映业务恢复及时性的指标,体现了企业能容忍的IT系统最长恢复时间,RTO值越小,代表容灾系统的恢复能力越强,但企业投资也越高。
恢复点目标(RPO:Recovery Point Object)
-指灾难发生后,容灾系统进行数据恢复,恢复得来的数据所对应的时间点称为RPO。
-RPO是反映数据丢失量的指标,体现了企业能容忍的最大数据丢失量的指标。RPO值越小,代表企业数据丢失越少,企业损失越小。
设计灾备方案的核心内容
-平衡RTO和RPO的需求,找到最佳的实现技术和手段。
-从经济角度,找到最佳的总体投入(TCO)和投资回报(ROI)。
-最佳不等于最好。

设计灾备方案的步骤———建设阶段+维护阶段
建设阶段
第一步
1、确定容灾需求
容灾场景
各场景的RTO+RPO
2、现状了解
应用系统的软件架构、各部分组件和资源使用情况
系统中的数据流及数据量、单位时间内数据变化的数量
系统间的调用和依赖关系
生产中心与灾备中心的距离、带宽、延时情况
业务对延时的敏感性
外单位的依赖情况,数据源、接口同步机制等
……

第二步
技术指标核算
备份耗时
备份恢复的耗时
备份文件异地传输耗时
数据复制、同步速度
应用切换前值条件具备耗时
域名收敛耗时
外部数据源、接口切换耗时
未来若干年数据量增长预估
……

第三步
1、灾备中心规划
所需资源规划、等量或不等量
中心间网络建设规划
应用部署规划
灾备中心电力、空调等基础设备规划
……
2、建设方案及成本估算
原系统改造成本
灾备中心建设成本
网络改造成本
容灾系统搭建成本
……

第四步
1、灾备的建设设施
资源采购
基础设施改造
原有系统建设
网络建设
灾备中心部署
……
2、灾备方案完善
备份方案
数据同步方案
系统高可用方案
应用切换方案及切换步骤说明,复杂的需要有具体的操作手册
……

第五步
灾备测试演练
演练方案准备
演练实施
演练总结
发现的问题解决,方案迭代优化
二次演练
……

维护阶段
1、灾备方案的持续维护
业务系统变化触发的方案维护
系统配置变化触发的切换手册的维护
系统扩容触发的方案变化
外部系统变化触发方案维护
……
2、定期的容灾演练
演练方案准备
演练实施
演练总结
问题解决和方案迭代优化

扫描二维码关注公众号,回复: 5449841 查看本文章

当我们了解灾备方案关键点以及流程后,接下来我们将介绍公共云和混合云的容灾方案。当然,不同行业有不同的解决方案,我们在这里只介绍通用方案。详细的方案请访问云特快官网:www.yuetekuai.com

猜你喜欢

转载自blog.csdn.net/weixin_44487968/article/details/88187759
今日推荐