[灾备]如何保证业务连续性？

运维少年运维少年

业务连续性定义

业务连续性（Business Continuity 简称“BC”）是指在中断事件发生后，组织在预先确定的可接受的水平上连续交付产品或提供服务的能力。它明确一个机构的关键职能以及可能对这些职能构成的威胁，并据此采取相应的技术手段，制定计划和流程，确保这些关键职能在任何环境下都能持续发挥作用。

业务连续性针对的事件场景应包括三类：一般故障、紧急事件和灾难事件。实现业务连续性所需的 IT 措施包含三个方面：业务状态数据的备份和复制、业务处理能力的冗余和切换、外部接口冗余和切换。

业务连续性管理（Business Continuity Management，简称“BCM”）是一套一体化的管理流程，通过该流程可识别组织面临的潜在威胁以及这些威胁一旦发生可能对业务运行带来的影响，并为组织提供了一个指导框架来建立有效应对威胁的自我恢复能力，从而保护关键相关方的利益、声誉、品牌和创造价值的活动。

业务连续性管理是一个长期的、不断完善的循环过程，需遵循国际标准的 PDCA 循环模型，即策划 (Plan)—实施 (Do)—检查 (Check)—改进 (Act)。

业务连续性管理为企业的灾备建设提供了基本原则和方法，业务连续性管理确定的业务恢复目标就是设计灾备方案的依据。

首先，按照业务连续性管理方法对潜在的灾难事件加以识别并进行分析，从而确定可能造成企业运行中断的威胁，以及业务中断给企业带来的影响和损失。

其次，再根据业务中断的影响及其恢复时所需的资源来制定灾难恢复策略，从而使灾难事件给企业带来的损失最小化。它涵盖了风险管理、应急管理、IT 灾难恢复、设备管理、资源管理、安全管理、人员管理等多项内容。

业务连续性如何保证？

实现业务连续性的技术手段通常包括以下两种：

1. 高可用性（High Availability，简称“HA”）

高可用性指通过技术手段，尽量缩短因日常维护操作（计划）和突发的系统崩溃（非计划）所导致的停机时间，以提高系统和应用的可用性。业界的通行做法是采用群集系统 (Cluster) ，将各个主机系统、网络系统、存储设备（部分高可用系统包含存储设备的高可用）等通过各种手段有机地组成一个群体，共同对外提供服务。

通过创建群集系统（采用实现高可用性的软件）将冗余的高可用性的硬件组件和软件组件组合起来，以达到消除单点故障、减少设备意外发生时的宕机时间。一般说，高可用技术通过对网卡、CPU、内存、系统软件设置不同的可用性监测点，在这些节点发生故障时实现冗余切换，持续提供服务。

2. 灾难恢复（Disaster Recovery，简称“DR”）

狭义的恢复 (Recovery) 定义是指重新创建生产系统应用或计算环境的过去操作状态，包含完全恢复和小颗粒恢复两种模式。

[灾备]如何保证业务连续性？
广义的灾难恢复 (DR) （国内通常简称为“灾备”或“容灾”）则属于业务连续性的技术层面。在用户信息服务中断后，需要快速调动各种资源，在异地重建信息技术服务平台（包括基础架构、通信、系统、应用及数据），灾难恢复也包括本地的恢复与重建。

目前，流行的灾备系统往往包括本地的 HA 集群和异地的 DR 数据中心。从故障角度，HA 主要处理单组件故障下负载在集群内服务器之间的切换， DR 则是应对大规模故障下负载在数据中心之间的切换。

从网络角度，LAN 环境下的灾备是 HA 的范畴，WAN 环境则是 DR 的范畴。从云的角度，HA 是一个云环境内保障业务连续性的机制，DR 是多个云环境间保障业务连续性的机制。从目标角度，HA 主要是保证业务高可用，DR 是保证数据可靠的基础上的业务可用。

end