recuperación de desastres

Recuperación ante desastres: La recuperación ante desastres es la abreviatura de recuperación ante desastres y copia de seguridad. Utiliza medios y métodos técnicos científicos para establecer un método sistemático de emergencia de datos con anticipación para hacer frente a los desastres. Su contenido incluye: copia de seguridad de datos, copia de seguridad del sistema, planificación de continuidad del negocio, estructura de personal, garantía de comunicación, relaciones públicas de crisis, planificación de recuperación ante desastres, plan de recuperación ante desastres, plan de recuperación empresarial, etc.

La recuperación ante desastres se refiere al establecimiento de dos o más conjuntos de sistemas de TI con las mismas funciones en dos lugares distantes (en la misma ciudad o en diferentes lugares), y pueden realizar el monitoreo del estado de salud y el cambio de función entre ellos. el trabajo se detiene, todo el sistema de la aplicación se puede cambiar a otro lugar, de modo que las funciones del sistema puedan continuar funcionando normalmente, centrándose en la sincronización de datos y la disponibilidad continua del sistema. Se refiere al establecimiento de dos o más conjuntos de sistemas de TI con las mismas funciones en dos lugares distantes (en la misma ciudad o en diferentes lugares), y pueden realizar el monitoreo del estado de salud y el cambio de función entre ellos. , toda la aplicación El sistema se puede cambiar a otro lugar, de modo que las funciones del sistema puedan continuar funcionando normalmente, centrándose en la sincronización de datos y la disponibilidad continua del sistema.

La copia de seguridad se refiere a que el usuario hace una o más copias de datos importantes (o información original de datos importantes) generada por el sistema de la aplicación para mejorar la seguridad de los datos. Centrarse en la copia de seguridad y conservación de datos.

1. Implementación de recuperación ante desastres

Copia de seguridad: para hacer frente a posibles situaciones inesperadas, como la pérdida o el daño de archivos y datos, copie los datos del dispositivo de almacenamiento de la computadora en un dispositivo de almacenamiento de gran capacidad, como un disco.

Verificación: compruebe si los datos de la copia de seguridad son coherentes con los metadatos, si están intactos y si se pueden utilizar (coherencia y disponibilidad).

Simulacro: simule desastres para detectar si toda la organización tiene la capacidad de responder a los desastres cuando ocurre un desastre repentino.

Recuperación de desastres (emergencia): cuando ocurre un desastre real, si toda la organización tiene la capacidad de responder a los desastres, lo que permite que todo el sistema de aplicaciones se cambie a otra ubicación, de modo que las funciones del sistema puedan continuar funcionando normalmente.

Recuperación (Switchback): se refiere a si la reoperación normal del sistema de producción principal se puede restaurar después de que ocurra un desastre.

2. Indicadores técnicos clave de recuperación ante desastres

1.RTO

RTO (objeto de tiempo de recuperación, objetivo de tiempo de recuperación) determina cuánto tiempo se ha interrumpido el servicio. Después del desastre, desde el momento en que el sistema de TI deja de funcionar y la empresa se detiene, hasta el momento en que se restaura el sistema de TI para respaldar el funcionamiento de varios departamentos y la empresa reanuda sus operaciones, el período de tiempo entre estos dos puntos se denomina RTO. .

Las técnicas comunes para mejorar el RTO incluyen: recuperación de cintas, migración manual y conmutación remota de sistemas de aplicaciones.

Tecnología de recuperación ante desastres	duración
recuperación de cinta	nivel de día
migración manual	hora de clase
Conmutación remota del sistema de aplicación	segundo nivel

2.RPO

RPO (objeto de punto de recuperación, objetivo de punto de recuperación) determina la cantidad de datos que se pierden. Después de que ocurre un desastre, el sistema de recuperación de desastres restaura los datos y el punto de tiempo correspondiente a los datos recuperados se denomina RPO.

RPO es una métrica que refleja la integridad de los datos restaurados. En el modo de replicación de datos sincrónicos, el RPO es igual al tiempo de retraso de la transmisión de datos.En el modo de replicación de datos asincrónicos, el RPO es básicamente el tiempo de cola de los datos de transmisión asincrónica.

Las técnicas comunes para mejorar el RPO incluyen la copia de seguridad en cinta, la replicación periódica de datos, la replicación asíncrona de datos y la replicación síncrona de datos.

Tecnología de recuperación ante desastres	duración
copia de seguridad en cinta	nivel de día
Replicación periódica de datos	hora de clase
replicación de datos asíncrona	nivel de minutos
replicación de datos síncrona	segundo nivel

3. La relación entre RTO y RPO

Los indicadores RTO y RPO no están aislados, sino que reflejan capacidades de recuperación ante desastres desde diferentes perspectivas. El índice RPO viene antes de que ocurra la falla, y el índice RTO viene después de que ocurra la falla. Cuanto menor sea el valor de los dos, más corto será el intervalo de tiempo entre el negocio normal y el período de transición comercial que se puede acortar de manera efectiva.

Cuando ocurre un desastre, el estado ideal es que el sistema se recupere inmediatamente y no haya ninguna pérdida de datos. Actualmente, el RTO puede ser igual a 0 y el RPO puede acercarse a 0 infinitamente. Sin embargo, cuando se diseña un sistema de recuperación ante desastres, no se puede buscar demasiado el RPO y el RTO, porque cuanto más pequeños sean el RPO y el RTO, mayor será la inversión. Cuanto mayor sea el costo total de los insumos, menor será el retorno de la inversión. Desde un punto de vista económico, la mejor solución de recuperación ante desastres no es necesariamente la mejor solución de recuperación ante desastres, ya que el TCO y el ROI de la inversión total del sistema de recuperación ante desastres son indicadores de diseño muy importantes para muchos usuarios.

3. Nivel de recuperación ante desastres

La recuperación ante desastres es una aplicación tecnológica importante en una empresa, que desempeña un papel importante en la seguridad de los datos empresariales. En términos generales, los niveles de recuperación ante desastres se pueden dividir en tres niveles: nivel de datos, nivel de aplicación y nivel empresarial.

1. Recuperación ante desastres a nivel de datos

La recuperación ante desastres a nivel de datos se refiere a la copia de seguridad remota de los datos mediante el establecimiento de un centro remoto de recuperación ante desastres para garantizar que los datos originales no se pierdan ni se destruyan después de que ocurra un desastre. Por ejemplo, en los primeros días, las copias de seguridad se transferían a cintas y se transferían a ubicaciones remotas, o la transmisión de datos asíncrona/sincrónica entre el centro de recuperación ante desastres y el centro de producción se realizaba en función de la red. Pero a nivel de recuperación ante desastres a nivel de datos, las aplicaciones se interrumpirán en caso de desastre.

Copie los datos en el centro de datos desde el host de la aplicación o el dispositivo de almacenamiento a otros medios para evitar la pérdida y destrucción de datos.

puede hacer algunos o todos los datos;
Puede ser solo en el centro o entre centros;
Puede guardar múltiples datos en diferentes momentos históricos;
Por lo general, debe programarse y respaldarse con un servicio de administración de copias de seguridad;
La copia de seguridad entre centros es la base de la recuperación ante desastres.

2. Recuperación ante desastres a nivel de aplicación

La recuperación ante desastres a nivel de aplicación se basa en la recuperación ante desastres a nivel de datos. También se construye un conjunto del mismo sistema de aplicación en el sitio de respaldo. A través de la tecnología de replicación síncrona o asíncrona, puede garantizar que las aplicaciones clave puedan reanudar la operación dentro del rango de tiempo permitido. , tanto como sea posible Reduzca las pérdidas causadas por desastres, permita que los usuarios básicamente no sientan la ocurrencia de desastres y haga que los servicios proporcionados por el sistema sean completos, confiables y seguros. El sistema de soporte incluye un sistema de respaldo de datos, un sistema de aplicación de respaldo y una red de respaldo.

La transmisión de datos entre el centro de producción de recuperación de desastres a nivel de aplicación y el centro de recuperación de desastres remoto adopta un método de transmisión WAN heterogéneo; al mismo tiempo, el sistema de recuperación de desastres a nivel de aplicación debe realizarse a través de más software, para que varias aplicaciones puedan llevarse a cabo cuando ocurre un desastre.La transición rápida garantiza la continuidad del negocio.

Instale dos o más conjuntos de sistemas de TI con las mismas funciones en lugares distantes. Cuando un sistema deja de funcionar inesperadamente, todo el sistema de aplicaciones se puede cambiar a otro para garantizar que el sistema de aplicaciones pueda continuar funcionando normalmente.

Cada centro puede realizar el seguimiento del estado de salud y el cambio de funciones entre sí;
Es parte integral de la tecnología de alta disponibilidad del sistema;
Proporcionar función de recuperación del sistema a nivel de nodo;
Se pone más énfasis en el impacto del entorno externo de la aplicación en el sistema de información, especialmente el impacto del tiempo catastrófico en todo el nodo de TI.

3. Recuperación ante desastres a nivel empresarial

La recuperación ante desastres a nivel empresarial es el nivel más alto de recuperación ante desastres Además de las tecnologías necesarias relacionadas con TI, también requiere toda la infraestructura. La mayor parte de su contenido son sistemas que no son de TI (como teléfonos, ubicaciones de oficinas, etc.). Cuando ocurre una catástrofe, el espacio original de la oficina se destruye. Además de la recuperación de datos y aplicaciones, se necesita un lugar de trabajo de respaldo para llevar a cabo negocio normalmente. . Por ejemplo, el espacio de oficina de los usuarios comerciales y el respaldo del personal comercial.

Múltiples centros brindan el mismo negocio al mismo tiempo:

Múltiples centros de datos conllevan presión comercial, que se puede compartir en proporción;
Después de que un centro deja de prestar servicio, el tráfico comercial se puede cambiar automáticamente a otro centro para brindar servicios continuos al mundo exterior;
El cambio automático es transparente para el terminal de acceso, y el terminal de acceso es completamente inconsciente;
Mejorar efectivamente la utilización de recursos.

4. Tipo de datos

Desde la perspectiva del uso de datos, los datos que deben respaldarse se pueden dividir en datos del sistema, datos básicos, datos de aplicaciones y datos temporales; al mismo tiempo, se pueden dividir en datos de bases de datos, datos que no son de bases de datos, datos aislados datos y datos perdidos de acuerdo con los métodos de almacenamiento y gestión de datos.

Datos del sistema : se refiere principalmente al sistema operativo, varios paquetes de software instalados en el sistema de aplicación y los programas de ejecución del sistema de aplicación. Los datos del sistema básicamente no cambiarán después de instalar el sistema, y solo cambiarán cuando se actualice el sistema operativo, la versión del sistema de la aplicación o se ajuste el programa de la aplicación.
Datos básicos : se refiere principalmente al directorio del sistema, directorio de usuarios, archivo de configuración del sistema, archivo de configuración de la red, archivo de configuración de la aplicación, control de acceso, etc. utilizados para garantizar el funcionamiento normal del sistema comercial. Los datos básicos cambian con el cambio del entorno operativo del sistema comercial y generalmente se guardan como un archivo del sistema.
Datos de la aplicación : se refiere principalmente a todos los datos comerciales del sistema comercial, que tiene altos requisitos de seguridad, precisión e integridad de los datos y cambia con frecuencia.
Datos temporales : se refiere principalmente a los registros de operación del sistema generados por los sistemas operativos, los sistemas de aplicación y las bases de datos, los registros lógicos de la base de datos y varios archivos temporales para imprimir y transmitir generados durante la ejecución de las aplicaciones, que cambian con las operaciones del sistema y los sucesos comerciales. Los datos temporales tienen poco impacto en la integridad de los datos comerciales y deben limpiarse regularmente después de que aumenten.

5. Tipo de negocio

Hay diferentes escenarios de negocios en una empresa. Podemos dividir los sistemas de negocios en sistemas de negocios clave, sistemas de negocios importantes, sistemas de negocios en general, etc.

Sistemas críticos para el negocio : los datos comerciales están relativamente centralizados y son básicos, y hay muchos nodos de servidores conectados a ellos, lo cual es esencial para garantizar el funcionamiento normal de toda la empresa; una vez que se interrumpe el negocio, los servicios proporcionados por la empresa y la normalidad las operaciones comerciales se verán gravemente afectadas de inmediato y traerán directamente pérdidas económicas a la empresa o afectarán la reputación de la empresa, e incluso los casos graves pueden tener posibles responsabilidades legales. Como Ctrip en línea, Taobao, Jingdong, etc.
Sistemas comerciales importantes : la interrupción del negocio tendrá un impacto grave en el funcionamiento normal y efectivo de toda la empresa. Una vez que se interrumpe el negocio, parte de los servicios prestados por la empresa y parte del negocio se verán afectados e interrumpidos, pero no tiene nada que ver con la situación general. Tales como: sitio web corporativo interno, sistema de transmisión de correo, sistema de operación comercial, etc.
Sistema comercial general : la interrupción del negocio no tendrá un impacto grave inmediato en el funcionamiento normal de toda la empresa, y una vez que se pueda tolerar el corto plazo, se puede restaurar en unos pocos días o semanas. Por ejemplo: sistema de archivo de personal, sistema de asistencia, presupuesto del proyecto y sistema de cuenta final, etc.

6. Tecnología de recuperación ante desastres

Las tecnologías de recuperación ante desastres del centro de datos se pueden dividir aproximadamente en cinco tipos: copia de seguridad en frío , copia de seguridad en caliente , copia de seguridad en caliente , activa-activa y multiactiva .

1. modo de espera en frío

Es decir, la copia de seguridad en frío, también conocida como copia de seguridad fuera de línea, se refiere a una copia de seguridad completa de la base de datos cuando la base de datos está cerrada y no se puede actualizar.

En la copia de seguridad en frío, solo el centro de datos principal realiza negocios. El centro de datos de respaldo no respaldará el centro de datos principal en tiempo real. Cuando el centro de datos principal falla, el negocio también se interrumpirá. Esta tecnología no tiene la capacidad de prevenir y hacerse cargo de las fallas por adelantado, y la recuperación lleva tiempo. Es demasiado tiempo para cumplir con los altos requisitos del desarrollo de recuperación ante desastres del centro de datos.

2. Calentar

La copia de seguridad en caliente es un método entre la copia de seguridad en frío y la copia de seguridad en caliente. Realiza principalmente una copia de seguridad completa de todo el sistema mediante la configuración de una duplicación remota del disco duro, la replicación de la base de datos y la creación de un centro de copia de seguridad de desastres.

3. Modo de espera caliente

Es decir, la copia de seguridad en caliente de dos máquinas se refiere a la copia de seguridad en caliente basada en dos servidores en un sistema de alta disponibilidad. Aunque la copia de seguridad en caliente solo puede hacer una copia de seguridad del centro de datos principal en tiempo real, cuando el centro de datos principal falla y el negocio no está disponible, el centro de datos en espera puede hacerse cargo automáticamente del negocio del centro de datos principal y el negocio puede restaurarse en el menor tiempo posible. tiempo posible.

4. Hiperactivo

Activo-activo significa que otro centro de datos está en funcionamiento al mismo tiempo y realiza negocios al mismo tiempo, lo que mejora la capacidad general del servicio y la utilización de los recursos del sistema del centro de datos. Los dos centros de datos se respaldan mutuamente. Cuando un centro de datos falla, el negocio cambia automáticamente al otro centro de datos A sin pérdida de datos y sin interrupción del negocio.

La solución de centro de datos activo-activo implementa activo-activo en la capa de almacenamiento, la capa de aplicación y la capa de red, lo que elimina los puntos únicos de falla y garantiza la continuidad del negocio.

5. Vive más

Es decir, más en vivo en diferentes lugares, generalmente se refiere al establecimiento de centros de datos independientes en diferentes ciudades, "en vivo" es relativo a la copia de seguridad en frío, la copia de seguridad en frío es para hacer una copia de seguridad de la cantidad total de datos, generalmente no es compatible con las necesidades comerciales, solo cuando falla la sala de host Solo entonces cambiará a la sala de computadoras de respaldo, y más activa significa que estas salas de computadoras también necesitan usar el tráfico en los negocios diarios para brindar soporte comercial.

7. Arquitectura de recuperación ante desastres

1. Utilice la nube para construir un centro remoto de recuperación ante desastres : la sala de computadoras física local es el centro de datos principal, y solo los datos se respaldan en la nube.

2. Recuperación ante desastres dentro de la ciudad basada en la nube pública : migre todos los sistemas a la nube e impleméntelos en dos zonas de disponibilidad diferentes en la misma región para lograr la recuperación ante desastres dentro de la ciudad del sistema.

3. Recuperación remota ante desastres basada en la nube pública : migre todos los sistemas a la nube e impleméntelos en dos regiones diferentes para lograr una recuperación ante desastres entre regiones.

4. Combinar la recuperación ante desastres de la nube pública en la misma ciudad y la recuperación ante desastres remota : como tres centros en dos lugares, cinco centros en tres lugares, etc.

8. Recuperación de desastres en la nube

La recuperación ante desastres en la nube es un modelo de servicio desarrollado en base a la plataforma en la nube. La recuperación ante desastres en la nube se refiere al modelo de servicio de computación en la nube que proporciona a las empresas recuperación ante desastres empresarial, copia de seguridad de datos, utilización de copias de datos y otros escenarios de aplicaciones de datos, es decir, recuperación ante desastres como servicio (DRaaS, DR como servicio).

1. Ventajas de la recuperación ante desastres en la nube

La recuperación ante desastres en la nube combina muchas ventajas de la plataforma en la nube, como computación, almacenamiento y ancho de banda, y tiene muchas ventajas en comparación con la recuperación ante desastres tradicional:

reducción de infraestructura

En lugar de comprar servidores de recuperación ante desastres tradicionales, confíe en las plataformas informáticas y de almacenamiento proporcionadas por proveedores de plataformas en la nube, o adopte directamente los servicios de aplicación DRaaS de recuperación ante desastres en la nube. La solución de tecnología de recuperación ante desastres en la nube puede reducir eficazmente los requisitos de mantenimiento y el consumo de costos. Mientras ahorran más espacio físico, los clientes también pueden ahorrar más recursos de TI, liberando al personal de mantenimiento relevante para que participe en otro trabajo.

Reducir los costos de TI

De acuerdo con las necesidades específicas, se utiliza un almacenamiento en la nube más económico y más flexible para la copia de seguridad, lo que elimina la necesidad de comprar hardware y los costos de mantenimiento causados por los centros de datos autoconstruidos, eliminando los problemas causados por el mantenimiento de varios hardware y realizando la asignación de recursos. reduce la mayoría de los gastos de recuperación ante desastres.

paga sobre la marcha

La recuperación ante desastres en la nube puede adoptar la infraestructura en la nube o el modo DRaaS, lo que permite a los usuarios seleccionar libremente sistemas y datos importantes para la recuperación ante desastres. Por lo tanto, ya sea que se trate de una adquisición comercial o de un ensayo, los clientes solo deben pagar por los recursos realmente utilizados, lo que reduce en gran medida el desperdicio de recursos y mejora la eficiencia.

alta flexibilidad

La recuperación ante desastres en la nube facilita la evaluación de las necesidades comerciales, y los usuarios pueden estimar con mayor precisión qué sistema o incluso qué subsistema necesita mantenimiento, y también pueden seleccionar datos clave de una manera más detallada para optimizar su propio plan de copia de seguridad, en lugar de realizar copias de seguridad por completo. todo, para establecer con mayor precisión el RPO, que es la cantidad máxima de pérdida de datos que se puede tolerar. La arquitectura de alta disponibilidad y alta tolerancia a fallas establecida en la nube puede mejorar el RTO y el RPO. Con base en la plataforma de nube pública o la tecnología de nube privada de código abierto, también es posible construir nodos de recuperación ante desastres y migrar de manera fácil, rápida y flexible. o copiar datos a la nube para mejorar la velocidad de recuperación ante desastres.

rápida recuperación

Porque incluso con la copia de seguridad remota personalizada tradicional, aún lleva tiempo restaurar los datos y reiniciar el negocio, y depende de la distancia de la ubicación de la copia de seguridad remota y el rendimiento del servidor remoto. Y la recuperación ante desastres en la nube puede hacer un uso completo de las capacidades de la nube, superar las limitaciones físicas e iniciar servicios en la nube.

Las exclusivas características de alto rendimiento, alta confiabilidad, alta escalabilidad, fácil mantenimiento, bajo riesgo de responsabilidad y alto costo-beneficio de la recuperación ante desastres en la nube ayudan a los usuarios a crear una plataforma profesional de recuperación ante desastres en la nube altamente disponible, flexible y de pago por uso en bajo costo

Para muchos usuarios con recursos de TI limitados, la recuperación ante desastres basada en la nube es una buena opción, porque los servicios en la nube son un modelo de pago por uso, y si las empresas construyen sus propias instalaciones de recuperación ante desastres, la mayoría de las veces se encuentran en un Inactivo y en espera, por lo que la nube es perfecta para esas PYMES. Después de usar los servicios en la nube para configurar un sitio de recuperación ante desastres, la dependencia de la empresa del espacio del centro de datos, la infraestructura de TI y los recursos de TI se reducirá en gran medida, lo que a su vez conducirá a una reducción significativa de los costos operativos. Con la ayuda de la nube, las pequeñas empresas también pueden implementar sistemas de recuperación ante desastres, lo que anteriormente solo era posible para las grandes empresas.

2. Nivel de recuperación ante desastres en la nube

Con respecto a la clasificación de los niveles tradicionales de recuperación ante desastres, dado que la infraestructura de recuperación ante desastres en la nube adopta la plataforma en la nube, hay poca diferencia entre el nivel de aplicación y el nivel comercial en la división de niveles de recuperación ante desastres en la nube.Los niveles de desastre se dividen en: datos- recuperación ante desastres a nivel empresarial y recuperación ante desastres a nivel empresarial.

Recuperación de desastres en la nube a nivel de datos: la recuperación de desastres en la nube a nivel de datos se refiere a la copia de seguridad remota de datos a través de la plataforma en la nube. Después de que ocurre un desastre, es necesario asegurarse de que los datos originales no se pierdan ni se destruyan.

Recuperación ante desastres en la nube a nivel empresarial: la recuperación ante desastres en la nube a nivel empresarial se refiere a la copia de seguridad y recuperación remotas de datos a través de la plataforma en la nube para garantizar que las aplicaciones clave reanuden su funcionamiento dentro del intervalo de tiempo permitido, minimizar las pérdidas causadas por desastres y garantizar un determinado RPO. y RTO.

Con la nube gradual de la infraestructura de TI, la recuperación ante desastres también se enfrenta a la transformación de la nube y están surgiendo más productos y soluciones de recuperación ante desastres en la nube.

9. Tres centros en dos lugares

La arquitectura de dos sitios y tres centros es un patrón de arquitectura de sistema distribuido, que se utiliza para garantizar una alta disponibilidad y tolerancia a fallas del sistema. Divide todo el sistema en tres centros de datos: dos en la misma ciudad y uno en una ubicación remota. Entre ellos, los dos centros de datos en la misma ciudad asumen el rol de maestro y respaldo respectivamente, y el centro de datos en un lugar diferente actúa como respaldo .

En la arquitectura de dos sitios y tres centros, la sincronización de datos se realiza entre dos centros de datos en la misma ciudad a través de una red de alta velocidad, lo que permite la conmutación activa-espera y la recuperación de fallas. Cuando falla el centro de datos principal, el centro de datos de respaldo se hará cargo automáticamente del servicio para garantizar la continuidad y disponibilidad del sistema. Al mismo tiempo, el centro de datos externo se utiliza como respaldo para brindar servicios cuando fallan tanto el centro de datos principal como el de respaldo.

Aprendizaje básico de recuperación ante desastres