Apprentissage de base de la reprise après sinistre

reprise après sinistre

Reprise après sinistre : La reprise après sinistre est l'abréviation de reprise après sinistre et de sauvegarde.Elle utilise des moyens et des méthodes techniques scientifiques pour établir à l'avance une méthode systématique d'urgence des données pour faire face aux sinistres. Son contenu comprend : la sauvegarde des données, la sauvegarde du système, la planification de la continuité des activités, la structure du personnel, la garantie de communication, les relations publiques de crise, la planification de la reprise après sinistre, le plan de reprise après sinistre, le plan de reprise des activités, etc.

La reprise après sinistre fait référence à la mise en place de deux ou plusieurs ensembles de systèmes informatiques avec les mêmes fonctions dans deux endroits éloignés (dans la même ville ou dans des endroits différents), et ils peuvent effectuer une surveillance de l'état de santé et une commutation de fonction entre eux. le travail s'arrête, l'ensemble du système d'application peut être basculé vers un autre endroit, de sorte que les fonctions du système puissent continuer à fonctionner normalement, en se concentrant sur la synchronisation des données et la disponibilité continue du système. Fait référence à la mise en place de deux ou plusieurs ensembles de systèmes informatiques avec les mêmes fonctions dans deux endroits éloignés (dans la même ville ou dans des endroits différents), et ils peuvent effectuer une surveillance de l'état de santé et une commutation de fonction entre eux. , l'ensemble de l'application système peut être commuté à un autre endroit, de sorte que les fonctions du système puissent continuer à fonctionner normalement, en se concentrant sur la synchronisation des données et la disponibilité continue du système.

La sauvegarde fait référence à la création par l'utilisateur d'une ou plusieurs copies de données importantes (ou d'informations de données importantes d'origine) générées par le système d'application pour améliorer la sécurité des données. Concentrez-vous sur la sauvegarde et la préservation des données.

1. Mise en œuvre de la reprise après sinistre

image.png

Sauvegarde : Afin de faire face à d'éventuelles situations inattendues telles que la perte ou l'endommagement de fichiers et de données, copiez les données du périphérique de stockage de l'ordinateur sur un périphérique de stockage de grande capacité tel qu'un disque.

Vérification : Vérifiez si les données de sauvegarde sont cohérentes avec les métadonnées, si elles sont intactes et si elles peuvent être utilisées (cohérence et disponibilité).

Exercice : simulez des catastrophes pour détecter si l'ensemble de l'organisation a la capacité de réagir aux catastrophes lorsqu'une catastrophe soudaine se produit.

Récupération après sinistre (urgence) : lorsqu'un sinistre réel se produit, si l'ensemble de l'organisation a la capacité de répondre aux sinistres, permettant à l'ensemble du système d'application d'être basculé vers un autre emplacement, afin que les fonctions du système puissent continuer à fonctionner normalement.

Récupération (basculement) : indique si le fonctionnement normal du système de production principal peut être restauré après un sinistre.

2. Principaux indicateurs techniques de reprise après sinistre

1.RTO

Le RTO (RecoveryTime Object, Recovery Time Objective) détermine la durée d'interruption de l'activité. Après la survenance d'un sinistre, à partir du moment où le système informatique tombe en panne et que l'entreprise s'arrête, jusqu'au moment où le système informatique est restauré pour soutenir le fonctionnement des différents services et que l'entreprise reprend ses activités, la période de temps entre ces deux points est appelée RTO.

Les techniques courantes d'amélioration du RTO incluent : la récupération de bande, la migration manuelle et la commutation à distance des systèmes d'application.

Technologie de reprise après sinistre durée
récupération de bande niveau de jour
migration manuelle cours d'une heure
Commutation à distance du système d'application deuxième niveau

2. RPO

RPO (Recovery Point Object, objectif de point de récupération) détermine la quantité de données perdues. Après un sinistre, le système de récupération après sinistre restaure les données et le point temporel correspondant aux données récupérées est appelé RPO.

Le RPO est une mesure qui reflète l'intégrité des données restaurées. En mode de réplication de données synchrone, le RPO est égal au délai de transmission des données. En mode de réplication de données asynchrone, le RPO est essentiellement le temps de file d'attente des données de transmission asynchrones.

Les techniques courantes d'amélioration du RPO incluent la sauvegarde sur bande, la réplication périodique des données, la réplication asynchrone des données et la réplication synchrone des données.

Technologie de reprise après sinistre durée
sauvegarde sur bande niveau de jour
Réplication périodique des données cours d'une heure
réplication de données asynchrone niveau des minutes
réplication de données synchrone deuxième niveau

3. La relation entre RTO et RPO

Les indicateurs RTO et RPO ne sont pas isolés, mais reflètent les capacités de reprise après sinistre sous différents angles. L'indice RPO vient d'avant que la panne ne se produise, et l'indice RTO vient d'après la panne.

image.png

Lorsqu'un sinistre se produit, l'état idéal est que le système se rétablisse immédiatement et qu'il n'y ait aucune perte de données. Actuellement, le RTO peut être égal à 0 et le RPO peut s'approcher de 0 à l'infini. Cependant, lors de la conception d'un système de reprise après sinistre, le RPO et le RTO ne peuvent pas être trop poursuivis, car plus le RPO et le RTO sont petits, plus l'investissement est important. Plus le coût global des intrants est élevé, plus le retour sur investissement sera faible. D'un point de vue économique, la meilleure solution de reprise après sinistre n'est pas nécessairement la meilleure solution de reprise après sinistre, car le TCO global de l'investissement et le retour sur investissement du système de reprise après sinistre sont des indicateurs de conception très importants pour de nombreux utilisateurs.

3. Niveau de reprise après sinistre

La reprise après sinistre est une application technologique importante dans une entreprise, qui joue un rôle important dans la sécurité des données de l'entreprise. D'une manière générale, les niveaux de reprise après sinistre peuvent être divisés en trois niveaux : niveau données, niveau application et niveau métier.

1. Reprise après sinistre au niveau des données

La reprise après sinistre au niveau des données fait référence à la sauvegarde à distance des données en établissant un centre de reprise après sinistre à distance pour garantir que les données d'origine ne seront pas perdues ou détruites après un sinistre. Par exemple, au début, les sauvegardes étaient transférées sur des bandes et transférées vers des sites distants, ou la transmission de données asynchrone/synchrone entre le centre de reprise après sinistre et le centre de production était réalisée sur la base du réseau. Mais au niveau de la reprise après sinistre au niveau des données, les applications seront interrompues en cas de sinistre.

Copiez les données du centre de données depuis l'hôte d'application ou le périphérique de stockage vers d'autres supports pour éviter la perte et la destruction de données.

  • peut créer une partie ou la totalité des données ;
  • Cela peut être uniquement au centre ou entre les centres ;
  • Peut enregistrer plusieurs données à différents moments historiques ;
  • Doit généralement être planifié et pris en charge par un service de gestion de sauvegarde ;
  • La sauvegarde inter-centres est la base de la reprise après sinistre.

image.png

2. Reprise après sinistre au niveau de l'application

La reprise après sinistre au niveau de l'application est basée sur la reprise après sinistre au niveau des données. Un ensemble du même système d'application est également créé sur le site de sauvegarde. Grâce à la technologie de réplication synchrone ou asynchrone, il peut garantir que les applications clés peuvent reprendre leur fonctionnement dans la plage de temps autorisée. , autant que possible.Réduire les pertes causées par les catastrophes, faire en sorte que les utilisateurs ne ressentent pratiquement pas la survenue de catastrophes et rendre les services fournis par le système complets, fiables et sûrs. Le système de support comprend un système de sauvegarde des données, un système d'application de sauvegarde et un réseau de sauvegarde.

La transmission de données entre le centre de production de reprise après sinistre au niveau de l'application et le centre de reprise après sinistre à distance adopte une méthode de transmission WAN hétérogène ; en même temps, le système de reprise après sinistre au niveau de l'application doit être réalisé via plus de logiciels, afin que diverses applications puissent être effectuée en cas de sinistre. Une commutation rapide assure la continuité des activités.

Configurez deux ou plusieurs ensembles de systèmes informatiques avec les mêmes fonctions dans des endroits éloignés. Lorsqu'un système cesse de fonctionner de manière inattendue, l'ensemble du système d'application peut être basculé sur un autre pour garantir que le système d'application peut continuer à fonctionner normalement.

  • Chaque centre peut effectuer une surveillance de l'état de santé et une commutation de fonction entre eux ;
  • Fait partie intégrante de la technologie de haute disponibilité du système ;
  • Fournir une fonction de récupération du système au niveau du nœud ;
  • L'accent est davantage mis sur l'impact de l'environnement externe applicatif sur le système d'information, notamment l'impact du temps catastrophique sur l'ensemble du nœud informatique.

image.png

3. Reprise après sinistre au niveau de l'entreprise

La reprise après sinistre au niveau de l'entreprise est le niveau le plus élevé de reprise après sinistre. En plus des technologies informatiques nécessaires, elle nécessite également toute l'infrastructure. La plupart de son contenu est constitué de systèmes non informatiques (téléphones, bureaux, etc.). Lorsqu'une catastrophe se produit, l'espace de bureau d'origine sera détruit. En plus de la récupération des données et des applications, un lieu de travail de secours est nécessaire pour effectuer affaires normalement. . Par exemple, l'espace de bureau des utilisateurs professionnels et la sauvegarde du personnel de l'entreprise.

Le même business est assuré par plusieurs centres en même temps :

  • Plusieurs centres de données entraînent une pression commerciale, qui peut être partagée en proportion ;
  • Lorsqu'un centre cesse de desservir, le trafic professionnel peut être automatiquement transféré vers un autre centre pour fournir des services continus au monde extérieur ;
  • La commutation automatique est transparente pour le terminal d'accès, et le terminal d'accès n'en est absolument pas conscient ;
  • Améliorer efficacement l'utilisation des ressources.

image.png

4. Type de données

Du point de vue de l'utilisation des données, les données qui doivent être sauvegardées peuvent être divisées en données système, données de base, données d'application et données temporaires ; en même temps, elles peuvent être divisées en données de base de données, données hors base de données, données isolées données et données perdues selon les méthodes de stockage et de gestion des données.

  • Données système : désignent principalement le système d'exploitation, les différents progiciels installés dans le système applicatif et les programmes d'exécution du système applicatif. Les données système ne changeront pratiquement pas après l'installation du système et ne changeront que lorsque le système d'exploitation, la version du système d'application est mis à niveau ou le programme d'application est ajusté.

  • Données de base : désigne principalement le répertoire système, le répertoire des utilisateurs, le fichier de configuration du système, le fichier de configuration du réseau, le fichier de configuration de l'application, le contrôle d'accès, etc. utilisé pour assurer le fonctionnement normal du système de l'entreprise. Les données de base changent avec le changement de l'environnement d'exploitation du système d'entreprise et sont généralement enregistrées sous forme de fichier système.

  • Données d'application : désigne principalement toutes les données commerciales du système commercial, qui a des exigences élevées en matière de sécurité, d'exactitude et d'intégrité des données et qui change fréquemment.

  • Données temporaires : désigne principalement les enregistrements d'exploitation du système générés par les systèmes d'exploitation, les systèmes d'application et les bases de données, les journaux logiques de base de données et divers fichiers temporaires pour l'impression et la transmission générés lors de l'exécution des applications, qui changent avec les opérations du système et les événements commerciaux. Les données temporaires ont peu d'impact sur l'intégrité des données d'entreprise et doivent être nettoyées régulièrement après leur augmentation.

5. Type d'entreprise

Il existe différents scénarios d'entreprise dans une entreprise. Nous pouvons diviser les systèmes d'entreprise en systèmes d'entreprise clés, systèmes d'entreprise importants, systèmes d'entreprise généraux, etc.

  • Systèmes critiques pour l'entreprise : les données de l'entreprise sont relativement centralisées et centrales, et de nombreux nœuds de serveur y sont connectés, ce qui est essentiel pour assurer le fonctionnement normal de l'ensemble de l'entreprise ; une fois l'activité interrompue, les services fournis par l'entreprise et normaux les opérations commerciales seront immédiatement gravement affectées et entraîneront directement des pertes économiques pour l'entreprise ou affecteront la réputation de l'entreprise, et même des cas graves peuvent avoir des responsabilités légales potentielles. Tels que Ctrip en ligne, Taobao, Jingdong et ainsi de suite.

  • Systèmes d'affaires importants : une interruption d'activité aura un impact sérieux sur le fonctionnement normal et efficace de l'ensemble de l'entreprise. Une fois l'activité interrompue, une partie des services fournis par l'entreprise et une partie de l'activité seront affectés et interrompus, mais cela n'a rien à voir avec la situation globale. Tels que : site Web interne de l'entreprise, système de transmission de courrier, système d'exploitation commerciale, etc.

  • Système d'entreprise général : l'interruption d'activité n'aura pas immédiatement un impact sérieux sur le fonctionnement normal de l'ensemble de l'entreprise, et une fois que le court terme peut être toléré, il peut être rétabli en quelques jours ou semaines. Par exemple : système de fichiers du personnel, système de présence, budget du projet et système de compte final, etc.

6. Technologie de reprise après sinistre

Les technologies de reprise après sinistre des centres de données peuvent être grossièrement divisées en cinq types : sauvegarde à froid , sauvegarde à chaud , sauvegarde à chaud , active-active et multi-active .

1. Veille froide

Autrement dit, la sauvegarde à froid, également appelée sauvegarde hors ligne, fait référence à une sauvegarde complète de la base de données lorsque la base de données est fermée et que la base de données ne peut pas être mise à jour.

Dans la sauvegarde à froid, seul le centre de données principal entreprend des activités. Le centre de données de sauvegarde ne sauvegardera pas le centre de données principal en temps réel. Lorsque le centre de données principal tombe en panne, l'activité est également interrompue. Cette technologie n'a pas la capacité d'empêcher et prendre en charge les pannes à l'avance, et la récupération prend du temps. Il est trop long de répondre aux exigences élevées du développement de la reprise après sinistre des centres de données.

2. Échauffez-vous

La sauvegarde à chaud est une méthode intermédiaire entre la sauvegarde à froid et la sauvegarde à chaud.Elle réalise principalement une sauvegarde complète de l'ensemble du système en mettant en place la mise en miroir à distance du disque dur, la réplication de la base de données et la mise en place d'un centre de sauvegarde après sinistre.

3. Redondance à chaud

Autrement dit, la sauvegarde à chaud sur deux machines fait référence à la sauvegarde à chaud basée sur deux serveurs dans un système à haute disponibilité. Bien que la sauvegarde à chaud ne puisse sauvegarder que le centre de données principal en temps réel, lorsque le centre de données principal tombe en panne et que l'entreprise n'est pas disponible, le centre de données de secours peut automatiquement prendre en charge l'activité du centre de données principal et l'activité peut être restaurée dans les plus brefs délais. temps possible.

4. Hyperactif

Actif-actif signifie qu'un autre centre de données est en fonctionnement en même temps et entreprend des activités en même temps, améliorant la capacité de service globale et l'utilisation des ressources système du centre de données. Les deux centres de données sont mutuellement sauvegardés. Lorsqu'un centre de données échoue, l'entreprise est automatiquement basculée vers l'autre Un centre de données sans aucune perte de données et aucune interruption d'activité.

La solution de centre de données actif-actif implémente l'actif-actif au niveau de la couche de stockage, de la couche d'application et de la couche réseau, éliminant les points de défaillance uniques et garantissant la continuité des activités.

5. Vivez plus

Autrement dit, plus en direct dans différents endroits, se réfère généralement à la création de centres de données indépendants dans différentes villes, "en direct" est relatif à la sauvegarde à froid, la sauvegarde à froid consiste à sauvegarder la totalité des données, ne prend généralement pas en charge les besoins de l'entreprise, uniquement lorsque la salle hôte tombe en panne Ce n'est qu'alors qu'elle basculera vers la salle informatique de secours, et plus active signifie que ces salles informatiques doivent également utiliser le trafic dans les activités quotidiennes pour fournir un soutien commercial.

7. Architecture de reprise après sinistre

1. Utilisez le cloud pour construire un centre de reprise après sinistre à distance : la salle informatique physique locale est le centre de données principal, et seules les données sont sauvegardées dans le cloud.

2. Reprise après sinistre intra-urbaine basée sur le cloud public : migrez tous les systèmes vers le cloud et déployez-les dans deux zones de disponibilité différentes dans la même région pour réaliser une reprise après sinistre intra-urbaine du système.

3. Reprise après sinistre à distance basée sur le cloud public : migrez tous les systèmes vers le cloud et déployez-les dans deux régions différentes pour réaliser une reprise après sinistre interrégionale.

4. Combiner la reprise après sinistre du cloud public dans la même ville et la reprise après sinistre à distance : comme trois centres à deux endroits, cinq centres à trois endroits, etc.

8. Récupération après sinistre dans le cloud

La reprise après sinistre dans le cloud est un modèle de service développé sur la base de la plate-forme cloud. La reprise après sinistre dans le cloud fait référence au modèle de service de l'informatique en nuage qui fournit aux entreprises la reprise après sinistre, la sauvegarde des données, l'utilisation de la copie des données et d'autres scénarios d'application de données, c'est-à-dire la reprise après sinistre en tant que service (DRaaS, DR en tant que service).

1. Avantages de la reprise après sinistre dans le cloud

La reprise après sinistre dans le cloud combine de nombreux avantages de la plate-forme cloud, tels que le calcul, le stockage et la bande passante, et présente de nombreux avantages par rapport à la reprise après sinistre traditionnelle :

  • réduction des infrastructures

Au lieu d'acheter des serveurs de reprise après sinistre traditionnels, fiez-vous aux plates-formes de calcul et de stockage fournies par les fournisseurs de plates-formes cloud ou adoptez directement les services d'application DRaaS de reprise après sinistre cloud. La solution technologique de reprise après sinistre dans le cloud peut réduire efficacement les besoins de maintenance et la consommation des coûts. Tout en économisant plus d'espace physique, les clients peuvent également économiser plus de ressources informatiques, libérant ainsi le personnel de maintenance concerné pour participer à d'autres travaux.

  • Réduire les coûts informatiques

Selon les besoins spécifiques, un stockage en nuage plus économique et plus flexible est utilisé pour la sauvegarde, éliminant le besoin d'achat de matériel et les coûts de maintenance causés par les centres de données auto-construits, éliminant les problèmes causés par la maintenance de divers matériels et réalisant l'allocation des ressources. la gestion réduit la plupart des dépenses de reprise après sinistre.

  • payez au fur et à mesure

La reprise après sinistre dans le cloud peut adopter une infrastructure cloud ou un modèle DRaaS, permettant aux utilisateurs de sélectionner librement des systèmes et des données importants pour la reprise après sinistre. Par conséquent, qu'il s'agisse d'une reprise d'entreprise ou d'une répétition, les clients ne doivent payer que les ressources réellement utilisées, ce qui réduit considérablement le gaspillage de ressources et améliore l'efficacité.

  • grande flexibilité

La reprise après sinistre dans le cloud facilite l'évaluation des besoins de l'entreprise. Les utilisateurs peuvent estimer plus précisément quel système ou même quel sous-système doit être maintenu, et peuvent également sélectionner les données clés de manière plus précise pour optimiser leur propre plan de sauvegarde au lieu de sauvegarder complètement l'ensemble du système. , pour définir plus précisément le RPO, qui est la quantité maximale de perte de données pouvant être tolérée. L'architecture à haute disponibilité et à haute tolérance aux pannes établie dans le cloud peut améliorer le RTO et le RPO. Sur la base de la plate-forme de cloud public ou de la technologie de cloud privé open source, il est également possible de créer facilement, rapidement et de manière flexible des nœuds de reprise après sinistre et de migrer ou copier des données dans le cloud pour améliorer la vitesse de reprise après sinistre.

  • prompt rétablissement

Parce que même avec une sauvegarde à distance personnalisée traditionnelle, il faut encore du temps pour restaurer les données et redémarrer l'activité, et cela dépend de la distance de l'emplacement de sauvegarde à distance et des performances du serveur distant. Et la reprise après sinistre dans le cloud peut tirer pleinement parti des capacités du cloud, dépasser les limitations physiques et démarrer des services sur le cloud.

Les caractéristiques uniques de haute performance, de haute fiabilité, de haute évolutivité, de maintenance facile, de faible risque de responsabilité et de service rentable de la reprise après sinistre dans le cloud aident les utilisateurs à créer une plate-forme professionnelle de reprise après sinistre dans le cloud hautement disponible, flexible et payante à faible coût.

Pour de nombreux utilisateurs disposant de ressources informatiques limitées, la reprise après sinistre basée sur le cloud est un bon choix, car les services cloud sont un modèle de paiement à l'utilisation, et si les entreprises construisent leurs propres installations de reprise après sinistre, la plupart du temps, elles sont dans un Inactif et veille, le cloud est donc parfait pour ces PME. Après avoir utilisé les services cloud pour mettre en place un site de reprise après sinistre, la dépendance de l'entreprise vis-à-vis de l'espace du centre de données, de l'infrastructure informatique et des ressources informatiques sera considérablement réduite, ce qui entraînera à son tour une réduction significative des coûts d'exploitation. Avec l'aide du cloud, les petites entreprises peuvent également mettre en œuvre des systèmes de reprise après sinistre, ce qui n'était auparavant possible que pour les grandes entreprises.

2. Niveau de reprise après sinistre dans le cloud

En se référant à la classification des niveaux de reprise après sinistre traditionnels, étant donné que l'infrastructure de reprise après sinistre dans le cloud adopte la plate-forme cloud, il y a peu de différence entre le niveau de l'application et le niveau métier dans la division des niveaux de la reprise après sinistre dans le cloud. reprise après sinistre au niveau et reprise après sinistre au niveau de l'entreprise.

Reprise après sinistre dans le cloud au niveau des données : la reprise après sinistre dans le cloud au niveau des données fait référence à la sauvegarde à distance des données via la plate-forme cloud. Après un sinistre, il est nécessaire de s'assurer que les données d'origine ne seront pas perdues ou détruites.

Reprise après sinistre dans le cloud au niveau de l'entreprise : la reprise après sinistre dans le cloud au niveau de l'entreprise fait référence à la sauvegarde et à la récupération à distance des données via la plate-forme cloud pour garantir que les applications clés peuvent reprendre leur fonctionnement dans la plage de temps autorisée, minimiser les pertes causées par les catastrophes et garantir un certain RPO et RTO.

Avec la cloudification progressive de l'infrastructure informatique, la reprise après sinistre est également confrontée à la transformation du cloud, et de plus en plus de produits et de solutions de reprise après sinistre dans le cloud font leur apparition.

9. Trois centres en deux endroits

image.png

L'architecture à deux sites et trois centres est un modèle d'architecture de système distribué, qui est utilisé pour assurer une haute disponibilité et une tolérance aux pannes du système. Il divise l'ensemble du système en trois centres de données : deux dans la même ville et un dans un endroit éloigné. Parmi eux, les deux centres de données dans la même ville assument respectivement le rôle de maître et de sauvegarde, et le centre de données situé à un endroit différent agit comme une sauvegarde .

Dans l'architecture à deux sites et trois centres, la synchronisation des données est effectuée entre deux centres de données dans la même ville via un réseau à haut débit, réalisant le basculement actif-veille et la récupération des pannes. En cas de défaillance du datacenter principal, le datacenter de secours reprendra automatiquement le service pour assurer la continuité et la disponibilité du système. Dans le même temps, le centre de données hors site est utilisé comme sauvegarde pour fournir des services en cas de défaillance des centres de données principal et de secours.

Je suppose que tu aimes

Origine blog.csdn.net/weixin_46706771/article/details/131894473
conseillé
Classement