Scénarios d'utilisation et considérations pour la migration des données dans HDFS

Scénarios d'utilisation de la migration des données

  • Synchronisation des données de cluster chaud et froid et stockage classifié
  • Migration globale des données du cluster
    • Lorsque les activités de l'entreprise se développent rapidement, entraînant une pénurie temporaire des ressources actuelles du serveur, afin d'utiliser les ressources plus efficacement, toutes les données de la salle informatique A seront migrées vers la salle informatique B. La raison peut être que la salle informatique B comporte de nombreux machines et salle informatique B Le coût lui-même est inférieur à celui de la salle informatique A, etc.
  • Synchronisation des données en temps quasi réel
    • Le moyen de synchronisation des données en temps quasi réel réside dans la disponibilité de doubles copies des données. Par exemple, un jour, le cluster A annonce soudainement qu'il n'est plus autorisé à être utilisé. À ce moment-là, le cluster en ligne peut être directement commuté vers le cluster de synchronisation de B, car le cluster B synchronise le cluster A en temps réel. Les données ont des données réelles et des informations de métadonnées totalement cohérentes, il n'y aura donc aucun impact sur l'utilisation commerciale.

Facteurs de migration de données à prendre en compte

  • Bande passante-bande passante
    • Si la bande passante est trop utilisée, cela affectera le fonctionnement des tâches de l'entreprise en ligne. Si la bande passante est moins utilisée, cela entraînera le problème de la synchronisation complète des données.
  • performance-performance
    • Est-ce un simple programme autonome ? Ou s'agit-il d'un programme distribué avec de meilleures performances avec le multi-thread ?
  • synchronisation incrémentielle-incrémentation de données
    • Lorsque des données au niveau TB ou PB doivent être synchronisées, si les données sont entièrement synchronisées à chaque fois, le résultat sera très mauvais. Ce serait une bonne idée de synchroniser uniquement les données incrémentielles modifiées. Une synchronisation incrémentielle des données peut être obtenue avec des technologies telles que les instantanés HDFS.
  • syncable - Synchronicité de la migration des données
    • Pendant le processus de migration des données, il est nécessaire de s'assurer que les données peuvent être complètement synchronisées au sein du cycle et que l'écart ne peut pas être trop grand. Par exemple, il ne me faut qu'une demi-journée pour synchroniser les données incrémentielles du cluster A dans les 7 jours avec le cluster B, puis je peux attendre la semaine prochaine pour synchroniser à nouveau. Le plus effrayant est que les données du cluster A dans les 7 jours , mon programme prend La synchronisation ne peut pas être terminée après 7 jours, puis le cycle suivant revient, il est donc impossible d'obtenir une cohérence quasi en temps réel. En fait, 7 jours est encore une période de temps relativement longue, et cela Il est préférable d'effectuer une synchronisation quotidiennement.

Outil de copie distribué HDFS-DistCp

  • DistCp est un outil dans Hadoop et existe en tant que sous-projet indépendant du projet hadoop-tools.
  • Positionnement pour la migration des données, sauvegarde régulière des données entre clusters et au sein des clusters
  • Pendant le processus de sauvegarde, chaque exécution de distcp devient un cycle de sauvegarde. Malgré ses performances relativement lentes, sa popularité a augmenté
  • Distcp utilise MapReduce sous le capot pour copier des fichiers entre clusters ou au sein du même cluster en parallèle. MapReduce qui effectue la réplication n'a que la phase de mappage
    Insérer la description de l'image ici

Avantages et performances de discp

  • Limitation de la bande passante
    • distcp peut utiliser le paramètre de commande bande passante pour limiter la bande passante du programme.
  • Synchronisation incrémentielle des données
    • Dans distcp, la synchronisation incrémentielle peut être réalisée via les trois paramètres update, append et diff.
    • updata copie uniquement les fichiers ou répertoires qui n'existent pas
    • ajouter un fichier qui existe déjà sous le chemin cible optimal
    • diff synchronise le chemin source et le chemin cible via les informations de comparaison diff de l'instantané.
      Updata résout la synchronisation des nouveaux fichiers et répertoires. append résout la synchronisation des mises à jour incrémentielles existantes. diff résout la synchronisation des fichiers de type supprimés ou renommés
  • Performance efficace : nature distribuée
    • La couche inférieure de distcp utilise MapReduce pour effectuer la synchronisation des données. MapReduce lui-même est un type de programme distribué.

Commande

Insérer la description de l'image ici

  • Parmi eux, source_path et target_path doivent porter des préfixes d'adresse pour distinguer les différents clusters.
hadoop distcp hdfs://src_cluster:8020/user/data hdfs://dest_cluster:8020/user/data_backup

Cette commande indique à l'outil distcp de copier les données du répertoire hdfs://src_cluster:8020/user/data vers le répertoire hdfs://dest_cluster:8020/user/data_backup.

Je suppose que tu aimes

Origine blog.csdn.net/weixin_49750432/article/details/131996412
conseillé
Classement