Améliorez l'expérience du cluster Huawei Cloud CCE sous 3 aspects majeurs pour faciliter une gestion efficace de l'exploitation et de la maintenance du cluster

Cet article est partagé par la communauté Huawei Cloud « Huawei Cloud crée une expérience de mise à niveau de cluster CCE du cœur pour aider à une gestion efficace de l'exploitation et de la maintenance du cluster », auteur : Cloud Container Future.

Poussé par la vague de l'ère du cloud natif, Kubernetes se développe chaque jour. La version mise à jour du cluster peut apporter de nouvelles fonctions et aider les utilisateurs à créer un environnement d'application cloud natif plus puissant. Cependant, comment permettre aux utilisateurs de mettre activement à niveau les versions de cluster a toujours été un problème difficile reconnu par l'industrie.

"Nous souhaitons utiliser les nouvelles fonctionnalités lancées par K8 et également maintenir l'ensemble du cluster à jour. Mais tant de nos applications importantes fonctionnent sur des conteneurs, comment puis-je m'assurer que mon entreprise ne sera en aucun cas affectée pendant la processus de mise à niveau du cluster ? Une fois qu'un problème survient, peut-il être réparé rapidement ?", "Ma version du cluster est relativement ancienne et je souhaite effectuer une mise à niveau vers la dernière version. Le processus de mise à niveau peut être très long. Je crains qu'il puisse y avoir un L'impact sur l'activité des couches supérieures et la durée de l'impact sont incontrôlables. » - Il s'agit d'un cluster CCE Plusieurs questions que l'équipe de mise à niveau entend le plus souvent lorsqu'elle communique avec les utilisateurs.

À cette fin, l'équipe de mise à niveau du cluster CCE a mené une analyse approfondie et résumé les points faibles de la mise à niveau du cluster, comprenant principalement les trois aspects suivants :

  • En termes d'impact commercial, les mises à niveau de remplacement ou les mises à niveau de migration dans les mises à niveau traditionnelles entraîneront la reconstruction des pods professionnels, affectant ainsi l'entreprise.

  • En termes de stabilité et d'efficacité de la mise à niveau, le système de cluster Kubernetes est complexe et de nombreux facteurs affectent la stabilité de la mise à niveau. Lorsque l'étendue des versions du cluster est importante, plusieurs opérations de mise à niveau doivent être effectuées et le temps de mise à niveau prend beaucoup de temps. dans les scénarios de mise à niveau de cluster à grande échelle, la perception des utilisateurs est plus évidente.

  • En termes d'expérience interactive, les utilisateurs n'ont pas de contrôle global sur le processus de mise à niveau, d'autant plus que le processus de mise à niveau comporte de nombreuses étapes et que le coût de la compréhension par l'utilisateur est élevé.

Figure 1  Points faibles de la mise à niveau du cluster

Comment mettre à niveau les clusters sans perte, rapidement et en douceur est un problème courant dans l'industrie. Sur la base des problèmes mentionnés ci-dessus, l'équipe produit CCE est partie des aspects « sans processus métier », « mise à niveau stable et efficace » et « expérience interactive soyeuse » pour créer une toute nouvelle expérience de mise à niveau de cluster.

Indifférent aux affaires de processus

Les méthodes de mise à niveau traditionnelles incluent principalement la mise à niveau de remplacement de nœud et la mise à niveau de migration de cluster. Les deux méthodes conduiront à la reconstruction des pods d'entreprise, affectant ainsi les services aux utilisateurs. Huawei Cloud est le premier à lancer la capacité de mise à niveau sur place. Il suffit de mettre à jour la version du composant CCE sans aucune modification des nœuds. Cela n'a aucun impact sur l'activité Pod exécutée dans le cluster, permettant ainsi une mise à niveau sans perte. Dans le même temps, la vitesse de mise à niveau sur place est considérablement améliorée par rapport à la mise à niveau traditionnelle.

Figure 2  Comparaison entre la mise à niveau traditionnelle et la mise à niveau sur place

Dans le même temps, les utilisateurs n'ont pas besoin de prêter attention aux dépendances entre les clusters et les versions de plug-in. La mise à niveau en un clic se mettra automatiquement à niveau et s'adaptera pour vous, vous évitant ainsi des soucis et des efforts. De plus, si une situation inattendue se produit pendant le processus de mise à niveau, les utilisateurs peuvent rapidement récupérer sur la base de la sauvegarde, ce qui leur permet de contrôler plus facilement la mise à niveau du cluster.

Mise à niveau stable et efficace

En termes d'amélioration de la stabilité de la mise à niveau, sur la base de l'expérience de Huawei Cloud dans des dizaines de milliers de mises à niveau, nous fournissons aux utilisateurs une gamme complète d'éléments de contrôle préalables à la mise à niveau. Les éléments de contrôle couvrent les clusters, les nœuds, les plug-ins et les applications, l'état des composants clés. et la configuration et l'utilisation des ressources. Dans d'autres aspects, il aide les utilisateurs à éviter dans une large mesure les risques de mise à niveau et à réaliser des mises à niveau stables. Dans le même temps, la sauvegarde est une garantie importante pour la continuité des activités. La solution de sauvegarde Etcd courante dans l'industrie a le problème de ne pas pouvoir sauvegarder les composants et les configurations du cluster. En utilisant la solution de sauvegarde par instantané de disque dur, nous fournissons non seulement aux utilisateurs avec des capacités complètes de sauvegarde des données du cluster, mais ont également une vitesse de sauvegarde moyenne améliorée près de 10 fois.

En termes d'efficacité de la mise à niveau, d'une part, la communauté Kubernetes n'est compatible qu'avec les versions mineures adjacentes. Lorsque l'étendue des versions est importante, plusieurs mises à niveau vers la dernière version sont nécessaires. Nous fournissons aux utilisateurs des capacités de mise à niveau entre versions, prenant en charge les mises à niveau sur jusqu'à 4 versions majeures, telles que la v1.23 à la v1.27, ce qui raccourcit efficacement le chemin de mise à niveau de l'utilisateur et réduit les coûts de mise à niveau ; d'autre part, le temps de mise à niveau augmente. avec la taille du cluster. Croissance positive. Dans le but d'assurer la sécurité des mises à niveau du cluster, nous prenons en charge les mises à niveau simultanées jusqu'à 100 nœuds, permettant aux utilisateurs de terminer les mises à niveau des nœuds du cluster dans un délai plus court et d'améliorer l'efficacité de la mise à niveau.

Figure 3 Chemin de mise à niveau simplifié du cluster

Figure 4 Mise à niveau simultanée des nœuds du cluster

Expérience interactive soyeuse

En termes de conseils de mise à niveau, nous utilisons la page de conseils pour fournir aux utilisateurs des messages d'invite clairs et intuitifs concernant les clusters à mettre à niveau, afin que les utilisateurs ne manquent pas les notifications de mise à niveau importantes.

Figure 5  Notification de mise à niveau du cluster sur la page de gestion du cluster

Afin de réduire le coût de compréhension des utilisateurs, nous avons conçu une petite animation de mise à niveau pour expliquer les concepts et principes de la mise à niveau sur place afin d'aider les utilisateurs à comprendre de manière vivante et intuitive le processus et les précautions de mise à niveau du cluster.

Figure 6  Animation de mise à niveau du cluster

Dans le même temps, nous avons lancé une fonction de recommandation de chemin de mise à niveau pour sélectionner automatiquement le meilleur chemin de mise à niveau et afficher les mises à jour de fonctionnalités et les améliorations d'optimisation apportées par cette mise à niveau en fonction du chemin de mise à niveau.

Figure 7  Chemin de mise à niveau

Pendant le processus de mise à niveau, nous utilisons des moyens visuels pour présenter en détail aux utilisateurs la progression de la mise à niveau et les situations anormales. Le processus de mise à niveau est clair en un coup d'œil, permettant aux utilisateurs de contrôler la progression de la mise à niveau et de réduire leur anxiété.

Figure 8  Visualisation de la progression de la mise à niveau

Lors de la mise à niveau des exceptions de contrôle, nous regroupons les informations sur les éléments de contrôle en fonction de différentes ressources pour aider les utilisateurs à visualiser rapidement les éléments anormaux et fournir des suggestions de réparation pour guider les utilisateurs dans une gestion rapide du problème.

Figure 9  Analyse du diagnostic des exceptions de mise à niveau

Une fois la mise à niveau terminée, nous aiderons les utilisateurs à effectuer une vérification automatique après la mise à niveau pour garantir le fonctionnement normal du cluster mis à niveau, économisant ainsi du temps et de l'énergie aux utilisateurs.

Figure 10 Diagnostic de santé automatique

vision future

Bienvenue dans l'utilisation de la fonction de mise à niveau du cluster CCE. Nous continuerons d'optimiser les aspects « sans processus métier », « mise à niveau stable et efficace » et « expérience interactive soyeuse » pour rendre le processus de mise à niveau du cluster plus simple, plus efficace et plus fiable. . Dans l'attente de vos précieux commentaires.

Pour une expérience de service, veuillez visiter

  • https://www.huaweicloud.com/product/cce.html

Liens connexes

  • https://support.huaweicloud.com/bulletin-cce/cce_bulletin_0067.html

  • https://bbs.huaweicloud.com/blogs/413984

Cliquez pour suivre et découvrir les nouvelles technologies de Huawei Cloud dès que possible~

Alibaba Cloud a subi une grave panne et tous les produits ont été affectés (restaurés). Tumblr a refroidi le système d'exploitation russe Aurora OS 5.0. La nouvelle interface utilisateur a été dévoilée Delphi 12 & C++ Builder 12, RAD Studio 12. De nombreuses sociétés Internet recrutent en urgence des programmeurs Hongmeng. L'heure d'UNIX est sur le point d'entrer dans l'ère des 1,7 milliards (déjà entrée). Meituan recrute des troupes et envisage de développer l'application du système Hongmeng. Amazon développe un système d'exploitation basé sur Linux pour se débarrasser de la dépendance d'Android à l'égard de .NET 8 sous Linux. La taille indépendante est réduit de 50 %. Sortie de FFmpeg 6.1 "Heaviside"
{{o.name}}
{{m.nom}}

Je suppose que tu aimes

Origine my.oschina.net/u/4526289/blog/10142741
conseillé
Classement