Comment améliorer la stabilité du système ?

1. Critères pour juger de la stabilité du système

Avant de commencer à parler de garantie de stabilité, parlons d'un mot SLA qui est souvent mentionné dans l'industrie ! L'industrie aime utiliser le SLA (accord de niveau de service, nom complet : accord de niveau de service) pour mesurer la stabilité du système. Pour les sociétés Internet, il s'agit d'un accord mutuellement reconnu défini entre le site Web et l'utilisateur.

On voit souvent des sociétés Internet scander des slogans : nous devons atteindre trois neuf et quatre neuf cette année, soit 99,9 %, 99,99 %, et même cinq neuf, soit 99,999 %.
Plus 9 représente le temps disponible du service tout au long de l'année, plus le temps est long, plus le service est fiable . Prenons un exemple standard de 99,99 %, le temps d'arrêt est de 52,6 minutes et le temps d'arrêt moyen par semaine n'est que d'environ 1 minute, ce qui signifie que le temps de gigue du réseau peut avoir disparu.
La norme de calcul de la stabilité du service est généralement le nombre total de requêtes - le nombre d'échecs / le nombre total de requêtes, par exemple 100-5/100 = 95 %, et plusieurs temps d'arrêt correspondants sont répertoriés ci-dessous.

1年 = 365天 = 8760小时
3个9        99.9 = 8760 * 0.1% = 8760 * 0.001 = 8.76小时
4个9        99.99 = 8760 * 0.0001 = 0.876小时 = 0.876 * 60 = 52.6分钟
5个9        99.999 = 8760 * 0.00001 = 0.0876小时 = 0.0876 * 60 = 5.26分钟

2. L'importance d'améliorer la stabilité du système

Je pense que c'est une question très importante. Quel est le but de dépenser autant de ressources, de temps et d'énergie, et quelle est l'importance d'exposer la stabilité du système ?

  • Ce n'est pas à l'entreprise de faire plus d'argent, mais à l'entreprise d'en perdre moins ! (e-commerce, systèmes de trading)
  • Améliorer l'expérience d'utilisation du système par l'utilisateur et réduire la perte d'utilisateurs (évaluation de l'utilisateur : lisse, poubelle, réutilisation, utilisation de produits concurrents)

3. L'essence de l'amélioration de la stabilité du système

  • MTTF (Mean Time To Failure) fait référence au temps moyen nécessaire au système pour fonctionner sans panne et prend la valeur moyenne de toutes les périodes de temps entre le moment où le système commence à fonctionner normalement et le moment où une panne se produit. MTTF =∑T1/N
  • Le MTTR (Mean Time To Repair) fait référence à la valeur moyenne de la période de temps entre la panne du système et la fin de la réparation. MTTR =∑(T2+T3)/N
  • MTBF (Mean Time Between Failure) fait référence à la valeur moyenne de la période de temps entre deux pannes du système. MTBF =∑(T2+T3+T1)/N

  • Fiabilité : La métrique est le temps moyen entre les pannes (MTBF), le temps après lequel un composant tombe en panne et nécessite une réparation. L'amélioration de la fiabilité doit mettre l'accent sur la réduction du nombre de pannes du système, c'est-à-dire aucune panne ou le moins de pannes possible, c'est-à-dire augmenter le temps MTTF.
  • Disponibilité : L'indicateur quantitatif est le temps total pendant lequel le système fonctionne sans panne (MTTF) pendant la période. L'amélioration de la disponibilité nécessite de mettre l'accent sur la réduction du temps de récupération après un sinistre, c'est-à-dire la réduction du temps MTTR.

L'essence de la stabilité du système est d'améliorer la fiabilité et la disponibilité, d'augmenter le temps entre les pannes (MTTF) et de réduire le temps de récupération après panne (MTTR) pour assurer la continuité des activités et réduire les pertes d'activité.

4. Améliorer le piège cognitif de la stabilité du système

Cette section parle brièvement de certains pièges courants lorsque nous entretenons le système et comment nous pouvons améliorer notre niveau cognitif.

Piège 1 : Mon système n'a jamais eu d'accident, il ne doit pas tomber en panne

Pensée continue : Habituellement, les gens pensent que le passé, le présent et le futur sont continus, alors que le monde réel est discontinu et que la continuité n'est qu'une hypothèse cognitive. La façon de penser par défaut des êtres humains est l'induction, et son champ d'application est dans la même courbe, sans mutation. Notre système est un système changeant, une fois que les prémisses ne sont pas établies, la généralisation du futur à partir du passé n'est plus valable.
Mise à niveau cognitive : Reconnaître les limites de la pensée continue, passer à la pensée discontinue et résoudre la solidification de la pensée

Piège 2 : Il y a un problème avec le réseau, il y a un problème avec l'infrastructure, je n'y peux rien, ce n'est pas ma faute

Conception pour l'échec : Notre système est construit sur une infrastructure telle que du matériel et des systèmes d'exploitation, et s'appuie sur des logiciels intermédiaires, des bases de données, des réseaux et des systèmes tiers. Tous ces éléments peuvent échouer. Nous devons nous fier à ces dépendances. Conception pour l'échec.
Mise à niveau cognitive : tout peut échouer et des scénarios d'échec doivent être envisagés

Piège 3 : J'ai envisagé ces scénarios anormaux et fait un design spécial, ça ne doit pas poser de problème

Vérification de l'exercice de panne :  si toutes nos conceptions sont valides, doivent être vérifiées comme la physique et la chimie, et les choses qui n'ont pas été vérifiées sont

On ne peut pas faire confiance. Nous devons simuler des scénarios de défaillance, effectuer une vérification de la conception de la fiabilité et une vérification de la conception de l'utilisabilité en fonction de la probabilité d'occurrence, du degré de danger et des conséquences, et prouver qu'il fonctionne comme prévu.
Mise à niveau cognitive : l'efficacité ou non de la conception doit être testée par des exercices de détection de pannes.

Piège 4 : ce scénario d'échec est trop improbable

Loi de Murphy : Il y a quatre aspects principaux :

  • Rien n'est aussi simple qu'il y paraît;
  • Tout prendra plus de temps que prévu;
  • Ce qui peut mal tourner tournera toujours mal ;
  • Si vous craignez que quelque chose ne se passe, il est plus probable que cela se produise.

Le contenu fondamental de la loi de Murphy fait référence à tout événement, tant qu'il a une probabilité supérieure à zéro, on ne peut pas ériger qu'il ne se produira pas.
Mise à niveau cognitive : s'inquiéter de ce qui se passera tôt ou tard, mettre fin à la mentalité de hasard

Piège 5 : Il y a beaucoup d'alarmes ces jours-ci, mais il n'y a pas de retour des utilisateurs, parlons-en dans quelques jours

Loi de Hayne : Tout accident dangereux est évitable. La loi de Hayne est une loi sur la sécurité des vols dans l'industrie aéronautique. La loi de Hayne précise : Derrière chaque accident grave, il doit y avoir 29 accidents mineurs, 300 tentatives précurseurs et 1 000 risques d'accident.

Selon l'analyse de la loi de Hayne, lorsqu'un accident majeur se produit, alors que nous nous occupons de l'accident lui-même, nous devons également traiter rapidement les "accidents" de problèmes similaires.

Les « symptômes » et les « signes d'accident » sont étudiés et traités, de manière à prévenir la récurrence de problèmes similaires, à résoudre en temps opportun les dangers cachés des accidents majeurs et à résoudre les problèmes dans l'œuf.

La loi de Hayne met l'accent sur deux points : premièrement, la survenance d'accidents est le résultat de l'accumulation de quantité ; deuxièmement, aussi bonne que soit la technologie, aussi parfaite que soit la réglementation, au niveau de l'exploitation réelle, elle ne peut remplacer la mise à niveau de la qualité et du sens des responsabilités des personnes
: ne soyez pas négligents, les choses vont changer du quantitatif au qualitatif

5. Méthodes spécifiques pour améliorer la stabilité du système

Il y a beaucoup de choses mentionnées ci-dessus, qui sont standard et significatives, et les suivantes sont des produits secs.Je pensais avoir fait un résumé de mon propre point de vue.

6. Résumé

Le système est comme une voiture qui roule à grande vitesse. Il y aura de nouvelles demandes et de nouveaux problèmes qui nous attendent à tout moment. Nous ne pouvons pas empêcher la voiture de rouler à grande vitesse pour résoudre les problèmes, nous ne pouvons donc les résoudre que pendant qu'elle est en marche. C'est une opération très risquée, nous devons donc faire un bon travail dans tous les aspects pour nous assurer que cela ne se passera pas mal. L'amélioration de la stabilité du système ne se fait pas du jour au lendemain, c'est un processus à long terme, alors ne vous détendez pas et ne résolvez pas les problèmes à temps.

 

 

C'est une personne de l'arrière montagne, et je suis un invité devant moi. Drunk Dance Jingge un demi-volume de livres, assis dans le puits pour parler de l'immensité du ciel. Désolé pour la mauvaise écriture !

Je suppose que tu aimes

Origine blog.csdn.net/qq_42859864/article/details/128707329
conseillé
Classement