1. Was ist MTTR?
Wenn im System ein Systemfehler auftritt, müssen wir einige Indikatoren verwenden, um die Schwere und das Ausmaß des Fehlers zu messen. Unter diesen ist MTTR (Mean Time To Repair ) ein sehr wichtiger Indikator, der uns helfen kann, die durchschnittliche Zeit zu verstehen, die für die Reparatur des Systems erforderlich ist. Es ist nicht ratsam, die Reparatur des Systems zu lange in Anspruch zu nehmen, insbesondere für ein Unternehmen wie JD.com. Wenn die MTTR zu lang ist, kann dies schwerwiegende Folgen haben, wie z. B. die Begleichung von Kartenrechnungen durch den Benutzer und Umsatzeinbußen für das Unternehmen. Um die Stabilität und Zuverlässigkeit des Systems sicherzustellen, müssen wir daher die MTTR so weit wie möglich verkürzen.
Um die MTTR zu berechnen, dividieren Sie die Gesamtwartungszeit durch die Gesamtzahl der Wartungsvorgänge in einem bestimmten Zeitraum. Die MTTR-Berechnungsformel lautet:
2. So verkürzen Sie die MTTR
Das Verständnis von MTTR ist ein sehr wichtiges Werkzeug für jedes Unternehmen, da es uns hilft, besser auf Probleme in der Produktion zu reagieren und diese zu beheben. In den meisten Fällen hoffen Unternehmen, die MTTR durch interne Wartungsteams zu reduzieren, was die erforderlichen Ressourcen, Tools und Softwareunterstützung erfordert.
Welche Schritte können Sie also unternehmen, um die MTTR Ihres Unternehmens zu verkürzen? Der beste Ausgangspunkt besteht darin, jede Phase der MTTR zu verstehen und Maßnahmen zu ergreifen, um den Zeitaufwand für jede Phase zu reduzieren. Konkret können wir folgende Aspekte berücksichtigen:
1. Problemerkennungszeit: Überwachung und Alarmierung zur Fehlererkennung
Damit Techniker nach Auftreten eines Fehlers das Problem identifizieren können, können wir die MTTR-Erkennungszeit durch die Einrichtung eines Alarmsystems verkürzen. Indem wir den Betrieb des Systems in Echtzeit überwachen und den Alarmmechanismus rechtzeitig erkennen und auslösen, können wir das Problem in kürzester Zeit lokalisieren und geeignete Maßnahmen zur Behebung ergreifen.
Wir können unnötige Alarminformationen herausfiltern, indem wir vernünftige Schwellenwerte und Regeln festlegen. Dadurch wird verhindert, dass Alarmgeräusche das Entwicklungs- und Betriebsteam beeinträchtigen und es ihnen ermöglicht, sich mehr auf echte Probleme zu konzentrieren.
1.1. UMP-Überwachung
- Realisieren Sie 3 goldene Überwachungsindikatoren (Verfügbarkeitsrate, Anrufvolumen, TP99) durch UMP.
Bei der Konfiguration des Alarmmechanismus können wir Faktoren wie Verfügbarkeit, TP99 und Anrufvolumen umfassend zur Auswertung berücksichtigen. Eine umfassende Auswertung dieser Indikatoren kann uns helfen, ein umfassenderes Verständnis des Systembetriebs zu erlangen, sodass potenzielle Probleme rechtzeitig erkannt und entsprechende Maßnahmen ergriffen werden können.
Es wird empfohlen, bei der Konfiguration von Alarmen zunächst eine strengere Strategie anzuwenden, d. h. zuerst festzuziehen und dann zu lockern und sich schrittweise an den besten Zustand anzupassen . Dadurch wird sichergestellt, dass Probleme frühzeitig erkannt und größere Ausfälle vermieden werden. Wenn sich das System jedoch allmählich stabilisiert, können wir die Alarmschwelle entsprechend der tatsächlichen Situation auch entsprechend lockern, um die Verfügbarkeit und Effizienz des Systems zu verbessern.
Es ist zu beachten, dass wir bei der Konfiguration von Alarmen Anpassungen und Optimierungen basierend auf spezifischen Geschäftsszenarien und Systemeigenschaften vornehmen müssen. Unterschiedliche Systeme können unterschiedliche Risikopunkte und Engpässe aufweisen. Daher müssen wir entsprechende Alarmstrategien basierend auf der tatsächlichen Situation formulieren, um die Stabilität und Zuverlässigkeit des Systems sicherzustellen.
critical告警方式:咚咚、邮件、即时消息(京ME)、语音
可用率:(分钟级)可用率 < 99.9% 连续 3 次超过阈值则报警,且在 3 分钟内报一次警。
性能:(分钟级)TP99 >= 200.0ms 连续 3 次超过阈值则报警,且在 3 分钟内只报一次警。
调用次数:当方法调用次数在 1 分钟的总和,连续 3 次大于 5000000 则报警,且在 3分钟内只报一次警
warning告警方式:咚咚、邮件、即时消息
可用率:(分钟级)可用率 < 99.95% 连续 3 次超过阈值则报警,且在 30 分钟内报一次警。
性能:(分钟级)TP99 >= 100.ms 连续 3 次超过阈值则报警,且在 30 分钟内只报一次警。
调用次数:当方法调用次数在 1 分钟的总和,连续 3 次大于 2000000 则报警,且在 3 分钟内只报一次警
- Wenn es sich bei UMP um eine geplante Aufgabe handelt, ist der wichtigste Punkt die Bestimmung des Überwachungszeitraums . Nur durch die korrekte Konfiguration des Überwachungszeitraums können wir sicherstellen, dass die UMP innerhalb des erwarteten Zeitraums normal ausgeführt wird. Auf diese Weise wird der Alarmmechanismus automatisch ausgelöst, sobald der UMP nicht innerhalb des erwarteten Zeitraums ausgeführt wird, um ihn zu erkennen und zu lösen das Problem rechtzeitig lösen.
1.2. Alarmrufe sollten schnell, genau und selten erfolgen.
Bei der Verarbeitung von Alarminformationen kommt es für uns nicht auf die Menge, sondern auf die Richtigkeit und Vollständigkeit der Informationen an . Unser Team erhält täglich Hunderte von Alarmmeldungen. Haben Sie genug Energie und Zeit, um jede einzelne zu überprüfen? Können Sie sicherstellen, dass jeder einzelne Aufmerksamkeit erregt?
Daher müssen wir die geschäftlichen Auswirkungen bewerten und je nach Situation eine angemessene Alarmhäufigkeit festlegen. Insbesondere bei Alarmmeldungen, die als „Schlüsselstimmen“ gelten, sollten wir sie so schnell wie möglich entdecken und bearbeiten . Nur so können wir sicherstellen, dass wir in Notfällen schnell und präzise reagieren und mögliche Auswirkungen minimieren können.
1.3. Details entscheiden über Erfolg oder Misserfolg.
2. Zeit zur Linderung von Systemproblemen: Fehlerreaktionsmechanismus, schnelle Blutstillung
Warum müssen wir Systemprobleme entschärfen, anstatt sie nur zu lokalisieren? Denn bei Systemproblemen ist die bloße Lokalisierung des Problems nur ein Teil der Lösung. Noch wichtiger ist, dass wir Systemprobleme so schnell wie möglich beheben müssen, um weitere Auswirkungen auf das Geschäft zu vermeiden.
Um die Effizienz der Problembehandlung zu verbessern, müssen wir von den folgenden drei Aspekten ausgehen:
Kurz gesagt: Um die Effizienz der Problembehandlung zu verbessern, müssen wir eine Reihe von Maßnahmen ergreifen, um die Systemproblemzeit zu verkürzen, und nicht nur, um das Problem zu lokalisieren. Nur so kann die Stabilität und Zuverlässigkeit des Systems wirklich gewährleistet werden.
2.1. Implementieren Sie einen Fehler-Notfallreaktionsmechanismus
Unabhängig von der Größe einer Organisation ist ihre Fähigkeit, auf Notfälle zu reagieren, eines ihrer wichtigsten Merkmale. Bei Notfällen ist ein vollständiger Notfallplan und ein praktischer Schulungsmechanismus erforderlich, um sicherzustellen, dass auf verschiedene Notfälle schnell und effektiv reagiert werden kann. Um dieses Ziel zu erreichen, müssen wir von folgenden Aspekten ausgehen:
Kurz gesagt, um die Fähigkeit der Organisation, auf Notfälle zu reagieren, zu verbessern, müssen wir einen vollständigen Schulungs- und Übungsprozess einrichten, die Stärke des Teams voll ausschöpfen und die Schwere des Problems angemessen bestimmen . Nur so kann die Stabilität und Zuverlässigkeit der Organisation wirklich gewährleistet werden.
Aufteilung der Schlüsselrollen
Prozessmechanismus
Feedback-Mechanismus
Rückmeldung über den aktuellen Bearbeitungsfortschritt und die nächste Aktion. Wenn es Vorgänge gibt, die sofort durchgeführt werden müssen, melden Sie diese im Voraus. Zu den zu meldenden Inhalten gehören auch die Auswirkungen auf das Geschäft und das System. Abschließend wird der Fehlerkommandant vorgenommen Treffen Sie eine Entscheidung, bevor Sie sie ausführen, um zu vermeiden, dass Sie beschäftigt sind. Etwas ist schief gelaufen. Kein Fortschritt ist immer noch Fortschritt und zeitnahes Feedback ist erforderlich. Feedback von nicht-technischem Personal, z. B. vom Kundendienst usw. Es darf nicht in technischen Begriffen, sondern in einer möglichst sachlichen Sprache beschrieben werden, und der Gegenpartei muss eine grobe Erwartung mitgeteilt werden, z. B. was wir tun, wie lange die Wiederherstellung dauern wird und ob dies nicht möglich ist Wie lange dauert es, bis ich einen Rückruf erhalte? Feedback und mehr.
2.2. Notfallplan zur schnellen Blutstillung
Grundprinzipien: Bei allen während des Fehlerbehandlungsprozesses ergriffenen Mitteln und Maßnahmen hat die Wiederherstellung des Geschäftsbetriebs höchste Priorität, und die Wiederherstellung von Hämostaselösungen vor Ort hat Vorrang vor der Suche nach der Fehlerursache.
2.3. Nutzen Sie die vorhandenen Tools voll aus, um Positionierungsprobleme intelligent zu analysieren
2.2.1. Für TP99, das hoch und schwer zu positionieren ist:
Die Aufrufbeziehung ist komplex, was es schwierig macht, Leistungsengpässe schnell zu lokalisieren. Mithilfe von Tools können die komplexen Abhängigkeiten zwischen Diensten im Vorfeld geklärt werden und sich auf die Kernprobleme von Engpassdiensten konzentrieren, anstatt Verknüpfungen erst dann zu klären, wenn Probleme auftreten.
2.2.2. Als Reaktion auf das plötzlich hohe Anrufaufkommen
Sie können JSF>Verkehrsschutz>Anwendungen und Schnittstellen>Alias und Methodenname verwenden, um das Anrufvolumen von Upstream-Anwendungen zu ermitteln und dann entsprechende Maßnahmen zu ergreifen, z. B. Upstream-Kommunikation, Strategien zur Strombegrenzung usw.
2.2.3. Thread-Analyse, JVM, Flame-Graph-CPU-Sampling usw.
Taishan-Plattform》Fehlerdiagnose》Online-Diagnose
2.2.4. Geschäftsthemen
Laut Fahrtenbuchrecherche gibt es dazu nichts zu sagen.
Indem Sie Techniker durch standardisierte Verfahren anleiten und schulen, können Sie die Zeit verkürzen, die zur Lösung von Problemen benötigt wird. Im Falle desselben Fehlers können Sie mithilfe einer geeigneten Dokumentation und Notfallplänen (SOPs) schnell alle ursächlichen Faktoren untersuchen, die möglicherweise zu dem Fehler geführt haben.
3. Zusammenfassung
Nachdem das Online-Problem behoben ist, ist das Verfassen eines COE-Überprüfungsberichts (Center of Excellence) ein sehr wichtiger Schritt. In diesem Bericht können wir den gesamten Problembehandlungsprozess überprüfen und darüber nachdenken, was wir hätten tun können, um die MTTR (Mean Time To Repair) schneller zu verkürzen, wenn wir dies zu diesem Zeitpunkt getan hätten.
Konkret können wir von folgenden Aspekten ausgehen:
Kurz gesagt: Durch eine eingehende Analyse von Problemen, die Identifizierung von Grundursachen, die Zusammenfassung von Erfahrungen und Lehren sowie das Ziehen von Schlussfolgerungen aus einem Beispiel können wir die MTTR effektiv verkürzen und die Stabilität und Zuverlässigkeit des Systems sicherstellen .
Referenz:
SRE Google Betriebs- und Wartungsentschlüsselung
Kontinuierliche Lieferung 2.0
200 Yuan Geldstrafe und mehr als 1 Million Yuan beschlagnahmt You Yuxi: Die Bedeutung hochwertiger chinesischer Dokumente Musks Hardcore-Migrationsserver Solon für JDK 21, virtuelle Threads sind unglaublich! ! ! TCP-Überlastungskontrolle rettet das Internet- Flutter für OpenHarmony ist da. Die LTS-Periode des Linux-Kernels wird von 6 auf 2 Jahre wiederhergestellt. Go 1.22 behebt den Variablenfehler der For-Schleife. Svelte hat ein „neues Rad“ gebaut – Runen. Google feiert sein 25-jähriges JubiläumAutor: JD Logistics Feng Zhiwen
Quelle: JD Cloud Developer Community Ziyuanqishuo Tech Bitte geben Sie beim Nachdruck die Quelle an