FT-FMEA integrierter Chaos-Drill, Online-Verifizierungspraxis für die Resilienzarchitektur des Einzelhandelsbetriebssystems

Das Open-Source-Community-Team China machte seine erste Live-Übertragung und erzählte im Namen des Teilens die Geschichte hinter der Open-Source-Community China.“

Dieser Artikel wurde von der Huawei Cloud Community „ FT-FMEA Fusion Chaos Drill, Retail Operation System Resilience Architecture Online Verification Practice “ geteilt, Autor: „Huawei Cloud Deterministic Operation and Maintenance Case Collection (Issue 2)“ Nie Gang.

1. Betriebswirtschaftlicher Hintergrund

Der Geschäftsumfang eines bestimmten Einzelhandelsunternehmens umfasst mehr als 20 Provinzen und Hunderte von Städten, bietet Dienstleistungen für Tausende von Haushalten und wird von der Öffentlichkeit bevorzugt. Angesichts des neuen Einzelhandels und der kontinuierlichen Ausweitung des Geschäftsumfangs hat sich das Unternehmen in den letzten Jahren einer umfassenden Digitalisierung seines Geschäfts verschrieben und kontinuierlich neue IT-Produkte entwickelt, die alles von der Lieferkette über das Marketing und den Kundenservice bis zum Filialbetrieb abdecken und schrittweise Umsetzung der digitalen Transformation, um die Betriebskosten zu senken und die Betriebseffizienz zu verbessern.

Bei einem bestimmten System handelt es sich um ein neu entwickeltes IT-Produkt für dieses Einzelhandelsunternehmen. Es wurde in die Produktionsumgebung eingeführt und plant, den Offline-Geschäftszugriff und die Verkehrsentwässerung offiziell zu starten. Durch Chaosübungen wird die architektonische Belastbarkeit der Anwendungsproduktionsumgebung vor der Umleitung „abgebaut“ und „akzeptiert“, um sicherzustellen, dass während der offiziellen Umleitung keine größeren Stabilitätsrisiken bestehen.

2. Geschäftsstatus

Mit der Ausweitung der digitalen Transformation und des Geschäftsumfangs hat das Unternehmen ein neues Filialbetriebssystem XX entwickelt. Der Hauptteil des Systems übernimmt die Container-Bereitstellung und stützt sich auf mehr als 15 umgebende Systeme. Zu den Systemen, auf die es sich stützt, gehören alte Systeme, die älter als 10 Jahre sind, was große potenzielle Risiken für die Benutzerfreundlichkeit birgt. Da es für den Betrieb aller Filialen verantwortlich ist, hofft das Unternehmen, dass das IT-System über eine hohe Widerstandsfähigkeit verfügt, um potenzielle Ausfallrisiken wie unerwartete Katastrophen, Nichtverfügbarkeit abhängiger Systeme, plötzlichen starken Datenverkehr während Werbeaktivitäten und Ausfälle des Betreibernetzwerks zu bewältigen.

3. Planen Sie die Übung

Der Chaos-Drill der COC-Plattform umfasst die Best Practices des Huawei Cloud-Chaos-Drills, einschließlich des gesamten Prozesses von der Risikoidentifizierung über die Formulierung des Notfallplans, die Fehlerinjektion bis hin zur Drill-Überprüfung. Bei der Risikoidentifizierung werden die FT-FMEA-Risikoanalysemethodik und die Fehlerinjektion verwendet selbstentwickelte Fehlerinjektionssonde. Wird seit mehr als 4 Jahren in der Huawei Cloud praktiziert und führt jedes Jahr mehr als 3.000 automatisierte Chaosübungen durch, wodurch mehr als 1.500 Stunden an Arbeitskräften eingespart werden. Der Designprozess ist wie folgt:

1 . Risikoerkennung und -management

In Kombination mit der Bereitstellungsarchitektur und dem externen Abhängigkeitsdiagramm der XX-Anwendung wird das Risiko der Anwendung in der Produktionsumgebung basierend auf der FT-FMEA-Fehleranalysemethode analysiert, um einen Fehlermodus zu bilden. COC verfügt über eine integrierte Huawei Cloud FT-FMEA-Fehleranalysemethode, die Benutzern dabei hilft, Systemrisiken effizient zu analysieren und Fehlermodi unter Berücksichtigung der Aspekte Systemarchitektur, SLO-Anforderungen, Klassifizierung von Fehlerszenarien, Bedingungen für das Auftreten von Fehlern, Auswirkungen auf den Kunden usw. zu bilden.

FMEA (Failure Mode Effect Analysis) stammt ursprünglich von der NASA. Sie geht hauptsächlich von den funktionalen Punkten des Unternehmens aus und listet mögliche Fehlermodi, Auswirkungen und Ursachen sowie entsprechende Kontrollmethoden auf, kombiniert mit Faktoren wie der Schwere des Fehlers und der Eintrittswahrscheinlichkeit und Erkennbarkeit. Schließlich wird der RPN-Multiplikatorwert für den Modus ermittelt, anhand dessen das Risikoniveau des Fehlermodus beurteilt werden kann. FMEA bietet eine risikoorientierte Fehleranalysemethode, aber die Klassifizierungsstufen für Fehlerwahrscheinlichkeit, Schweregrad und Erkennbarkeitsniveau in der FMEA erreichen 10, was in der tatsächlichen Implementierung schwer zu erreichen ist und leicht zu einer Divergenz der Fehlermodi führen kann, was sich auf die Fehlermodi auswirkt Effizienz des Fehlermanagements. Huawei Cloud hat FT-FMEA (Fehlerszenario-Analysemethode basierend auf Fehlertoleranzperspektive) aus der Praxis zusammengefasst. Basierend auf FMEA, kombiniert mit SRE-Übungsszenarien, ist es in ein 7-dimensionales Fehleranalyse-Framework integriert Es ist auf SRE-Szenarien ausgerichtet und kann die Effizienz und Qualität der Fehlerszenarioanalyse effektiv verbessern, indem es eine umfassende Fehleranalyse ohne Divergenz der Fehlermodi gewährleistet.

Die nach der Verwendung von FT-FMEA auf dem COC für das XX-IT-System zusammengefasste Liste der Fehlermodi lautet wie folgt. Die ursprünglichen über 90 Fehlermodi wurden zu über 30 zusammengeführt, was eine solide Grundlage für die spätere Formulierung von Notfallplänen und den Entwurf von Fehlerinjektionsschemata bildete.

2 . Entwickeln Sie Notfallpläne

Basierend auf den analysierten Fehlermodi, kombiniert mit COCs integrierter Huawei Cloud-Notfallplan-Leitvorlage und der tatsächlichen Betriebs- und Wartungssituation des Einzelhandelsunternehmens, wurde für jeden Fehlermodus ein entsprechender Notfallplan entwickelt. COC unterstützt vollständige Automatisierung, Automatisierung + manuelle Hybrid- und Notfallpläne für diese beiden Methoden, um den Notfallwiederherstellungsanforderungen verschiedener Fehlermodi gerecht zu werden.

3. Entwickeln Sie einen Bohrplan

Basierend auf dem Fehlermodus und der Auslastung des IT-Systems wird ein Bohrplan für das COC entwickelt.

4. Entwerfen Sie einen Fehlerinjektionsplan, führen Sie Übungen durch und führen Sie eine Notfallwiederherstellung durch

Basierend auf dem Fehlermodus und der Einsatzsituation der Anwendung wird ein Bohrplan erstellt, um die Selbstheilungsfähigkeit des IT-Systems, die Notfallplanfähigkeit und die Wiederherstellungsfähigkeit des Betriebs- und Wartungspersonals zu überprüfen.

1) Wählen Sie basierend auf dem ausgewählten Fehlermodus das Angriffsziel und das Angriffsszenario auf dem COC aus, um eine Übungsaufgabe zu erstellen, um die Bedingungen für das Auftreten des Fehlermodus genau zu simulieren.

2) Starten Sie eine automatisierte Übung, beobachten Sie, ob das Überwachungssystem Fehler und Alarme schnell erkennen kann, die Selbstheilungszeit des IT-Systems, ob das Betriebs- und Wartungspersonal geschickt gemäß dem Notfallplan arbeiten kann, und zeichnen Sie schließlich die RTO auf das System.

5. Übungsrückblick und Zusammenfassung

Die COC-Plattform bewertet diese Übung automatisch und das Beobachtungsteam dieser Übung trägt Verbesserungsangelegenheiten in das COC ein. Die RTO des Systems entsprach bei dieser Übung nicht dem Standard. Darüber hinaus wurden während der Übung insgesamt 18 Probleme festgestellt: mangelnde Überwachung, Funktionsfehler im Alarmsystem und bestimmte Unterschiede beim tatsächlichen Einsatz des Systems IT-System und Konstruktionszeichnungen, System-Einwahltest fehlt, Betriebs- und Wartungspersonal ist nicht mit den Betriebs- und Wartungstools vertraut usw.

4. Geschäftsverbesserung

Diese Übung nutzt die COC-Plattform, um eine vollständige Prozess-Chaos-Übung mit mehreren Szenarien auf dem XX-IT-System durchzuführen. Die durch die Übung erzielten Ergebnisse sind wie folgt:

1) Umfassende Analyse potenzieller Risiken des XX-IT-Systems unter Verwendung der FT-FMEA-Analysemethode. Bei gleichzeitiger Gewährleistung einer umfassenden Risikoidentifizierung wurde die Anzahl der Fehlermodi von 90+ auf 30+ reduziert, was einer Reduzierung um 66,66 % entspricht, wodurch eine Konvergenz der Fehlermodi erreicht wurde Verbesserung.

2) Für jeden Fehlermodus wurde ein Notfallplan entwickelt und auf der COC-Plattform gespeichert. Die Machbarkeit des Notfallplans wurde durch Übungen überprüft und verbessert, und es wurde eine zuverlässige und effiziente Wiederherstellungsfähigkeit für die potenziellen Risiken des IT-Systems etabliert.

3) Die automatisierte Bohrfähigkeit der COC-Chaos-Bohrplattform steigerte die Bohreffizienz um mehr als das Zehnfache , und während der Übung wurden 18 Probleme entdeckt. Durch Verbesserungen und Implementierung wurde die SLO des Systems auf 99,99 % erhöht , wodurch die Zuverlässigkeitsanforderungen des Systems erfüllt wurden für den Filialbetrieb.

Zusammenfassung von fünf Fällen

Dieser Fall basiert auf den Hochverfügbarkeitsanforderungen des XX-Systems eines Einzelhandelsunternehmens und nutzt die COC-Plattform zur Durchführung von Risikoanalysen, der Formulierung von Notfallplänen und Fehlerübungen. Bei dieser Übung wurde die FT-FMEA-Risikoanalysemethode verwendet, um schnell und effizient die Risiken zu identifizieren, denen das System ausgesetzt ist, und die Risikopunkte des Systems sowie die Wirksamkeit des Notfallplans durch automatisierte Fehlerinjektion überprüft. Verbesserungen und Umsetzung der bei der Übung entdeckten Probleme wurden durchgeführt, um den SLO des Systems auf 99,99 % zu erhöhen und damit die Zuverlässigkeitsanforderungen des Systems für den Filialbetrieb zu erfüllen.

Übungen sind die beste Möglichkeit, die Systemverfügbarkeit zu testen und zu verbessern. In Kombination mit den Betriebs- und Wartungsbedingungen von Einzelhandelsunternehmen werden die folgenden Best-Practice-Grundsätze für Chaosübungen zusammengefasst:

1. Klären Sie die Bewertungskriterien

• Der gesamte Prozess der Chaos-Übungen kann einen Mehrwert schaffen. Die Ergebnisse und Bewertungskriterien für jeden Link der Chaos-Technik müssen geklärt und in die Online-Übungsplattform übernommen werden.

• Chaos Drill ist eine Technologie, die Risiken proaktiv aufdeckt. Sie ermutigt das Forschungs- und Entwicklungspersonal sowie das Betriebs- und Wartungspersonal, Risiken durch rechtzeitige Anreize und die Entwicklung von Notfallplänen für Risiken proaktiv aufzudecken.

2. Um Chaosübungen durchzuführen, muss zunächst eine Fehlermöglichkeitsanalyse durchgeführt werden.

• Der Fehlermodus als Ausgangspunkt der Übung bestimmt die Qualität der Übung. Der Notfallplan gewährleistet als Wiederherstellungsmethode die Sicherheit der Übung und die schnelle Behebung täglicher Störungen.

• Mit der FT-FMEA-Methode analysierte Fehlermodi können Risiken genau identifizieren und gleichzeitig die Divergenz der Anzahl der Fehlermodi effektiv vermeiden.

3. Verwenden Sie automatisierte Übungen

• Automatisierte Bohrwerkzeuge können die Bohrschwelle senken, die Bohreffizienz verbessern und die Sicherheit und Genauigkeit der Fehlerinjektion gewährleisten.

• Automatisierte Bohrwerkzeuge können Übungen online verwalten, um eine rechtzeitige Durchführung der Übungen sowie die Übernahme und Anhäufung von Bohrerfahrungen sicherzustellen.

4. Bohrarbeiten durchführen

• Die Blaue Armee kann größere Übungsaktivitäten koordinieren und organisieren, während sie die Belastbarkeit jedes IT-Systems testet, aber auch tägliche Übungen unabhängiger Systeme demonstrieren und durchführen, um so die Wirkung täglicher Übungen und keine blinden Flecken zu erzielen.

• Die Durchführung und Veröffentlichung von Bohraktivitäten und Bohrergebnissen kann das IT-Entwicklungs- und Betriebs- und Wartungspersonal auf die Risiken aufmerksam machen, denen das System ausgesetzt sein kann, und eine proaktive Qualitätskultur in den F&E- sowie Betriebs- und Wartungsprozessen implementieren.

Klicken Sie hier, um zu folgen und so schnell wie möglich mehr über die neuen Technologien von Huawei Cloud zu erfahren~