Es ist wieder zusammengebrochen? Eine Bestandsaufnahme der zehn häufigsten Online-Unfälle seit 23 Jahren!

Der folgende Artikel stammt von Front-End Power Bank, Autor CUGGZ

Im Jahr 2023 verändert sich die Internetwelt rasant und Online-Anwendungen sind aus unserem Leben nicht mehr wegzudenken. Allerdings ereignete sich in diesem Jahr häufig eine Reihe erschreckender Online-Unfälle. „XXX kollabiert“ wurde zu einer häufigen heißen Suchanfrage. Diese Unfälle bringen nicht nur Unannehmlichkeiten und Ärger für die Benutzer mit sich, sondern offenbaren auch Probleme bei der Stabilität, Sicherheit und Fähigkeit von Online-Diensten, auf Notfälle zu reagieren.

In diesem Artikel wird eine Bilanz der zehn häufigsten Online-Unfälle im Jahr 2023 gezogen, um als Referenz und Warnung für zukünftige Online-Dienste zu dienen.

Bilibili

Am Abend des 5. März kam es bei Station B zu einem Serverausfall. Videos sowohl im Web als auch auf mobilen Endgeräten konnten nicht geladen werden und der weitergeleitete Videolink zeigte „Ressource ungültig“.

Bild

 

Betroffen sind vor allem die Seiten „Fanju“ und „Filme“. Benutzer berichteten, dass „Zhuifan ständig darauf hinweist, dass die Erfassung von Videoinhalten fehlgeschlagen ist“, „die Anzeigeseite nicht geladen werden konnte“ und „die Hälfte von Kanfankan nicht geladen werden konnte“. Einige Benutzer berichteten, dass die Homepage geladen werden konnte, sie jedoch nur in traditionellen chinesischen Schriftzeichen angezeigt wurde.

Bild

 

Am 28. Juni meldeten viele Benutzer, dass „Seite B nicht verfügbar“ sei, und der Eintrag wurde daraufhin zu einem heißen Suchthema. Benutzer berichteten, dass „Zhuifan immer wieder darauf hingewiesen hat, dass der Videoinhalt nicht abgerufen werden konnte“ und „Die Anzeigeseite konnte nicht geladen werden, sind Sie das Gleiche?“ „Kanfankan konnte auf halbem Weg nicht geladen werden, ich dachte, mit meinem Netzwerk stimmt etwas nicht.“

Das Problem dauerte mehr als eine Stunde, bevor es behoben wurde.


Tencent

Am frühen Morgen des 29. März berichteten viele Internetnutzer, dass WeChat, QQ und andere soziale Software von Tencent fehlerhaft seien. Viele Funktionen von WeChat, darunter Sprachanrufe, Kontoanmeldung, Freundeskreis und Zahlung, können nicht normal genutzt werden. Es treten auch Probleme bei der QQ-Dateiübertragung, dem QQ-Speicherplatz, dem QQ-Postfach usw. auf.

Bild

 

Der Tencent-Kundendienst antwortete, dass aufgrund eines Systemausfalls bei einigen Benutzern Anomalien in den zahlungsbezogenen WeChat-Funktionen aufgetreten seien und derzeit eine Notfallreparatur durchgeführt werde. Die Sicherheit der Benutzergelder wird dadurch nicht beeinträchtigt. Nach Behebung des Fehlers ist die Nutzung der zugehörigen Funktionen wieder normal.

Bild

 

Der Unfall wurde durch einen Ausfall des Kühlsystems im Computerraum von Guangzhou Telecom verursacht und Tencent definierte ihn als einen Unfall auf Unternehmensebene.

Anschließend befragte das Kommunikationsverwaltungsbüro des Ministeriums für Industrie und Informationstechnologie relevantes Tencent-Personal zum WeChat-Vorfall „3.29“, hörte sich den Lagebericht an und forderte Tencent auf, das Sicherheitsproduktionsmanagementsystem weiter zu verbessern, Maßnahmen zur Gewährleistung des Netzwerkbetriebs umzusetzen, Vermeiden Sie entschlossen größere Sicherheitsunfälle in der Produktion und verbessern Sie effektiv das Niveau des sicheren und stabilen Betriebs öffentlicher Dienste.

Bild

 

Am 3. Dezember hatte Tencent Video plötzlich keine Mitglieder mehr.

Bild

 

Als Reaktion darauf antwortete das offizielle Weibo von Tencent Video: Tencent Video hat derzeit vorübergehende technische Probleme. Wir verstärken die Reparaturen und verschiedene Funktionen werden nach und nach wiederhergestellt. Vielen Dank für Ihre Geduld und wir entschuldigen uns für etwaige Unannehmlichkeiten, die Ihnen dadurch entstehen könnten.

Bild

 


Vipshop

Am 29. März wurde „Vipshop zusammengebrochen“ zu einem heißen Suchthema auf Weibo. Vipshop antwortete:

Bild

 

Anschließend gab Vipshop eine Bearbeitungsmitteilung heraus, in der der Ausfall des Computerraums 329 als Fehler der Stufe P0 eingestuft wurde. Beamte gaben in der Ankündigung an, dass der schwere Ausfall im Nansha-Computerraum zwölf Stunden gedauert habe, wodurch sich die Leistungsverluste des Unternehmens auf über 100 Millionen Yuan beliefen und mehr als 8 Millionen Kunden betroffen seien. Vipshop gab an, dass es sich entschieden hat, diesen Vorfall ernsthaft zu behandeln. Die direkten Vorgesetzten der entsprechenden Abteilungen tragen die Verantwortung für den Unfall, und der Verantwortliche der Basisplattformabteilung wird entlassen und entsprechend behandelt.


Direktrekrutierung von Chefs

Am 24. Mai berichteten Internetnutzer, dass die direkte Beschäftigung von Boss zusammengebrochen sei. Später antwortete Boss Direct Pin: Als einige Benutzer heute Morgen die PC-Version von Boss Direct Pin verwendeten, kam es zu Auffälligkeiten bei einigen Funktionen. Nach Notreparaturen wurden sie wiederhergestellt.

Am 6. Juli öffneten viele Benutzer BOSS Direct Recruitment und stellten fest, dass auf der Seite „Systemdienstfehler“ angezeigt wurde und sie ihre Identitäten nicht korrekt wechseln konnten. Einige Internetnutzer sagten, dass sie mit Arbeitssuchenden chatten und ein Vorstellungsgespräch vereinbaren wollten, aber das Ergebnis war, dass sie zusammenbrachen. BOSS Zhipin veröffentlichte am selben Tag auch eine Nachricht, in der es hieß: „Am Morgen des 6. Juli kam es bei der BOSS Zhipin APP zu einer kurzfristigen Servicestörung. Nach Reparaturen durch das Team ist sie wieder normal. Wir entschuldigen uns zutiefst dafür.“ Unannehmlichkeiten, die den Benutzern in diesem Zeitraum entstanden sind. Wir werden die Servicegarantie weiter optimieren. Vielen Dank an alle für Ihre anhaltende Aufmerksamkeit und Unterstützung.“

Am 15. September stürzte „BOSS Direct Recruitment“ plötzlich ab. Viele Benutzer konnten die Seite nicht aktualisieren, neue Rekrutierungsinformationen anzeigen oder sogar chatten.

In den sozialen Medien sagte ein selbsternannter BOSS-Direktmitarbeiter, dass die Golden Nine und Silver Ten die Hochsaison für die Rekrutierung seien. Am 15. September 2023 um 10:15:26 Uhr zeigten Online-Statistiken, dass mehr als 47 Millionen Menschen die BOSS durchsuchten Seite. Der Server ist derzeit überlastet. Er wird gewartet und Menschen, die auf der Suche nach einem Job sind, sind besorgter als diejenigen, die Tickets für den Nationalfeiertag kaufen.

BOSS Zhipin antwortete, dass ihm ein online veröffentlichter Screenshot aufgefallen sei. Der Server ist abgestürzt, das stimmt. Es ist wahr, dass die Technologie verbessert werden muss. Die online übermittelten Daten sind falsch. Bitte glauben Sie nicht und verbreiten Sie keine Gerüchte. Aktuellen Daten zufolge nutzen jeden Monat 43,6 Millionen Nutzer die BOSS-Direktrekrutierung. "

Bild

 


Yuque

Am 23. Oktober ereignete sich in Yuque , einem Online-Dokumentbearbeitungs- und Kollaborationstool von Ant Financial, ein beispielloser Vorfall auf P0-Ebene , der dazu führte, dass die Plattform nicht mehr normal aufgerufen und genutzt werden konnte, was fast 8 Stunden (14:10 Uhr) andauerte bis 21:45)

Bild

 

Anschließend erläuterte Yuque die Ursache und den Behandlungsprozess des Versagens:

Am Nachmittag des 23. Oktober, als das Datenspeicher-Betriebs- und Wartungsteam von Service Yuque aufgrund eines Fehlers im neuen Betriebs- und Wartungs-Upgrade-Tool einen Upgrade-Vorgang durchführte, war der Speicherserver der Produktionsumgebung in Ostchina versehentlich offline. Betroffen davon war der Datendienst von Yuque, der einen schwerwiegenden Fehler erlitt, der zu weitreichenden Dienstunterbrechungen führte. Um die Dienste so schnell wie möglich wiederherzustellen, haben wir und das Datenspeicher-Betriebs- und Wartungsteam hart daran gearbeitet, die Daten wiederherzustellen. Aufgrund von Faktoren wie dem Wiederherstellungsplan und der Datengröße dauerte die Gesamtzeit jedoch sehr lange. Der spezifische Prozess ist wie folgt:

  • 14:07 Das Datenspeicher-Betriebs- und Wartungsteam erhielt einen Alarm vom Überwachungssystem und stellte fest, dass der Grund dafür darin lag, dass der Knotencomputer aufgrund eines neuen Fehlers im Betriebs- und Wartungstool während des Speicher-Upgrades offline war.

  • 14:15 Wenden Sie sich an das Hardware-Team, um zu versuchen, die Offline-Maschine wieder online zu schalten.

  • 15:00 Es wurde bestätigt, dass das Speichersystem einen älteren Maschinentyp verwendet und nicht direkt online geschaltet werden konnte. Der Wiederherstellungsplan wurde sofort angepasst, um Speicherdaten aus dem Backup-System wiederherzustellen.

  • 15:10 Beginnen Sie mit dem Aufbau eines neuen Speichersystems und der Wiederherstellung von Daten aus dem Backup. Aufgrund der großen Yuque-Datenmenge dauert dieser Vorgang lange

  • Die Datenwiederherstellung wurde um 19:00 Uhr abgeschlossen. Gleichzeitig dauerte die Datenüberprüfung nach Abschluss der Wiederherstellung zwei Stunden, um die Datenintegrität sicherzustellen.

  • Um 21 Uhr bestand das Speichersystem die Integritätsprüfung und begann mit dem gemeinsamen Debuggen mit dem Yuque-Team. Schließlich wurden um 22 Uhr alle Yuque-Dienste wiederhergestellt. Sämtliche Benutzerdaten gehen nicht verloren.

Und Verbesserungsmaßnahmen:

Durch diesen Misserfolg wurde uns zutiefst klar, dass Yuque als Dokumentenprodukt, das zig Millionen Kunden bedient, einen umfassenderen technischen Risikoschutz und ein hochverfügbares Architekturdesign erreichen sollte, insbesondere „überwachbar und zuverlässig“ für technische Änderungsvorgänge. Systematisierte Konstruktion und Prozessprüfung von „Graustufen, Rollback“, Upgrade von Disaster Recovery mit mehreren Kopien in derselben Region auf Hochverfügbarkeitsfunktionen in drei Zentren an zwei Standorten, Entwurf ausreichender Daten- und Systemredundanz für eine schnelle Wiederherstellung und Durchführung regelmäßiger Notfallübungen zur Disaster Recovery . Nur so kann die Wiederherstellungsgeschwindigkeit bei schwerwiegenden Infrastrukturausfällen verbessert und das Wiederauftreten solcher Ausfälle grundsätzlich vermieden werden. Zu diesem Zweck haben wir folgende Verbesserungsmaßnahmen entwickelt:

  1. Aktualisieren Sie die Hardwareversion und das Modell, um schnell online zu gehen, nachdem Sie offline waren. Diese Maßnahme wurde in dieser Fehlerbeseitigung abgeschlossen;

  2. Das Betriebs- und Wartungsteam stärkt die Qualitätssicherung und Prüfung von Betriebs- und Wartungstools, um zu verhindern, dass solche Betriebs- und Wartungsfehler erneut auftreten.

  3. Reduzieren Sie den Graustufenbereich der Betriebs- und Wartungsaktionen, erhöhen Sie die Graustufenzeit und erkennen Sie Fehler im Voraus.

  4. Verbessern Sie die Dienste hinsichtlich Architektur und Hochverfügbarkeit und fügen Sie Yuque eine Remote-Notfallwiederherstellung von Speichersystemen hinzu.

Und für einzelne Benutzer von Yuque gibt es 6 Monate Mitgliedschaftsservice als Geschenk.


Ali Cloud

Am 12. November gegen 17:00 Uhr kam es bei Alibaba Cloud plötzlich zu einem Unfall, der zu Problemen in fast allen Alibaba-Anwendungen wie Alibaba Cloud, Taobao, Xianyu und DingTalk führte. Gegen 19:20 Uhr wurden Alibabas Taobao, DingTalk, Alibaba Cloud und andere Anwendungen nach einer Notfallbearbeitung durch Ingenieure vollständig wiederhergestellt.

Bild

 

Laut Statistik betrifft die Auswirkung dieser Anomalie mehr als 100 Produkte, darunter API-Gateways, Video-on-Demand sowie Betriebs- und Wartungs-Event-Center, und 25 Regionen, darunter Peking, Silicon Valley und London, sind betroffen.

Zur Unfallursache machte Alibaba Cloud im Anschluss keine Angaben. Allerdings kursiert im Internet ein Unfallbericht, der lediglich als Referenz dient:

Bild

 


Habe ich

Am Abend des 27. November kam es bei Didi Chuxing zu einem Systemabsturz, der am 28. repariert wurde und der Absturz 12 Stunden dauerte. Am 29. November veröffentlichte Didi eine Entschuldigungserklärung für diesen extrem langen Systemausfall. Vorläufige Untersuchungsergebnisse zeigen, dass die Ursache des Unfalls ein Fehler der zugrunde liegenden Systemsoftware war und kein über das Internet übertragener „Angriff“.

Bild

 

Als sich der Unfall ereignete, berichteten Didi-Benutzer in Shanghai, Peking, Guangzhou und anderen Orten, dass die Didi Chuxing APP nicht verwendet und die Karte nicht geladen werden konnte. Einige Internetnutzer sagten, dass die App plötzlich nicht mehr verfügbar sei und der Fahrer den Beifahrer nicht finden könne, nachdem er Didi zum Aufrufen einer Mitfahr-App verwendet habe. Ein Online-Fahrdienstleister sagte auf sozialen Plattformen, dass während der Zustellung von Fahrgästen die Navigation nicht verfügbar sei und die Karte nicht geladen werden könne.

Bild

 


Himalaya

Am 19. Dezember berichteten viele Internetnutzer, dass die Ximalaya-App abgestürzt sei und nicht normal verwendet oder Programme angehört werden könne. Anschließend entschuldigte sich der offizielle Blog von

Bild

 


Chatgpt

Ab dem 8. November um 22:00 Uhr berichteten viele Internetnutzer, dass ChatGPT von OpenAI, einschließlich der API, nicht normal verwendet werden könne. Der OpenAI-Ausfall dauerte etwa 100 Minuten.

Bild

 

Später bezeichnete OpenAI diesen Fehler auch als „Major Outage“. OpenAI sagte, es habe ein Problem entdeckt, das eine hohe Fehlerrate in ChatGPT und API verursachte, und arbeite an einer Lösung. Bis 23:33 Uhr gab OpenAI an, den Reparaturplan festgelegt und umgesetzt zu haben, und der Dienst normalisierte sich allmählich wieder.

Bild

 

Altman, CEO von OpenAI, sagte, dass die Nutzung neuer Funktionen auf dem Devday (Entwicklerkonferenz) die Erwartungen weit übertroffen habe. Das Unternehmen hatte ursprünglich geplant, GPT für alle Abonnenten am Montag zu aktivieren, was jedoch immer noch nicht zustande kam. Aus Auslastungsgründen kann es kurzfristig zu einer Instabilität des Dienstes kommen.

Bild

 


X

Am 21. Dezember kam es auf der bekannten ausländischen sozialen Plattform X (ehemals Twitter) zu einem plötzlichen Absturz. Viele Benutzer berichteten, dass sie Seiten nicht normal laden, Profile durchsuchen, Fanlisten anzeigen und andere Vorgänge nicht ausführen konnten und die soziale Plattform fast lahmgelegt war.

Dies ist der zweite große Ausfall der X-Plattform in diesem Jahr. Bereits im März dieses Jahres kam es zu einem weltweiten Ausfall der Plattform. Seit der 44-Milliarden-Dollar-Übernahme hat Musk fast 80 % seiner Belegschaft entlassen, darunter viele Ingenieure, die für Reparaturen und die Verhinderung von Betriebsunterbrechungen zuständig sind.

Supongo que te gusta

Origin blog.csdn.net/we2006mo/article/details/135377816
Recomendado
Clasificación