2023年のダウンタイム事故の「異様な光景」トップ10を振り返る

名シーン?地獄のシーン!

2023 年のダウンタイム事故トップ 10 の「奇妙な光景」をぜひご覧ください——


Bilibili(ビリビリ)が2回クラッシュしました

2023年3月5日の夜20時20分頃、多くのネチズンは、Bilibiliを使用しているときに、携帯電話もコンピューターも動画の詳細ページにアクセスできず、携帯電話ではお気に入りや履歴を表示できないと述べました。一部のネチズンは、ホームページは正常にロードできるが、すべて繁体字で表示されていると述べました。

前回の事故から5か月後の8月4日夜、多くのネチズンがステーションBの写真(ビデオカバー)をロードできず、ビデオを開けず、ビデオがバッファリングし続けていると報告した。

 

テンセント「3.29」第一級事故

2023年3月29日早朝、テンセントのWeChatとQQサービスがクラッシュし、WeChatの音声会話、モーメント、WeChat決済、QQファイル転送、QQスペース、QQメールボックスなど多くの機能が利用できなくなった。

テンセントのWeChatチームはエンジニアが応急修理を行った後、システムが徐々に回復していると返答したのは29日の朝になってからだった。

この事故は広州電信のコンピュータ室の冷却システムの故障によって引き起こされたもので、テンセントはこれを企業レベルの事故と認定し、多数の関係幹部を処罰した。

工業情報化部情報通信管理局は4月12日、「3.29」のWeChat事業の異常事態に関するテンセントの報告を聞き、テンセントに対し、安全生産管理体制のさらなる改善、ネットワーク運用保証措置を講じるよう要求した。重大な安全事故や生産事故を断固として回避し、公共サービスの安全で安定した運営を効果的に向上させます。

 

Vipshop 329事件の処分結果:基盤プラットフォーム部門の責任者を解任

今年 3 月 29 日、「Vipshop 崩壊」が大きな検索トピックとなり、崩壊までの時間が長すぎたため、多くの消費者が通常通り注文できなくなりました。Vipshopの公式回答では、短期間のシステム障害により、メインサイトの「追加購入」機能やその他の機能に異常が発生する可能性があるとのこと。

Vipshopは6月5日、「329コンピュータ室ダウンタイムのトラブルシューティングに関するお知らせ」を発表した。発表によると、3月29日(0時14分~12時01分)、南沙IDCの冷凍システムに故障が発生し、コンピューター室の機器の温度が急激に上昇してダウンタイムが発生し、オンラインモールのサービスが停止した。この事故は 12 時間続き、Vipshop は 1 億元以上のパフォーマンスを失い、800 万人の顧客に影響を及ぼしましたが、Vipshop は障害が P0 レベルの障害であると判断しました。P0 は、クラッシュ、ページにアクセスできない、メインプロセスの障害、メイン関数が実装されていない、または影響が非常に大きい (バグ自体は重大ではない場合でも) などの最高レベルの事故であることがわかります。

発表では、Vipshopは今回の事故に真摯に対応することを決定し、当該部門の直属の責任者が事故の責任を負い、基本プラットフォーム部門の責任者は解任され、相応の処分が下されると指摘した。

 

Microsoft Azureの停止、17の実稼働レベルのデータベースが削除

5 月 24 日、ブラジル南部のスケール ユニットで Microsoft Azure DevOps に障害が発生し、約 10.5 時間のダウンタイムが発生しました。その後、Microsoft のチーフ ソフトウェア エンジニアリング マネージャーである Eric Mattingly 氏は、この失敗について謝罪し、機能停止の原因を明らかにしました。つまり、単純なスペルミスによって 17 個の実稼働レベルのデータベースが削除されたということです。

up-d28b235003ee1390973397efd32e59d2ee1.png

 

中国電信が大規模なサービス停止問題に遭遇

2023年6月8日午後、チャイナテレコムのネットワークおよび通信サービスに信号がなくなるなどの障害が発生し、フィードバックを寄せたユーザーのほとんどが広東地域に居住しており、広東省での障害が疑われた。

その後、チャイナテレコムのカスタマーサービスより、「全省(広東電信)の通信基地局が故障しており、一時的に通話ができない状態となっております。お待ちください。現在、緊急に処理中です。ご迷惑をおかけして申し訳ございません。」との回答がありました。

広東省の通信網が完全に復旧するまでに約4時間かかった。

 

Yuque 10.23 で 7 時間続く大規模なサービス障害

2023 年 10 月 23 日、Yuque で大規模なサービス障害が発生し、完全に回復するまでに 7 時間以上かかりました。Yuque チームは後に、障害の原因とその対処プロセスを次のように発表しました。

10月23日午後、Service Yuqueのデータストレージ運用保守チームがアップグレード作業を行っていた際、新しい運用保守アップグレードツールのバグにより、中国東部の実稼働環境ストレージサーバーが誤ってオフラインになってしまいました。この影響により、Yuque のデータ サービスに重大な障害が発生し、広範囲にわたるサービスの中断が発生しました。

 

Alibaba Cloud 11.12 で大規模なサービス障害が発生し、すべての製品に影響

2023 年 11 月 12 日午後、Alibaba Cloud に重大な障害が発生し、すべての製品に影響がありました。

その後、当局は障害の原因が基盤となるサービス コンポーネントに関連していることを確認しました。約5時間後、Alibaba Cloudは、影響を受けたすべてのクラウド製品が復旧したと発表し、障害の影響で、一部のクラウド製品のデータ(監視、請求など)に遅延が生じる可能性があるが、業務運営には影響はないという。

 

Didi 11.27 システムサービス障害、技術チームが一晩で修復

2023年11月27日夜、システム障害により滴滴のアプリサービスに異常が発生し、位置情報が表示されず、タクシーも呼べない状態が発生した。滴滴出行は11月27日夜、「誠に申し訳ございません。システム障害のため、今夜滴滴アプリサービスに異常が発生しました。技術スタッフによる緊急修理の後、現在復旧中です。」と回答した。

滴滴出行は2023年11月28日朝、オンライン配車サービスなどは復旧し、自転車などのサービスも徐々に復旧していると報じた。滴滴出行が発表した11月28日、記者らは滴滴出行を使って上海や深センなどのオンライン配車サービスに電話をかけたところ、オンライン配車機能が復旧しておらず、ネットワークの負荷が異常で、タクシーが停止していることが判明した。まだ予約できませんでした。滴滴出行は11月28日、記者団に対し、オンライン配車サービスが再開され、運転手と乗客の権利が段階的に回復したと回答した。

11 月 29 日、滴滴出行は再度謝罪し、事故の原因は基盤となるシステム ソフトウェアの誤動作であると当初判断されたと述べた

 

Twitterは深刻なダウン、マスク氏は激怒

2023年2月、マスク氏はスーパーボウルに関するツイートがバイデン米大統領ほど人気が​​なかったため、アルゴリズムの問​​題を解決するために深夜に緊急に約80人を招集した。

3月にエンジニアが設定を変更してTwitterに深刻な障害が発生したとき、マスク氏はコード全体をリファクタリングすると脅した。

7月には、プラットフォームに再び問題が発生し、新しいツイートを公開できず、「制限を超えました」というエラーメッセージが表示されたとユーザーが報告した。マスク氏は、Twitterは「極端なレベルのデータスクレイピング」と「システム操作」に対処するために懸命に取り組んでおり、これらの新たな制限はこれらの差し迫った問題を抑制するための重要な措置であると答えた。

 

ChatGPTサービスは2時間近く中断され、CEOのアルトマンは謝罪:トラフィックは予想をはるかに上回っていた

北京時間11月8日夜の22時頃、OpenAIのChatGPTと関連APIに障害が発生し、ユーザーと開発者向けのサービスが2時間近く利用できなくなった。

その後、OpenAl はインシデントレポートを更新し、 API と ChatGPT で高いエラー率を引き起こす問題を特定し、その修正に懸命に取り組んでいると述べました。

同時に、OpenAI CEO の Sam Altman 氏は、今週リリースされた新機能が予想をはるかに上回る使用量に見舞われたと述べ、公に謝罪しました。同社は当初、月曜日にすべての加入者に対して GPT サービスを有効にする予定でしたが、まだ実現していません。負荷の影響により、短期間にサービスが不安定になる可能性があり、ユーザーの皆様には大変申し訳ございません。

 

詳細:中国サイバースペース局が「サイバーセキュリティインシデント報告の管理措置(コメント草案)」を発表


今年の主要なイベントの詳細については、「2023 中国オープンソース開発者レポート」をご覧ください。

おすすめ

転載: www.oschina.net/news/273501