[安定性] 11.11大型プロモーションの計画訓練に関する簡単な議論 | JD Logistics Technical Team

1. 計画訓練

計画訓練によって解決される主な問題は、単一システムの緊急計画に基づいてアプリケーション システムの 1 つ以上の障害シナリオをシミュレートし、システムの信頼性を検証することです。

1.1. プランドリル形式

計画訓練は、緊急計画に従って関連する緊急時組織と人員を組織し、事前に想定された異常な緊急事態に対する実際の意思決定、指揮、技術的操作をシミュレートすることにより、緊急時対応と処理のプロセスを完了し、意思決定のテストと改善を行います。関連する要員の編成、指揮、取り扱い、組織調整および緊急対応能力。

1.2. 計画訓練の原則

計画訓練は 2 つの主な原則に従う必要があります。

( 1) 事業者がサービスを継続的に提供できることを確保する

(2) 演習の範囲とリスクへの影響は制御可能である

1.3. 計画訓練の目的

**検査計画。**訓練を通じて緊急対応プロセスをさらに合理化し、緊急対応計画の完全性と有効性をテストします。

**チームトレーニング。※訓練を通じて、訓練組織部門や参加者の計画への習熟度が高まり、緊急時対応効率や緊急時対応要員の緊急時対応能力が向上します。

**ブレークインメカニズム。**訓練を通じて部門間の緊急連携効率をさらにテストし、関係部門間の業務連携メカニズムを改善します。

1.4. 訓練演習を計画する

訓練シナリオを定義しますドリルダウンする障害シナリオとその影響範囲を明確にします。

リスクと対応策を特定します各シナリオの実行時に起こり得るリスクを事前に評価・予測し、さまざまなリスクへの対策を講じます。リスクと対策をすべてのステークホルダーに伝達します。

訓練要員を特定します訓練担当者には主催者と参加者が含まれ、主催者は訓練前の計画、文書の作成、訓練要員や訓練環境の実施、訓練実施過程での総合調整、訓練後の緊急時対応のための評価・総括等の責任を負います。スムーズに訓練を実施できます。参加者は特定の訓練作業の実施に責任を負います。

訓練技術計画と事業検証計画を明確にする実行前検査と業務検証:システム検査を含む:データベース、ロードバランシング、アプリケーションクラスターなどの状態が正常かどうかを確認、アプリケーション検査:サービスが利用可能かどうか、トランザクション量、トランザクション成功率などの指標が正常かどうかを確認正常; ネットワーク検査: 負荷分散が行われているか、クラスタとデータベース間のネットワーク環境が正常かどうかを確認; 業務検証: 事例に基づいて訓練前に業務検証を実施します。

切り替えステージドリルスイッチの操作手順を明確にし、ツールを使用してジョブを整理し、スイッチ操作を自動化することをお勧めします。

切り替え後の検査とビジネス検証切り替え後は技術検証と業務検証を実施し、データベースクラスタ、負荷分散、アプリケーションクラスタ、ネットワーク環境等の状態が正常か確認し、ケースに応じた業務検証を実施します。

元に戻す前に確認してください訓練前に動作確認を行い、システム、アプリケーション、ネットワーク等の状態が正常かどうかを確認してください。

カットバックステージツールを使用して操作手順を整理し、自動切り替えを実行します。

カットバック後に検査して検証します切戻し後は技術検証・業務検証を実施し、データベースクラスタ、ロードバランシング、アプリケーションクラスタ、ネットワーク環境等の状態が正常であるか確認し、ケースに応じた業務検証を実施します。

1.5. ドリル実施プロセス

訓練実施プロセスとは、訓練の切り替え前後の各ステップの操作指示のことであり、主に「時間」「操作内容」「内容」の 3 つの要素を明確にすることが一般的に推奨されます。たとえば、演習前の操作では、トランザクションの入力を防ぐために 0:00 にロード バランシングをオフにします。

2. 企画アイデア

計画の分類は、問題から始める、目標から始める、リスクから始めるという 3 つのポイントから始めることができます。

出血を早く止める方法と、MTTR の平均修復時間を短縮する方法について考えてみましょう。

以下は私たちが行った計画の例です。

2.1. 計画

大きなプロモーション 11.11 では、フルリンク ストレス テスト、電流制限、ダウングレードなどの操作を実施するほか、618 がオンラインになった後のニーズの整理、毎日のスケジュールされたタスクと DAP の繰り越しタスクの時間差実行を実施します。一部のビジネスは非リアルタイムであるため、たとえば、レポート、データ統計、データ繰越などのビジネスが毎日あり、これらはビジネスの低ピーク時にスケジュールされたジョブを通じて実行されます。たとえば、11 時 11 分のゼロ時にトラフィックがピークになります。ピーク時に、テーブルをスキャンしたり、大量のクエリを実行するスケジュールされたジョブがある場合、他のビジネス ピークに遭遇したときに、相互影響が発生する可能性があります。したがって、スケジュールされたタスクのピークをずらした実行計画と、ピークをずらしたデータ DAP キャリーオーバー タスクを作成する必要があります。

2.2. 緊急時の計画

例えば、オンラインサービスの一部が突然ダウンしたり利用できなくなったりした場合、事業の止血が最優先ですが、このときJSFのオフライン操作を利用してトラフィックを他のサーバーに切り替えることになります。付属ケース

2.2.1. 緊急シナリオ: マシンの障害により JSF がオフラインになる

開始条件:UMPアラーム稼働率異常、またはMDCマシン異常アラーム、または運用保守によるコンピュータ室への異常通知

緊急計画: JSF はオフラインです。

処理手順

オプション 1: Xingyun オペレーティング マシン IP を介した JSF オフライン

1. UMP または MDC アラームを通じて特定の IP を見つけ、その IP を選択し、[Xingyun] をクリックして Xingyun 展開に直接移動します。

1. アラームに該当するインスタンスを選択し、jsf オフライン操作を実行します。

1. 障害が修復された後 (最初に起動してからオンラインにします)


オプション 2: 特定の IP を見つけるか、JSF プラットフォーム http://taishan.jd.com/jsf/instanceを通じてオフラインにすることができます。

2.3. 事業計画

11.11** の 20 時のトラフィックのピーク時には、一部のサービスを事前にダウングレードし、終了させて​​いただきます [** ダウングレードすると損害が発生するため、事前に関係する同僚と連絡し、承認する必要があります]。ユーザーの詳細な配送先住所 (経度および緯度のアドレスはありません) を使用して、プロミス エージングを計算するための GIS フェンス情報を取得します。このインターフェイスは時間がかかるため、ピーク プロモーション期間中は DUCC スイッチを通じてオフになり、第 4 レベルのアドレス エージング。

特定事業推進のための特別プランは以下の通りです。

3. 防災訓練

防災訓練と計画訓練の違いは、まず訓練の適用範囲にあり、地域全域の計算機室全体に障害が発生し、計算機室に配備されているシステムをすべてオフサイトの計算機室に切り替える訓練です。 (ホイチのコンピュータ室切断訓練など))、緊急計画訓練は、単一システムの 1 つまたは複数の障害シナリオに対する緊急計画訓練です。2つ目は、組織形態や影響範囲の違いであり、防災訓練は広範囲なシステムに影響を与え、幅広い参加者が参加するのに対し、事前計画訓練は小規模なシステムに影響し、参加者も少ない。

災害訓練によって解決される主な問題は、データセンター キャンパス全体で災害が発生した場合に、アプリケーション システムがどのようにスムーズにオフサイトのコンピュータ ルームに切り替わって災害復旧システムを起動し、外部業務を継続できるかを検証することです。地震により大規模停電が発生し、計算機室システム全体が利用できなくなり、サービスが提供できなくなった。

4. カオス実験

カオス実験には比較的固定されたモデルがあり、通常、実験の計画と準備、実装、実験結果の分析などのプロセスが含まれます。カオス実験は一般に、カオスエンジニアリングプラットフォームを通じて、さまざまなカオス実験の一元的な管理と実行を実現します。

実験計画と準備段階。主に故障シナリオ、定常状態指標、目標管理、実験計画などが含まれます。

実験の実行フェーズ。これには主に、フォールト挿入、フォールト観察、実験的保護、フォールト回復などのステップが含まれます。

実験結果の分析段階。主に実験レポート、問題分析とフォローアップ、統計測定が含まれます。

5. リスク検査

リスク点検検証計画は、上記の訓練検証計画と同時に実施することも、独立して実施することもできます。これは、ホワイトボックスのスケーラブルなリスク管理および検査機能です。自動化機能により、分散システムの安定性を毎日検査できます。

定期的な検査。指定された期間内に指定されたサブドメイン内で自動リスク検査を実装します。きっかけとなった検査。特定のデータ指標のしきい値に基づいて、リスク検査の自動トリガーを実現します。

ケース: たとえば、Promise のスケジュールされたタスク検査では、自動検査ツールと UMP アラーム情報を使用して、特定のデータ インジケーターのしきい値に基づいてリスク検査を自動的にトリガーします。

この記事で説明する内容については、まださらなる研究と議論が必要ですが、関連分野の研究者に何らかのインスピレーションを与えることができれば幸いです。この記事には必然的に不足点も含まれますが、読者の皆様から貴重なコメントや提案をいただければ幸いです。ありがとう!


参考:情報通信研究院の安定構築

著者: JD Logistics Feng Zhiwen

出典:JD Cloud Developer Community Ziyuanqishuo Tech 転載の際は出典を明記してください

ブロードコム、既存のVMwareパートナープログラム終了を発表 . サイトBが2度クラッシュ、テンセントの「3.29」レベル1インシデント…2023年のダウンタイムインシデントトップ10を棚卸し、 Vue 3.4「スラムダンク」リリース、 ヤクルトが95Gデータ流出を確認 MySQL 5.7、Moqu、Li Tiaotiao... 2023 年に「停止」される (オープンソース) プロジェクトと Web サイトを棚卸す 「2023 中国オープンソース開発者レポート」が正式リリース 30 年前の IDE を振り返る: のみTUI、明るい背景色…… Julia 1.10が正式リリース Rust 1.75.0がリリース NVIDIAがGeForce RTX 4090 Dを中国で特別販売開始
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/4090830/blog/10556108