障害管理の細部

障害は正常な状態であり、どのようなソフトウェア システムでも回避することはできません. 中国の最高の BAT でも、外国の最高の Google、Amazon、Facebook、Twitter などでも回避できません。業務量が大きくなればなるほど、システムは複雑になり、問題や失敗が増え、失敗は避けられません。

ここには非常に重要な表現があります。それは失敗に対する設計の概念です。私たちの目標と焦点は、失敗を防ぐことはできないため、失敗を排除したり、発生させたりすることではありません。したがって、システムをより堅牢にする方法を検討する必要があります。これにより、一般的な問題に直面しても停止せず、障害が発生した場合でもビジネスの回復を早めることができます。

簡単に言えば、障害自体に焦点を当てるのではなく、障害の背後にある技術的および管理上の問題に焦点を当てる必要があります。

障害への対応と管理を改善するには、障害が発生したときに、その背後にある技術的および管理上の問題を考慮する必要があります。よく反映され、提起されるいくつかの質問。

1. 頻繁に故障するのはなぜですか? 担当者のスキルが足りないからでしょうか。人間の操作が多すぎます。自動化プラットフォームは完璧ではなく、操作はクローズドループではありませんか? コードリリース後の迅速なロールバック対策が整っていませんか?

2. 小さな問題や特定のコンポーネントの障害が原因で、サイト全体がダウンするのはなぜですか? さらに考えてみると、ビジネスが急速に発展しており、技術アーキテクチャの結合がきつすぎるためでしょうか? 能力の評価が頭をなでることに依存していて、能力に問題があることを知る前にシステムがそれを処理できないからですか? 電流制限やダウングレードなどの保護手段が不足しているためか、技術的な解決策はあるが着陸効果が良くないためですか?

3. 障害が発生したときに、なぜすぐにわかり、すぐに復旧できないのですか? さらに考えてみると、モニタリングは完璧ではないのでしょうか? アラーム多すぎて痺れる?問題の特定効率が低く、長い間原因が見つからない?障害分離だけでは十分ではありませんか? 紙の失敗計画?

4. マネジメントに関して、チーム メンバーはオンラインでの畏怖の念が不十分ですか? それとも私たちの宣伝は適切に行われていませんか?Oncall メカニズムはまだ改善する必要がありますか? 障害対応における組織の連携を改善する必要がありますか?

まず、問題が発生したとき、経営者はまず自分自身を反省しなければなりません。従業員の過ちに盲目​​的に焦点を当てることはできません. 従業員はシステム全体の実行者です. 彼らがうまくいっていない場合, システムに欠陥や抜け穴があるに違いありません. この時点で、マネージャーは熟考に集中する必要があります。

第二に、単に問題を解決するために管理プロセスや検査リンクを増やすことに頼るのではなく、問題を解決するための技術を重視します. 技術的手段が一時的に不十分な場合は、管理手段を使用して支援することができます. 特に新興企業の場合、完全なシステムを構築するにはプロセスが必要です。現時点では、宣伝と学習に頼る、オンラインのセキュリティと安定性に関する担当者の意識を向上させる、必要なダブルチェック、複雑な操作のチェックリストなど、いくつかの管理手段を補完することができますが、これらは補助的な手段としてのみ使用でき、これらの人間の行動は、技術プラットフォームに変換されます。

この記事は 4 月 11 日目の学習ノートです. 内容はGeek Time の「Zhao Cheng の運用保守システム管理コース」からのものです. このコースはお勧めです.

おすすめ

転載: blog.csdn.net/key_3_feng/article/details/130094509
おすすめ