運用や保守が困難な状況でもシステムの安定性を確保できる可能性

急速な事業展開の裏にあるジレンマ

事業の急速な発展に伴い、運営・保守体制も徐々に整備されてまいりました。監視、可用性、その他のシステムの相互サポートの下、ビジネスの安定性とサービス品質も順調に成長しています。すべての問題、障害、安定性に影響を与える要因は制御可能かつ収束の範囲内にあり、すべてが良い方向に発展しています。

本当にその裏側は見た目と同じくらい美しいのでしょうか?実際にはそうではなく、ビジネスの急速な発展には、さまざまな潜在的な危険や問題が必ず残されます。あなたも同様の問題に悩まされていないか考えてみましょう。

  • 1. 監視アラーム通知の騒音が大きすぎ、通常のアラーム チャネルが人為的に混雑しており、実際の読み取り率が非常に低いのですが、これには見覚えがあるでしょうか? 非常に重要なビジネス監視アラームがこのように水没し、人為的に無視されたとしたら、運用保守担当者として冷や汗をかくでしょうか? 監視を階層化し、監視と警報を合理化することに加えて、他に何ができるでしょうか?
  • 2. ビジネスデータは異常だが、アラームや可用性データは常に正常 「なぜ監視が見つからないのか?」というフロントエンドビジネス学生の非難に直面すると、「私は」と言うしかありません。ごめんなさい、次回からは改善します。」他に何ができるでしょうか?
  • 3. アラームや異常な可用性変動は発生するが、経営指標は大きく変動しない。この問題を解決するには、明らかにビジネスに非常に役立つ改善が必要ですが、ビジネスを学ぶ学生はそれを理解せず、支持しません。無力感を感じる以外に、他に何ができるでしょうか?

問題はどこだ

これらの質問を提起したら、それらの背後にある本質は何なのかを確認するために、1 つずつ見てみましょう。

監視アラームが大量に発生するのはなぜですか? その根本的な理由は、監視ポイント不足による業務異常時の監視漏れを最小限に抑えるために、広い配信ポイント、高いカバレッジ、「漏れのチェックと穴埋め」などの手法を採用していることにあります。

はい、そうです。意図は良いのですが、結果が裏目に出ることがよくあります。特に監視ポイントの数が増え、業務が複雑化すると、監視や警報による情報ノイズがますます大きくなります。警報情報の量が臨界点に達すると、すべての警報は騒音、さらには公害となります。監視・警報システムの目的も、この臨界点に到達すると「ドミノ」のように瞬時に崩壊し、向こう側の底なしの深淵に向かうことになる。

多数のテクニカル指標のモニタリングはビジネス学生に認識されていますか? 現実の状況からすると、楽観視できない状況かもしれません。運用保守やビジネスの学生がベンチマークを行ったり、問題について話し合ったりしているときに、全員がお互いに話し合っているのに、何のことを話しているのか全く分からないということがよくあります。

そう、問題の根源はここにあるのかもしれない。私たちが行っている広範なモニタリングは、ビジネス指標の安定化と改善に積極的に役立つでしょうか?

特に、上記の 2 と 3 で述べた状況は、根本的には、運用保守学生とビジネス学生が同じ文脈にいないという事実によって引き起こされます。一方はビジネスデータ指向の考え方であり、もう一方は技術データ指向の考え方です。

一見相容れない矛盾に解決策はないのでしょうか?もちろんそうではありません。このような環境と状況の中で「ビジネスマーケット」が誕生しました。「ビジネス ダッシュボード」は、単なるツール、レポート、プラットフォームではなく、主要なビジネス指標に基づいたテクノロジー主導の考え方であり、運用保守とビジネスなどの複数の関係者が同じコンテキストでコミュニケーションできるようにします。

問題の解決策

まず、運用保守系の学生は発想を転換し、ビジネス側の視点から問題を考える必要があります。すべてのテクニカル指標を脇に置いて、まずビジネス学生とコミュニケーションを図り、彼らが最も懸念している指標を理​​解してください。

  • Webビジネスを例に挙げると、ビジネス学生が最も気にするのはUV、PV、ホームページの開設時間などです。
  • 電子商取引ビジネスを例にとると、ビジネスを学ぶ学生はトランザクションのコンバージョン率やトランザクションの成功率などを最も気にするかもしれません。
  • 配信ビジネスを例に挙げると、ビジネス学生が最も懸念しているのは、ダウンロード コンバージョン率や翌日の継続率などです。

一連の重要な指標を特定した後、最も重要な 1 ~ 3 項目を抽出します。なぜ再度抽出するのでしょうか?

ビジネスの主要な中核となるパスは非常に重要であるため、すべての指標に注意を払うことを避け、その結果、何にも十分な注意が払われないことになります。

重要な指標を明確にした後、ユーザビリティシステム手法に従って重要な指標を構築します。主要なビジネス指標に加えて、次の側面から分析する必要もあります。

  • ベースラインとスコープ: 主要なビジネス指標の事前設定されたベースライン値とアクティビティしきい値。ベースラインを中心とした活動閾値内の予測変動は正常です。アクティビティのしきい値の範囲外にあるものはすべて異常です。
  • 期間比: 主要なビジネス指標を同じ期間と前の期間で比較します。たとえば、17:22 の結果と 17:21 の結果を比較します。結果の変動が閾値の範囲内にある場合は正常、そうでない場合は異常です。
  • 前年比: 2 つの期間の同じ時点における主要なビジネス指標の比較。たとえば、4 月 25 日 17:01 の結果と 4 月 24 日 17:01 の結果を比較します。結果の変動が閾値の範囲内にある場合は正常、そうでない場合は異常です。

誤検知を減らすために、前月比、前年比、さらにはベースライン指標と組み合わせて使用​​できます。

最後に書きます

対応する「ビジネス市場」指標データの結果では、中核的なビジネス指標に基づいているため、運用保守とビジネス関連の学生を同じ文脈に置いてコミュニケーションすることが容易になり、目標がより明確になり、問題を解決することができます。方向性もより焦点を当てています。効率は自然に向上します。

もちろん、ビジネスクラスの仲間たちと関連する中心的な指標を常にベンチマークし、改善し、最適化することによってのみ、「ビジネス市場」によってもたらされる楽しさと喜びを享受し続けることができます。

「事業全体」を踏まえて、さらに事業の安定性を高めるために、もっと工夫できないか?同計画が最近策定した「運営・保守の安定を最優先に~災害復旧訓練~」にぜひご注目ください。

Linux に関するその他のコンサルティングについては、www.linuxprobe.com をご覧ください。

おすすめ

転載: blog.csdn.net/weixin_56035688/article/details/133498398