統合イベント管理について知りたいことがあるはず (1)

この記事の内容の一部は、Qingchuang Technology の上級製品専門家、Bu 博士によるものです。

IT テクノロジーは至るところに普及しており、あらゆる階層が IT テクノロジーなしではやっていけません。銀行、証券会社、家族、学校、個人など、IT テクノロジーは切り離せないものです。例えば:

私たちは、WeChat、QQ、Momo、Facebook など、人々の間で交流するためのソフトウェアを使用します。

銀行はIT技術を活用して、私たちに代わって金融口座管理、資産管理管理、資産管理収入の計算を実現しています。

ブローカーは、リアルタイムの株式市場情報と株式取引システムを提供します。

製造業ではIT技術を活用してERPシステムや財務管理システムなどを導入しています。

学校ではIT技術を活用して生徒のステータスや図書を管理しています。

生活の中で、私たちは Meituan などのプラットフォームを通じて食べ物を購入したり、サービスを注文したりします。

これら目に見えない無形の「サービス」が私たちの衣食住、交通などを保障しています。これらのシステムで異常事態(ネットワーク停止、システムへのアクセス不能、トランザクション障害など)が発生すると、私たちの生活に重大な影響を及ぼします。

IT システムへのサービスの中断は避けられません。したがって、イベントが発生した場合、消費者が許容できる方法でイベントを管理、分析し、処理する必要があります。

統合イベント管理システムは、あらゆる企業にとって不可欠なインフラストラクチャです。その主な使命は、データセンターの運用保守システム全体のツールシステムと統合し、機械学習を使用して問題を分析し、問題を解決するためのアクションを最初から自動的に実行することです。チームの生産性を効果的に向上させ、エンド ユーザーに優れたデジタル エクスペリエンスを保証します。

この記事では、次のような統合インシデント管理のベスト プラクティスについて説明します。

1. イベントとは何ですか?

2. イベント管理とは何ですか?

1. イベントとは何ですか?

TIL 4 バージョンでは、インシデントは予期しないサービスの中断またはサービス品質の低下として定義されます。

顧客満足度を確保するには、企業はさまざまなイベントに対処する適切な対応戦略を採用する必要があります。以下は、一部のシステムでサービスの中断または例外が発生する一般的なイベントです。

  • ユーザーがログインできない

  • 交通系カードを使うたびに、なぜかカードが開かなくなります

  • 取引を行う際に通常よりも取引が遅くなる

  • URLにアクセスできません...

2. イベント管理とは何ですか?

Wikipedia では次のように説明されています: イベント管理とは、フェスティバル、会議、祝賀会、結婚式、パーティー、コンサート、集会などの大規模イベントの革新と開発におけるプロジェクト管理の応用です。これには、ブランド調査、ターゲット層が含まれます。イベントが実際に開催される前に、特定、イベントのコンセプト設計、技術的な調整を行います。

私たちはこの概念をIT分野に投影し、特定のビジネス要件を達成するために、取引状況の変化情報と担当者の対応を結び付ける一連のプロセスを定義します。その目標は、ビジネスのリスクと機会を完全に可視化し、問題発生時のインシデントによる悪影響を最小限に抑えるために、取引ステータスのこうした変化を検出して記録することです。

例: ユーザーのログイン、転送の失敗、ビジネス システムのバージョンのアップグレード、データのバックアップ、サーバーのメンテナンスの完了、これらはチームが追跡する必要がある変更です。これらの変更はサービス品質の低下を直接反映するものではありませんが、ユーザー エクスペリエンスに影響を与える潜在的なリスクを示している可能性があります。したがって、イベント情報を総合的に収集し、対応の優先順位を決定し、対応策を講じることが非常に重要になります。

ビジネス モデルと IT サポート環境が複雑になるにつれて、チームが管理する必要があるインシデントのサイズは飛躍的に増大しましたが、インシデントを管理する人の数は増えていないことがほとんどです。現在、多くのチームが毎日数万、さらには数百万のイベントに対処していますが、リソース投資が限られているため、大規模なイベントから高価値の情報やノイズを効果的に分離して、リスクと機会についての洞察を得るのはほぼ不可能です。

そして、そこにインシデント管理ソリューションの中核となる能力があります。イベント管理プラットフォームは、統合機能を通じてイベントをドッキングおよび集約し、ノイズをフィルタリングしてリスクを特定し、対応する操作を実行するように関連担当者に通知します。

企業のデジタル変革の加速と IT デリバリーのリスクの増大に伴い、統合イベント管理プラットフォームを通じてイベントと関連アクション間の処理効率を向上させることがこれまで以上に重要になっています。

3. イベント管理がなぜそれほど重要なのか

多くの企業は非常に詳細な事業継続保証計画や緊急時対応計画を作成していますが、ビジネス環境の複雑化と業界競争のさらなる激化に伴い、ビジネスリスクとビジネスチャンスへの対応効率に対する要求が高まっています。

より包括的な情報を収集し、チームがリスクと利点をリアルタイムで評価し、対応の速度と精度を向上させるためには、インテリジェントな手段を使用することが重要です。イベント管理プラットフォームは、イベント ストリーム処理と人工知能テクノロジーを使用してこのプロセスを自動化し、大規模なイベントの中核となる高価値情報を完全にマイニングし、リスクと機会を担当者に関連付け、最新のコミュニケーション ツールとコラボレーション ツールを使用して、より便利で包括的で高度な情報を提供します。正確なインシデント評価と対応。

インシデント管理の価値には次のものも含まれます。

  • より積極的なリスク防止

  • より迅速な事業回復

  • より効率的なチームワーク

  • より機敏なリアルタイム応答

第四に、イベント運営の特徴

インシデントは状況を客観的に説明したものであり、効果的なインシデント管理計画と戦略は、リスクの影響を軽減または排除し、新たなビジネス チャンスを探索および拡大できる、シナリオをまたがるエンドツーエンドの処理プロセスです。チームの応答速度を向上させ、出力結果を最適化します。

イベント管理の特徴は主に次の 3 つの側面に反映されます。

1. 統合

より包括的なイベント データを収集および取得することは、より正確なリスク評価とビジネス チャンス マイニングの前提条件です。エンタープライズデジタルエコシステムとの幅広い接続を確立して、リアルタイムのイベント受信とメッセージプッシュを実現し、システムと担当者間のイベントの迅速な流れを確保します。

2. インテリジェント

豊富なコンテキスト データを組み合わせて、リスクと機会を積極的に分類、スクリーニング、検出し、この情報を資産や人員に関連付けて実際に損失が発生する前に損失を予測することで、チーム メンバーがビジネスの状況と脅威を正確に把握し、間違いを回避できるようにします。意思決定。

3. プロセス

自動化されたプロセスにより、リスクや機会が特定される前に、人が広範に関与することなく、チームが自律的に作業できるようになります。問題処理プロセス中、確立されたディスパッチ戦略と通知方法に従ってイベントがチーム メンバー間で自動的に循環されるため、対応効率がさらに向上し、アクションの有効性が確保されます。

5. 一般的なインシデント管理プロセス

インシデント管理の最初のステップは、インシデントを記録することです。イベントは監視ツールや顧客からの電話を通じて取得でき、通知は自動化された手段を通じて取得でき、同時にイベントの説明、発生時刻、アラームの発生源などの関連情報も取得できます。イベント (主催者、ビジネスなど) に何が起こったのか。記録されたイベント情報は、その後、管理イベントの分析、意思決定、および処理の基礎となります。含む:

  • コミュニケーション:インシデントを分析および処理するプロセスでは、問題を効果的に分析するために、さまざまな専門分野の担当者間のコミュニケーションとコラボレーションを調整する必要があります。

  • 解決策:分析が完了したら、インシデント マネージャーまたは緊急対応チームはインシデントへの対処方法を決定し、インシデントの迅速な修復を実行します。

  • エスカレーション:分析と処理のプロセス中に、インシデントがインシデント対応担当者の能力を超えていることが判明した場合は、インシデントをタイムリーにエスカレーションする必要があります。この時点で、インシデントは専門家に転送できます。ある分野での取り扱い。

  • 他のプロセスへの引き継ぎ:インシデントが解決された後、インシデントを修復するために対応する作業指示書が必要な場合は、対応する問題作業指示書を作成して問題の根本原因を調査し、問題を完全に解決する必要があります。

インシデント管理を成功させるには、顧客が許容するインシデントの期間と処理を明確に定義する必要があります。これらは通常、サービス レベル アグリーメント (SLA) または契約で定義されます。その最も重要な部分は、インシデントへの対応と解決のタイムラインを定義することです。

6. イベント管理実行の主な責任

サービスプロバイダーとして、対応する組織をどのように構築し、さまざまな種類のインシデントを処理するかが、インシデント管理によって実行される主な責任です。

1. 既知のイベント シナリオの場合

この出来事は繰り返し起こります。このような場合、既知のイベント モデルを定義し、自動処理と解決に使用できます。既知のイベント モデルは、特定のイベントの再発を管理する場合に重要なソリューションです。これは、新入社員がインシデントを解決するための時間と学習曲線を短縮し、分散した知識をツール システムに導入するのに役立ちます。

2. いくつかの事件の解決策を見つけるのは簡単ではありません

回避策を採用して、影響や再発の可能性を軽減することができます。この場合、処分の決裁権限は手動で確認することになります。現在のイベントについては、再起動やオフロードなどの解決策を使用して迅速に回復できます。

さて、今回のイベントとイベント管理に関する共有はこれで終わりですが、次回は、イベント管理をより理解し、日常生活でどのように活用できるかを、例と実践例を使用してさらに詳しく説明します。興味のある友達は事前に注意してください〜


Qingchuang Technology は、Gartner によって継続的に推奨されている AIOps 分野のベンチマーク サプライヤーです。同社は、企業顧客が運用および保守データに対する洞察を向上させ、運用および保守の効率を最適化し、テクノロジーの運用および保守が事業運営に与える影響を完全に反映できるよう支援することに尽力しています。

業界をリードする顧客の共通の選択

乾物品の運用とメンテナンス、および技術共有について詳しく見る

右上隅をワンクリックでフォローできます

当社は10年近くにわたり、インテリジェントな運用と保守の分野に深く関わってきました。

Gartner が連続して推奨する AIOps ベンチマーク サプライヤー

次回会いましょう~ 

 

おすすめ

転載: blog.csdn.net/qq_37641528/article/details/132278203