CCEサービスの詳細説明:ワンストップアラーム設定とクラウドネイティブログビュー

この記事は、Cloud Container Future によるHuawei クラウド コミュニティ「新世代のクラウド ネイティブ監視可能なプラットフォームの CCE サービス ログとアラーム」から共有されたものです。

アラームとログは、運用担当者や保守担当者が問題を迅速に特定し、異常から回復するための主な手段です。運用保守担当者の日常の作業では、まずアラーム情報を受信し、次にアラーム情報に基づいて異常の範囲と影響を判断し、関連コンポーネントのログから障害の原因を特定し、システムの回復を実行することがよくあります。 。したがって、シンプルで使いやすいアラームおよびログ管理プラットフォームを運用および保守担当者に提供する方法は、さまざまなクラウド ネイティブ プラットフォームにとって大きな関心事です。

従来のシステムと比較して、クラウドネイティブ シナリオのアプリケーションの数は膨大であり、監視指標、イベント、ログなどの運用および保守データはさらに膨大になります。同時に、アラーム設定には複数のシステムを接続する必要があります。たとえば、アラーム通知機能の設定にはメッセージ通知システムが、インジケータしきい値アラーム ルールには監視システムが、ログ キーワード アラームにはログ管理システムが含まれます。このため、クラウド ネイティブ シナリオでのアラームの構成は非常に複雑になり、別のシステムへのジャンプが含まれ、プロセスにブレークポイントが存在します。

同様に、クラウド ネイティブ シナリオのログ ファイルは複雑です。ログにはコンテナ標準出力ログ、コンテナ内ログ、ノードログなどがあり、ログは異なるホストに分散している場合があり、場所も固定されていないため、ログを見つけるのが困難です。したがって、運用および保守担当者が障害時点への完全なログ リンクを迅速かつ正確に見つけて、それを明確に提示できるようにする方法は、ログ サービスが直面する重要な課題です。

cke_134.png

図 1 ログとアラートの課題

クラウドネイティブシナリオにおける上記のアラームとログの問題に対応して、ファーウェイクラウドCCEサービスは、「ワンストップアラーム設定」と「クラウドネイティブログビュー」を実現するアラームセンターとログセンター機能を開始しました。

ワンストップアラーム構成

ユーザーがシステムの基本的なアラーム設定を非常に短時間で完了できるようにするために、CCE サービスと AOM サービスは、クラウドネイティブ システムのアラーム ルールをワンクリックで設定できるクラウドネイティブ専用のアラーム テンプレートを起動します。このアラーム テンプレートは、Huawei Cloud の日常的な運用とメンテナンスの経験の概要と改良に基づいており、クラスター障害イベントと一般的な障害シナリオを、クラスター、ノード、負荷リソースの監視しきい値などの多くの側面でカバーしています。ユーザーは、CCE でアラーム センターを開き、障害を通知した人の電子メールまたは携帯電話をバインドするだけで済みます。

cke_135.png

図 2 ワンクリックアクティベーション

さらに、アラーム センターには、アラーム通知グループの設定、アラーム ルールの設定、アラームの表示とトレースバックなどの機能もあり、運用保守担当者はアラームの設定と処理プロセスをワン ストップで完了し、閉ループを完了できます。

アラーム センターは、Huawei Cloud SMN サービスに基づいたアラーム通知グループ機能を提供します。アラーム通知グループを構成することで、障害発生時に、介入すべき問題の原因となるシステムの種類とレベルに応じて、対応する運用保守担当者にタイムリーに通知できます。

cke_136.png

図 3 アラーム通知グループの構成

クラスター内の一般的なインジケーター アラームとイベント アラームをカバーするアラーム テンプレートを使用して、ワンクリックでアラーム ルールを発行できます。もちろん、ユーザーがこれらのアラーム ルールを自由に選択して設定することもできます。

cke_137.png

図 4 アラーム ルールの構成

アラームが発生すると、アラーム通知者は適時にアラーム通知を受信し、アラーム センターが提供するビジュアル インターフェイスを通じてアラームを表示および削除できます。ユーザーが発生した障害を追跡しやすくするために、アラーム センターは、削除された過去のアラームの表示もサポートしています。

cke_138.png

図5 アラーム一覧

クラウドネイティブのログビュー

クラウドネイティブビジネスの特性に適応し、運用および保守担当者がログを迅速にクエリして障害を正確に特定できるようにするために、ファーウェイクラウドCCEサービスはログセンター機能を起動し、クラウドネイティブの観点から専用のページレイアウトを提供します。

cke_139.png

図 6 ログセンター

ログ センターは、ワークロード、ポッドなどの K8s リソース オブジェクトに基づいたフィルタリングをサポートします。また、K8s 管理ログ、監査ログ、ビジネス ログなどの分類表示もサポートしています。ページ全体がより簡潔になり、ログの主な内容や関連する K8s リソースなどの重要な情報がより目立つようになり、運用および保守担当者は、障害点のログに焦点を当て、干渉を排除します。

cke_140.png

図 7 多次元フィルタリング

ログ センターは、ログ収集戦略のための構成管理機能も提供し、収集された K8s リソース オブジェクトの自由な構成をサポートします。さらに、ログ使用のしきい値をさらに下げるために、ログ センターでは、ワンクリックでオンまたはオフにできるコントロール プレーン ログ、監査ログ、コンテナーの標準出力ログの収集構成テンプレートを提供します。

cke_141.png

図 8 コレクション テンプレート

今回は、アラーム センターとログ センターの機能について簡単に紹介します。これらの機能により、運用とメンテナンスのエクスペリエンスが効果的に向上することを非常に楽しみにしています。今後も最適化を続けていきます。皆様のご利用と改善のための貴重なご提案をお待ちしております。

サービス体験についてはこちらをご覧ください

関連リンク

クリックしてフォローし、できるだけ早くHuawei Cloudの新しいテクノロジーについて学びましょう~

OpenAI が ChatGPT Voice Vite 5 をすべてのユーザーに無料で公開、正式にリリース オペレーターの魔法の操作: バックグラウンドでネットワークを切断、ブロードバンド アカウントを非アクティブ化、ユーザーに光モデムの変更を強制 Microsoft オープン ソースの ターミナル チャット プログラマーが ETC 残高を改ざんし、年間 260 万元以上を横領 Redis の父が使用する Pure C 言語コードは、Telegram Bot フレームワークを実装しています あなたがオープンソース プロジェクトのメンテナである場合、この種の返答にどこまで耐えることができますか? Microsoft Copilot Web AI は 12 月 1 日に正式にリリースされ、中国の OpenAI をサポートします 元 CEO 兼社長の Sam Altman 氏と Greg Brockman 氏が Microsoft に加わりました Broadcom は VMware の買収に成功したと発表しました
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/4526289/blog/10151116