Huawei Cloud CCE Cluster Health Center: 専門家の運用および保守経験を備えたクラウドネイティブの監視可能なプラットフォーム

この記事は、Huawei Cloudコミュニティ「新世代のクラウドネイティブ監視可能プラットフォームのHuawei Cloud CCE Cluster Health Center」から提供されたものです: Cloud Container Future。

「Kubernetes の運用と保守は確かに複雑です。さまざまな概念、原則、ベスト プラクティスを深く理解する必要があるだけでなく、クラスターの健全性状態、リソースの使用率、コンテナーの安定性などの側面のリスク評価も必要です。クラスターが失敗すると、問題の根本原因を見つけるために、通常、さまざまなログの分析と情報の監視に多くの時間を費やす必要があります。」と IT 企業の運用ディレクターは述べています。

近年、Kubernetes をベースとしたクラウドネイティブ アーキテクチャに注目する企業が増えています。マイクロサービスとクラウドネイティブ アーキテクチャがますます複雑になるにつれて、本番環境での監視とトラブルシューティングがますます困難になっているというフィードバックも多くのお客様から受けています。CCE クラウドネイティブの可観測プラットフォームは、監視、警報、ロギング、その他の機能を提供し、ユーザーが問題をより簡単に特定できるようにしますが、事実上、運用および保守担当者の技術的閾値も高めます。運用および保守担当者と開発者を困難な障害特定とトラブルシューティングから解放するために、CCE サービスはクラスターの健全性診断機能を提供します。

CCE クラスターの健全性診断は、コンテナーの運用および保守の専門家の経験を集めて、クラスター レベルの健全性診断のベスト プラクティスを提供します。クラスターの健全性状態に関する包括的なチェックを実行し、クラスターの障害と潜在的なリスクをタイムリーに発見するのに役立ち、対応する修復の提案を参照用に提供します。

すぐに使用可能: アクティブ化する必要がなく、依存関係がなく、ワンクリックで正常性を診断できます。

CCE の組み込みヘルス エキスパート システムとして、クラスターの健全性診断機能はプラグインや他のサービスに依存せずに独立して実行できます。ユーザーは、面倒なアクティブ化や構成のプロセスを経ることなく、ワンクリックでクラスターの健全性診断をトリガーできます。

1-1.png

図1 ワンクリック健康診断

定期検査: 無人でクラスターの健全性を継続的に保護

クラスターのアップグレードの前後やビジネスの復元中など、アクティブな運用およびメンテナンスのシナリオでは、ユーザーはいつでもアクティブに正常性診断をトリガーして、ビジネスの円滑な運用を確保できます。一方で、日々の運用・保守においては、常に画面を見つめて確認することはできませんが、お客様をこの低レベルな労働から解放するために、健康診断では定期点検機能をサポートしています。クラスターの健全性をバックグラウンドで保護し、検査結果を定期的にアーカイブして、いつでも簡単に確認できるようにすることができます。

2-2.png図2 ヘルスチェック結果

多面的診断:豊富な診断項目、集合人間ドック

CCE クラスターの健全性診断は、運用および保守の専門家によって提供される高頻度の障害ケースを精緻化し、クラスター/コア プラグイン/ノード/ワークロード/外部依存関係などの多次元の健全性チェックをカバーし、すべての診断項目にリスク評価、影響リスクが与えられます。 、および修復の推奨事項。

  • クラスターのディメンション: クラスターの運用および保守機能のチェック、セキュリティ グループの構成チェック、クラスター リソース プランニングのチェック、およびその他の診断項目を含みます。

3-3.png

図 3 クラスター ディメンションの診断項目

  • コア プラグインのディメンション: モニタリング、ログ、coredns、ストレージなどのコア プラグインのヘルス チェックをカバーします。

4-4.png

図4 コアプラグインのディメンション診断項目

  • ノードの次元: ノードのリソース負荷とノードのステータス診断を含みます。

5-5.png

図5 ノードディメンションの診断項目

  • ワークロード次元: ワークロード構成チェック、Pod リソース負荷チェック、Pod ステータス診断などを含みます。

6-6.png

図 6 ワークロード ディメンションの診断項目

  • 外部依存関係ディメンション: 主に ECS やクラウド ディスクなどのリソース クォータ チェックが含まれます。

7-7.png

図 7 外部依存ディメンションの診断項目

インテリジェントな分析: インテリジェントな健康状態評価、専門的な修理提案

CCE クラスターの健全性診断では、リスク レベルが示され、障害と潜在的なリスクに基づいて修復の提案が提供されます。リスクレベルは緊急度に応じて高リスクと低リスクに分けられます。

  • 高リスク: これは、診断項目がクラスターまたはアプリケーションの安定性を脅かし、ビジネス上の損失を引き起こす可能性があり、できるだけ早く修復する必要があることを示します。
  • 低リスク: これは、診断項目がクラウド ネイティブのベスト プラクティスに準拠しておらず、潜在的なリスクがあることを示しますが、すぐにビジネスに大きな影響を与えるわけではないため、修正することが推奨されます。

各健全性診断が完了すると、すべての診断結果が集約されて分析され、クラスターの全体的な健全性状態を反映する最終的なクラスター健全性スコアが与えられます。ヘルス スコアが低いクラスターは、多くの場合、障害のリスクが高く、クラスター管理者の注意が必要です。

8-8.png

図 8 健康リスクレベルの評価

ケーススタディ:セキュリティグループの誤操作によるビジネス障害

CCE はユニバーサル コンテナ プラットフォームであり、セキュリティ グループ ルールの設定は一般的なシナリオに適しています。クラスターが作成されると、マスター ノードとノード ノードに対してセキュリティ グループが自動的に作成されます。ユーザーがデフォルトのセキュリティグループ内のルールを誤って操作すると、ノードのネットワーク障害などの問題が発生する可能性があり、また、この種の問題は解決が困難な場合が多く、セキュリティグループの原因究明に多大な時間がかかってしまいます。経営回復のスピードに影響します。この場合、保健所の検査機能により故障診断を行うことができます。

たとえば、クラスターのデフォルトのセキュリティ グループ ルールを変更し、マスターとノード間の通信ルールを許可から拒否に変更します。

9-9.png

図 9 セキュリティ グループ ルールの変更

上記の操作を行うと、ネットワークが利用できない場合、kubectlコマンドが実行できなくなるなど、クラスタに何らかの機能異常が発生します。

この種の問題はトラブルシューティングが困難なことが多く、ユーザーが根本原因を見つけるのに多くの時間がかかります。現時点で、ユーザーが CCE ヘルス センターで健全性検査を実行すると、セキュリティ グループで高リスクの検査項目を求めるプロンプトが表示されます。

10-10.png

図 10 セキュリティ グループの例外プロンプト

診断の詳細を通じて異常なセキュリティ グループを直接特定し、対象の修復を容易にすることができます。

11-11.png

図 11 異常なセキュリティ グループの特定

障害診断プロセス全体が便利かつ高速であるため、トラブルシューティング時間が大幅に短縮され、CCE クラスター上でお客様のビジネスがより安定して実行されるようになります。

結論

CCE クラスターの健全性診断機能は、お客様によりインテリジェントで迅速な運用および保守機能を提供することを目的として、専門家の運用および保守の大量の経験を統合および蓄積します。現在、この機能は引き続き急速に改良されており、将来的には、検査結果の通知、リスク評価のしきい値調整、より豊富な診断項目などの機能を追加し、よりスマートで信頼性が高く安定したクラウド ネイティブ システムを提供する予定です。

サービス体験については、以下をご覧ください。

https://www.huaweicloud.com/product/cce.html

クリックしてフォローし、できるだけ早くHuawei Cloudの新しいテクノロジーについて学びましょう~

 

Broadcom が既存の VMware パートナー プログラム Deepin-IDE バージョン アップデートの終了を発表 、古い外観を新しい外観に置き換える 周 紅逸: 紅蒙ネイティブは間違いなく成功する WAVE SUMMIT は 10 回目のセッションを迎え、温信宜燕氏が最新情報を公開します! ヤクルト社、95Gデータ流出を確認 2023年プログラミング言語で最も人気のライセンス 「2023年中国オープンソース開発者報告書」正式リリース Julia 1.10正式リリース Fedora 40は/usr/binと/usr/sbinを統合予定 Rust 1.75 .0リリース
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/4526289/blog/10456183