Huawei Cloud のクラウドネイティブ FinOps ソリューションは、クラウドネイティブの最大の価値を解き放ちます

Huawei CloudのクラウドネイティブFinOpsは、ユーザーがクラウドを細心の注意を払って使用して、単位コストあたりのリソース使用率を向上させ、視覚的なコスト洞察とコスト最適化を通じてコスト削減と効率の目標を達成するのに役立ちます。

エンタープライズクラウド移行の現状: クラウド移行の傾向は深化し続けていますが、クラウド支出には多大な無駄が生じています

Flexer による 2024 年の最新調査によると、現在 70% 以上の企業がクラウド サービスを頻繁に利用していますが、昨年のこの数字は 65% でした。ますます多くの企業がクラウド上にサービスを展開し始めていることがわかります。企業はクラウド ベンダーが提供するクラウド サービスを利用している一方で、クラウド サービスの料金も支払っています。調査によると、クラウド コスト支出の平均約 30% は非効率な支出であると考えられています。クラウドコストをいかに節約するかが、近年クラウド企業にとって最大の関心事となっている。

企業のクラウドネイティブ化は徐々に深まっているが、コスト管理は依然として課題に直面している

クラウドネイティブテクノロジーは現在、多くの企業がデジタルトランスフォーメーションを実行するための主流の方法となっています。 kubernetes が提供するリソース共有、リソース分離、柔軟なスケジューリング、その他の機能は、企業のリソース利用率の向上と企業の IT コストの削減に役立ちます。しかし、2021 CNCF「FinOps Kubernetes Report」調査レポートによると、Kubernetes プラットフォームへの移行後、回答者の 68% が企業内のコンピューティング リソースのコストが増加したと回答し、回答者の 36% がコストが増加したと回答しました。 20%以上高騰しました。この背後にある理由については、検討する価値があります。

クラウドネイティブ時代のコスト管理が直面する課題

クラウドネイティブ時代のコスト管理には4つの矛盾があります。

  1. ビジネス ユニット VS 請求単位:一般に、クラウド サービス (ECS など) の請求サイクルは比較的長く、月ごとまたは年ごとになる場合がありますが、クラウド ネイティブ コンテナーのライフ サイクルは比較的短く、柔軟なスケーリングや障害などのアクションが発生します。コンテナの再起動が困難になるため、リソースのアイドル率が比較的高くなる可能性があります。
  2. キャパシティ プランニング VS リソース供給:キャパシティ プランニングは一般に静的であり、通常は予算または計画に従って事前にコンテナを準備しますが、リソース供給はビジネスによって推進されます。ビジネスのピーク時のトラフィックへの影響や容量拡張などのシナリオは、容量計画に大きな課題をもたらします。
  3. 統合ガバナンス VS マルチクラウド展開:現在、多くの企業が複数のクラウドを使用しており、クラウド ベンダーごとに請求インターフェースや請求形式が異なるため、企業のマルチクラウドの統合コスト管理には役立っておりません。
  4. コスト モデル VS クラウド ネイティブ アーキテクチャ:クラウド ベンダーのコスト モデルは比較的シンプルで、通常は物理リソースに基づいて請求されます。たとえば、ECS サービスはマシン全体の価格に基づいて請求されます。クラウド ネイティブ アーキテクチャはアプリケーション中心であり、リソース アプリケーションは CPU/メモリの粒度に合わせて調整されます。これにより、クラウド ネイティブ シナリオのコストの視覚化とコスト分析がより困難になります。

要約すると、クラウド ネイティブのコスト ガバナンスは 3 つの大きな課題に直面しています。

コストの洞察:クラウド ネイティブ シナリオでコストの視覚化を実現する方法、コストの問題を迅速に特定し、リソースの無駄を特定する方法

コストの最適化:クラウド ネイティブのコストを最適化する方法は数多くありますが、適切なコスト最適化方法を使用してメリットを最大化するにはどうすればよいでしょうか。

コスト・オペレーション:企業はどのようにして持続可能なコスト・ガバナンス・システムと文化を構築できるでしょうか?

ファーウェイのクラウドネイティブ FinOps ソリューション

FinOps は、財務管理原則とクラウド エンジニアリングおよび運用を組み合わせて、組織がクラウド支出をより深く理解できるようにする規律です。また、クラウドのコストを割り当てて管理する方法について、情報に基づいた意思決定を行うのにも役立ちます。 FinOps の目標はコストを節約することではなく、クラウドを通じて収益やビジネス価値を最大化することです。これは、組織がビジネス運営をサポートするために必要なパフォーマンス、信頼性、セキュリティのレベルを維持しながら、クラウド支出を制御するのに役立ちます。

FinOps Foundation は、FinOps を情報提供、最適化、運用の 3 つのフェーズとして定義しています。各チームまたは企業が FinOps をどの程度完了しているかに応じて、企業は同時に複数の段階にある可能性があります。

通知 (コスト インサイト):通知は FinOps フレームワークの最初のフェーズです。このフェーズは、すべての関係者に情報を提供する必要がある情報を提供し、クラウドの使用に関して情報に基づいた費用対効果の高い意思決定を行うように設計されています。

コストの最適化:コストの最適化の焦点は、コストを節約する方法を見つけることです。組織は、現在の使用状況に基づいてリソースのサイズを適切に設定し、割引の恩恵を受けることができるのはどこでしょうか?

コスト オペレーション: コストオペレーションは、FinOps フレームワークの最終段階です。このフェーズでは、組織はビジネス目標に対するパフォーマンスを継続的に評価し、FinOps の実践を改善する方法を模索します。最適化を導入すると、組織は自動化を活用してポリシーを適用し、パフォーマンスに影響を与えることなくクラウド リソースを継続的に調整することでコストを制御できます。

Huawei CloudのクラウドネイティブFinOpsソリューションは、業界のFinOps標準とベストプラクティスを参照し、クラウドネイティブコストの多次元視覚化と複数のコスト最適化管理方法をユーザーに提供し、顧客の収益やビジネス価値の最大化を支援します。

クラウドネイティブ FinOps - コストに関する洞察

Huawei Cloud のクラウドネイティブ FinOps コストに関する洞察は、次の主要な機能を提供します。

1. タグベースのリソースコストの帰属

ECS、EVS、その他のリソースに関連付けられたクラスター タグをサポートし、クラスター コストの概要計算を容易にします。

2. CBC請求書に基づく正確なコスト計算

実際の CBC 請求書に基づいてコスト配分を計算し、部門のコストを正確に分割します

3. 柔軟なコスト配分戦略

クラスター、名前空間、ノードプール、アプリケーション、カスタマイズなどの多次元でのコストの視覚化とコスト割り当て戦略をサポートします。

4. 長期的なコストデータの保存と取得をサポート

最長 2 年間のコスト分析をサポートし、月次、四半期、年次レポートとエクスポートをサポートします。

5. ワークロードを迅速に感知し、高速かつ柔軟なシナリオに簡単に対処します

高速で柔軟なアプリケーションのシナリオでは、分単位の負荷検出と課金機能がサポートされているため、コストを逃すことはありません。

クラウド ネイティブのコスト インサイトの実装メカニズムの概要:

1. クラスターの物理リソースのコスト VS クラスターの論理リソースのコスト

クラスターのコストは、次の 2 つの観点から計算できます。

  • クラスターの物理リソース コストには、クラスター管理料金、ECS コスト、EVS コストなど、クラスターに直接的または間接的に関連付けられたリソース コストが含まれます。クラスターの物理リソースのコストは、クラウドのコスト請求に直感的に反映できます。
  • クラスター論理リソースのコスト: Kubernetes リソースの観点から見ると、クラスターのコストには、ワークロードのコストに加えて、クラスターのアイドル状態のリソースのコストとパブリック オーバーヘッドのコストが含まれます。

クラスターの物理リソースのコスト = クラスターの論理リソースのコストであることを理解するのは難しくありません。

2. ユニットリソース(CPU/メモリ等)コスト計算

クラスターの物理リソース コストがわかっている場合、クラスターの論理リソース コスト (ポッド/ワークロードなど) を導き出す方法が、クラウド ネイティブの FinOps コストに関する洞察の鍵となります。ここで解決すべき中心的な問題は、単位リソースコストの計算です。一般的なクラウド仮想マシンは、CPU やメモリの単位ではなく、マシン全体の価格に基づいて販売されることがわかっています。ただし、コンテナサービスのリソース占有量は、リソース単位(CPUやメモリなど)に基づいて適用されます。したがって、最終的にコンテナ サービスが占めるコストを計算するには、単位リソースあたりのコストを計算する必要があります。

通常、クラウド ベンダーは CPU またはメモリの単価を見積もっています。また、CPU とメモリのコスト比率に基づいてリソースの単価を計算することもできます。

3. クラウドネイティブリソースのコスト計算

以下の図から、Pod のリソース使用量が時間の経過とともに動的に変動することがわかります。ポッドのリソース使用量がリソース リクエスト (リクエスト) よりも低い場合もあれば、ポッドのリソース使用量がリソース リクエスト (リクエスト) よりも大きい場合もあります。 Pod コストを計算する際には、Pod の実使用量値と Request 値を定期的にサンプリングし、実際の使用量値と Request 値の最大値を Pod コストの計算に使用します。これは、Request 値が Pod に割り当てられると、このリソースは K8S によって予約され、他の Pod によってプリエンプトされないためです。すべてのポッドはリクエスト部門のリソースの料金を支払う必要があります。同様に、ポッドの実際の使用量がリクエストよりも多い場合、ポッドは超過分の料金も支払う必要があります。

上記の原則に基づいて、ポッドのコストを計算できます。

名前空間の下のすべてのポッドのコストを累積することで、名前空間ディメンションのコストを取得できます。

上記の計算ロジックに基づいて、Huawei Cloud CCE のクラウドネイティブのコスト管理機能により、次のような複数の次元でクラスターのコストを視覚化できます。

クラスターコストの視覚化

名前空間コストの視覚化

ノードプールのコストの可視化

ワークロードコストの可視化

4. 部門のコスト配分およびコスト分析レポート

多くの企業は、クラスター インストールの名前空間の粒度をさまざまな部門に割り当てます。では、各部門のコストを視覚的に分析するにはどうすればよいでしょうか?

上の図からわかるように、部門のコストには、その部門が属する名前空間のコストが含まれるだけでなく、公的コストの一部も負担する必要があります。機能コストのこの部分には、システム名前空間コストとアイドル リソース コストが含まれます。

Huawei Cloud CCE クラウドネイティブコスト管理は、次の図に示すように、部門ベースのコスト割り当てポリシー構成をサポートしています。

同時に、部門のコスト配分戦略に基づいて、Huawei Cloud CCEクラウドネイティブコスト管理は、月次/四半期/年次レポート機能を提供し、レポートのクエリとエクスポートを最大2年間サポートします。

クラウドネイティブ FinOps - コストの最適化

クラウド ネイティブ シナリオでリソースの使用率を改善するにはどうすればよいですか?

Gartner の統計によると、企業の平均 CPU 使用率は15%未満です。一般的なシナリオには次のような理由があります。

不合理なリソース割り当て: 一部のユーザーは、自分のサービスのリソース使用量を理解しておらず、リソースを申請する際に盲目であり、通常は過剰なリソースを申請します。 

ビジネスの山と谷: マイクロサービスには、毎日のピークと谷の明らかな特性があり、サービスのパフォーマンスと安定性を確保するために、ユーザーはピークに応じてリソースを申請します。 

リソースの断片化: さまざまな事業部門には独立したリソース プールがあり、リソースを共有できず、リソースの断片化が起こりやすくなります。 

コンテナ化によりリソースの使用率はある程度改善されますが、コンテナ化のみに頼るだけでは効果的に解決できない問題がいくつかあります。

資源の過剰な散布: 効果的な資源の推奨および監視メカニズムがない場合、一般的に砂を過剰に散布して蓄積し、資源の浪費につながります。 

統合リソース プール: K8s ネイティブ スケジューラには、グループやキューなどの高次のスケジューリング機能が欠けており、コンテナの弾力性を活用するためにビッグ データ ビジネス ストレージとコンピューティングを統合することが困難です。 

アプリケーションのパフォーマンス: 導入密度を高めるだけでは、サービス品質を保証できません。 

クラスター リソースの使用率を向上させるために、CCE のクラウド ネイティブ FinOps ソリューションは、インテリジェントなアプリケーション リソース仕様の推奨、クラウド ネイティブのハイブリッド展開、動的なオーバーセリング、その他の機能など、さまざまな最適化方法を提供します。

5. スマートアプリケーションリソースの推奨仕様

アプリケーションのパフォーマンスと信頼性を確保するために、また十分な視覚化ツールが不足しているため、私たちは常にアプリケーションに過剰なリソースを適用する傾向があります。この問題を解決するために、CCE クラウド ネイティブ コスト管理は、インテリジェントなアプリケーション リソース仕様の推奨機能を提供します。この機能は、アプリケーションの過去のポートレート データと機械学習アルゴリズムに基づいて、アプリケーションに最適なアプリケーション値を推奨します。

6. ファーウェイのクラウドネイティブコロケーションソリューション

Huawei Cloud CCEのクラウドネイティブハイブリッドソリューションは、volcanoプラグインに基づいており、ワンクリック展開をサポートし、高優先度と低優先度の混合展開、動的なオーバーセル、サービスQoS保証などの機能を備えたコンテナサービスを提供します。主な機能は主に次のとおりです。

  • コンテナビジネスの優先順位とリソースの分離
  • 融合スケジューリング
  1. アプリケーション SLO 認識:複数タイプのサービスのインテリジェントなハイブリッド スケジューリング、アプリケーション トポロジ認識、時分割多重化、過剰販売など。
  2. リソース認識スケジューリング: CPU NUMA トポロジー認識、IO 認識、ネットワーク認識スケジューリング、およびソフトウェアとハ​​ードウェアのコラボレーションを提供して、アプリケーションのパフォーマンスを向上させます。
  3. クラスター リソース プランニング: 高品質サービスと低品質サービスを均一に満たすために、キュー、公平性、優先度、予約、プリエンプションなどの豊富な戦略を提供します。
  • ノード QoS 管理: 多次元のリソース分離、干渉チェック、およびエビクション メカニズム。

以下では、動的な過剰販売機能、つまりアイドル状態のノード リソースを再利用し、リソース使用率を向上させる方法に焦点を当てます。

動的な過剰販売の中心原則は、ノード要求と実際の使用量の差をスケジューラが再割り当てし、低品質のタスクにのみ使用するスケジュール可能なリソースとして使用することです。

売られすぎ特性には次のような特徴があります。

  • 過剰に売れたリソースの使用をジョブよりも優先する
  • 高品質のジョブで過剰販売ノードが事前に選択されている場合、それらのジョブは過剰販売されていないリソースのみを使用できます。
  • 統一されたスケジューリング サイクルでは、高品質のジョブが低品質のジョブよりも前にスケジュールされます。

クラウドネイティブの混合展開であっても、過剰販売された機能であっても、リソースの使用率を改善できます。では、アプリケーションのパフォーマンスとサービスの品質を確保しながら、リソースの使用率を向上させるにはどうすればよいでしょうか?

ファーウェイ HCE 2.0 OS が提供する CPU 分離機能と、CPU 高速プリエンプション、SMT 管理制御、オフライン タスク抑制命令の負荷分散機能を組み合わせることで、オンライン ビジネス リソースの QoS が保証され、抑制されたオフライン タスク命令に応答できるようになります。できるだけ早く。

実験室でシミュレートされたオンラインとオフラインの共同展開シナリオ (CPU 使用率 70% 以上) と、単一のサービスがオンラインで展開されるシナリオ (CPU 使用率 30%) のパフォーマンス比較に基づいて、オンライン サービスのパフォーマンス (待ち時間とスループット) (共同デプロイメント シナリオ)) 低下の程度は、単一デプロイメントのオンライン サービス パフォーマンスの 5% 以内に制御されます。基本的には、混合部品による性能への影響は無視できる程度に抑えられていると考えられます。

顧客事例を見てみましょう。この顧客は、Huawei Cloud のネイティブ コロケーション ソリューションを使用してリソース割り当てを最適化し、最終的にリソース使用率の 35% の増加を達成しました。

このお客様の主な問題点は次のとおりです。

  • アプリケーションの干渉:ビッグデータ、オンライン音声、レコメンデーション、およびその他のアプリケーションが、CPU/メモリ、ネットワークなどのリソースをめぐって競合し、高品質なタスクのサービス品質に影響を与えます。
  • 不合理なアプリケーション リソース構成:スケジューリングを確実に成功させるために、リクエスト設定が非常に小さいため、負荷リソース要件をフィードバックできず、リソースの競合が発生します。
  • アプリケーションはコアにバンドルされています:一部のアプリケーションはコアにバンドルされており、全体的なリソース使用率は低くなります。

お客様の問題点に基づいて、当社はお客様に次のソリューションを提供します。

  • お客様は、元のノード OS を CentOS から Huawei Cloud HCE OS に切り替えました。
  • スケジューラを元のデフォルトのスケジューラから Volcano スケジューラに切り替えます。
  • 顧客のビジネス属性に応じて、スケジュールの優先順位、分離、その他のポリシーを構成します。

ファーウェイのクラウドネイティブ コロケーション ソリューションを通じて、顧客は最終的にリソース使用率が 35% 増加するという恩恵を受けることができます。

7. CCE Autopilot: 従量課金制と柔軟な仕様により、顧客のコスト削減に役立ちます

CCE が新しくリリースした Autopilot クラスタは、アプリケーションの実際の使用量に基づいた従量課金制をサポートしています。CCE クラスタと比較した利点は、Autopilot クラスタがノードの管理と運用を完全にホストするため、ノードを計画して購入する必要がないことです。リソースを事前に確保し、コスト管理の洗練を実現します。

ここでは 2 つの顧客シナリオを見ていきます。

  • インターネットエンターテインメントやソーシャルネットワーキングビジネスでは、春節休暇中のトラフィック量は通常時の数倍となり、特別な追跡や運用保守の保証が必要となり、事前にリソースを確保する必要があり、コストがかかります。
  • オンライン配車プラットフォームのビジネスには典型的な朝と夕方のピーク特性があり、従来の運転モードでは顧客が事前にリソースを手動で購入して予約する必要があるため、リソースの使用率が低くなります。

Autopilot を通じて、洗練されたコスト管理を実現し、最終的には全体的なコスト削減と収益の最大化を達成できます。

クリックしてフォローし、できるだけ早くHuawei Cloudの新しいテクノロジーについて学びましょう~

私はオープンソースの産業用ソフトウェアを諦めることにしました - OGG 1.0 がリリースされ、Huawei がすべてのソース コードを提供しました。Google Python Foundation チームは「コード クソ マウンテン」によって解雇されました Fedora Linux 40が正式リリース。有名ゲーム会社がリリース 新規定:従業員の結婚祝儀は10万元を超えてはならない。チャイナユニコム世界初のオープンソースモデルLlama3 8B中国語版をリリース。Pinduoduoに賠償判決国内のクラウド入力方式に500万元の罰金- クラウドデータアップロードのセキュリティ問題がないのはファーウェイだけ
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/4526289/blog/11062915