【VLDB 2023】予測に基づくクラウドリソースの柔軟なスケーリングフレームワークMagicScalerが「高QoSと低コスト」のダブルハーベストを実現

始まり

最近、アリババ クラウド コンピューティング プラットフォームのビッグデータ基礎エンジニアリング技術チームが主導し、コンピューティング プラットフォームの MaxCompute チーム、華東師範大学データ科学工学部、DAMO アカデミーと協力して、論文「MagicScaler: Uncertainty」が発表されました。クラウドコンピューティングプラットフォームの予測ベースのリソースエラスティックスケーリングフレームワークをベースとした「-aware, Predictive Autoscaling」がデータベース分野のトップカンファレンスであるVLDB 2023に採択されました。

MagicScaler の論文は、MagicScaler と呼ばれるクラウド リソース向けの革新的な予測ベースのアクティブな弾性スケーリング フレームワークを提案しています。このフレームワークには主に、マルチスケール アテンション ガウス プロセスに基づく予測モデルと、需要の不確実性を考慮した弾性スケーリング最適化意思決定者が含まれています。この論文は、Alibaba Cloud のネイティブ ビッグ データ コンピューティング サービス MaxCompute の 3 つのクラスターの実データ セットで実験を実施し、総合的なコストと QoS の点で、MagicScaler は他の古典的なエラスティック スケーリング アルゴリズムよりも大幅に優れており、「高い QoS (品質)」を実現しました。サービス)、低コスト」のダブルハーベスト。

背景

クラウド コンピューティングの需要が高まる中、ユーザーのニーズに基づいてクラウド リソースを合理的に割り当てることが、安定性を確保しコストを管理する上で重要な要素となります。図 1 は、わかりやすい 3 つの拡大および縮小戦略を示しています。保守的な戦略は、「保守的で誤って高い」ECS 供給を提供しますが、リソースの多大な浪費を引き起こします。パッシブ戦略はユーザーの選択です。需要に達した後でのみ決定を行うと、リソースの「コールド スタート」問題による QoS 違反のリスクが生じます。これら 2 つの戦略の利点を統合するために、予測自動スケーリング戦略は「事前に知っていて拡張を実行する」と理解できます。ユーザーのニーズに基づいて縮小を決定する」ことが、図 1 の理想的な状況を達成するための方法となる可能性が最も高くなります。

1.png

図 1: 3 つのわかりやすい AutoScaling 戦略: a) 保守的な戦略: 高コスト、低 QoS リスク; b) 受動的戦略: 低コスト、高 QoS リスク; c) 理想的な戦略: 低コスト、低 QoS リスク。

既存の自動スケーリング フレームワークは、主に制御理論、強化学習、キュー理論、またはルールベースの容量拡張決定の生成に基づいており、これらの手法では、需要を考慮せず、過去の期間にわたる平均需要などの比較的単純な予測アルゴリズムのみが使用されます。需要には周期性や不確実性がある可能性があるため、予測精度が低くなり、需要の変動に対処することが困難になります。既存の研究の中には、需要の不確実性に対処するためにヒューリスティックな手法のみを使用しているものもありますが、堅実な拡大と縮小の決定を得るのは困難です。理想的なスケーリングのフレームワークでは、予測とスケーリングの意思決定段階の両方で需要の不確実性を十分に考慮する必要があります。さらに、既存の自動拡張および自動縮小フレームワークでは、拡張および縮小フェーズ中に伸縮自在なリソースが経験するコールド スタートおよびリターンのコスト、QoS、およびコストなどのトレードオフの制約のため、これらの既存の自動スケーリング フレームワークを Alibaba Cloud コンピューティング プラットフォームのエラスティック スケーリング シナリオに直接適用することは困難です。

チャレンジ

クラウド コンピューティングの需要が高まる中、ユーザーのニーズに基づいてクラウド リソースを合理的に割り当てることが、安定性を確保しコストを管理する上で重要な要素となります。図 2 は、さまざまなデータ粒度での Alibaba Cloud のネイティブ ビッグ データ コンピューティング サービスのクラスターのリソース リクエストを示しています (データは感度が低くされています)。クラウドに対するユーザーの需要は、多くの場合非常に複雑で、不確実で、粒度が細かいことがわかります。依存性により、将来の需要を正確に予測することが困難になり、アクティブで弾力的なスケーリングがより困難になります。優れたアクティブで柔軟なスケーリング戦略では、需要の不確実性を考慮しながら、低い運用コストとクラウド プラットフォームの高い QoS との間の合理的なバランスを維持する必要があります。

2.png

図 2 さまざまなデータ粒度でのクラスター内のリソース要求

破局

このペーパーでは、MagicScaler と呼ばれる、クラウド リソース向けの革新的な予測ベースのエラスティック スケーリング フレームワークを提案します。このフレームワークには主に、マルチスケールアテンションガウスプロセスに基づく予測モデルと、「高QoS(サービス品質)と低コスト」の目標を達成するために需要の不確実性を考慮した弾性伸縮最適化意思決定者が含まれています。図 3 は、予測子とスケジューラを含む、MagicScaler の全体的なフレームワークを示しています。

3.png

図 3 MagicScaler の全体フレームワーク

(1) 予測器:予測器部分は主に、マルチスケール アテンション メカニズムに基づいてガウス回帰予測モデルを構築します。予測モデルの設計では、2 つの効率的な予測戦略が有機的に統合されています: 1 つは、複雑なマルチスケールの特徴を捕捉できるマルチスケール アテンション メカニズムであり、もう 1 つは、予測結果の不確実性を定量化するための確率過程回帰です。これにより、予測モデルは定量化された不確実性と組み合わせて正確な需要予測を達成し、その後の弾力的なスケーリングの基礎を築くことができます。
ここに画像の説明を挿入します

4.png

図 4 予測プロセス

(2) スケジューラ:スケジューラ部分は、予測結果と定量化された不確実性に基づいて、弾性伸縮の最適化意思決定者を設計します。複雑なビジネス シナリオをマルコフ意思決定 (MDP) プロセスとしてモデル化し、ローリング タイム ドメイン最適化手法を使用して最適な戦略を近似的に解決し、リソース コストと QoS 違反リスクの間の柔軟なバランスを実現します。図 5 は、マルコフ決定プロセス (MDP)、オプティマイザー、およびエラスティック スケーリング決定エグゼキューターを含むスケジューラー プロセスを示しています。私たちの弾性スケーラーは、確率的需要予測分布を入力として受け取り、弾性スケーリング問題をマルコフ決定プロセスとしてモデル化します。MDP 最適化が無限領域のベルマン方程式最適化問題であることを考慮して、ローリング時間領域最適化戦略を使用して、無限時間領域のベルマン方程式の解を有限時間領域の確率的計画に変換します。ベルマン方程式の最適解の近似値。

図 5 スケジューラのプロセス

この論文では、Alibaba Cloud のネイティブ ビッグ データ コンピューティング サービス MaxCompute の 3 つのクラスターの実際のデータ セットで実験を実施しました。総合的なコストと QoS の点で、MagicScaler は他の古典的なエラスティック スケーリング アルゴリズムよりも大幅に優れています。実験結果の詳細については、「The」を参照してください。論文の原文。

応用

将来的には、MagicScaler テクノロジーと MaxCompute の既存のスケジューリング戦略を組み合わせる方法をさらに研究していきます。

  • 論文のタイトル: MagicScaler: 不確実性を認識した予測自動スケーリング
  • 論文の著者: Pan Zhicheng、Wang Yihang、Zhang Yingying、Yang Bin、Cheng Yunyao、Chen Peng、Guo Chenjuan、Wen Qingsong、Tian Xiduo、Dou Yunliang、Zhou Zhiqiang、Yang Chengcheng、Zhou Aoying、Yang Bin

おすすめ

転載: blog.csdn.net/weixin_48534929/article/details/132535967