オープンソースの中国コミュニティチームは、共有の名のもとに、オープンソースの中国コミュニティの背後にあるストーリーを伝える初のライブブロードキャストを行いました。」

この記事は、Huawei Cloud Community「CCEクラウドネイティブ混合展開シナリオにおけるオンラインタスクのプリエンプティング、オフラインタスクのCPUリソースの抑制、およびオンラインタスクのサービス品質の確保の効果に関するテスト」から共有されています。著者：友達を作ることができます。。

背景

エンタープライズ IT 環境では通常、2 つの主要なタイプのプロセスが実行されます。1 つはオンラインサービスで、もう 1 つはオフライン操作です。

オンラインタスク: 長い実行時間、サービストラフィックおよびリソース使用率には潮汐特性があり、遅延の影響を受けやすく、電子商取引トランザクションサービスなどの高いサービス SLA 要件があります。

オフラインタスク: 実行時間は複数の間隔に分割され、動作中のリソース使用率は高く、遅延は影響を受けず、フォールトトレランス率は高く、ビッグデータ処理などの中断は一般に再実行が可能です。

コロケーションの主な形式は、オンラインタスクとオフラインタスクを同じノードにデプロイすることでリソースの使用率を向上させることです。たとえば、以前は高サービス SLA で 3 つのオンラインタスクをデプロイしていたノードが、現在は 3 つのオンラインタスクと 3 つのオフラインタスクをデプロイしています。オフラインサービスは、オンラインサービスのサービス品質に影響を与えることなく、さまざまな期間のオンラインサービスのアイドルリソースを利用します。

コンテナコロケーションレベルでは、主に次のことが関係します。1) スケジューリングレベルで、ノードスケジューリングリソースが過剰にスケジュールされ、オンラインタスクとオフラインタスクが混在して同じノードにスケジュールされます。2) CPU レベルで、オンラインタスクがスケジュールされます。 3) メモリレベルはこの記事では紹介されていません。共存テクノロジーの CPU の能力により、システムは操作プロセス中に、オンラインとオフラインのタスクリソースの使用状況に応じて、オフラインタスクリソースのオンライン「プリエンプション」と「抑制」を自動的に完了することが実現できます。オンラインリソースのリソース需要を確保するため。 4 コアマシンを例に挙げます。

オンラインタスクが 3 コアの CPU リソースを必要とする場合、システムはオフラインタスクを「抑制」して最大 1 コアの CPU リソースを使用する必要があります。
当時、オンラインタスクはビジネスのピーク時に 1 コアの CPU リソースしか使用していませんでしたが、オンラインタスクのビジネスが増加すると、システムは残りの CPU リソースを短期間で使用できるようになりました。オフラインのビジネス CPU リソースを「プリエンプト」する可能性があります。

環境整備

環境要件

クラスターのバージョン:

v1.19 クラスター: v1.19.16-r4 以降
v1.21 クラスター: v1.21.7-r0 以降
v1.23 クラスター: v1.23.5-r0 以降
v1.25以降

クラスタタイプ: CCE 標準クラスタまたは CCE ターボクラスタ。

ノードOS : EulerOS 2.9 (kernel-4.18.0-147.5.1.6.h729.6.eulerosv2r9.x86_64) または Huawei Cloud EulerOS 2.0

ノードタイプ: エラスティック仮想マシン。

Volcano プラグインのバージョン: 1.7.0 以降。

環境情報

CCE クラスターは kube-prometheus-stack、grafana、volcano プラグインをデプロイします

画像.png

CPU 抑制とプリエンプションのデモンストレーション

ストレステストのベースライン

デモに必要なワークロードを作成し、2 つのワークロードが同じノードにスケジュールされていることを確認します (ダッシュボード内の一般的な式はポッド名に関連付けられているため、ワークロード名を使用しないことをお勧めします。そうしないと、ダッシュボードの通常の表示)

種類：展開
APIバージョン: アプリ/v1
metadata: 
  名前: レディス        
仕様:
  レプリカ: 1
  セレクタ：
    マッチラベル:
      アプリ：リディス
  テンプレート：
    metadata: 
      作成タイムスタンプ: null
      ラベル:
        アプリ：リディス
      注釈:
        prometheus.io/パス: /metrics
        prometheus.io/ポート: '9121'
        prometheus.io/scrape: 'true'
    仕様:
      コンテナ:
        - 名前: コンテナ-1
          画像: swr.cn-north-4.myhuaweicloud.com/testapp/redis:v6
          リソース：
            制限:
              CPU: '1'
            リクエスト：
              CPU: 250m
        - 名前: コンテナ-2
          画像: bitnami/redis-exporter:最新
          リソース：
            制限:
              CPU: 250m
              メモリ: 512Mi
            リクエスト：
              CPU: 250m
              メモリ: 512Mi
      imagePullの秘密:
        - 名前: デフォルトの秘密
      スケジューラ名: 火山
---
種類：展開
APIバージョン: アプリ/v1
metadata:
  名前：ストレス
仕様:
  レプリカ: 1
  セレクタ：
    マッチラベル:
      アプリ：ストレス
  テンプレート：
    metadata:
      ラベル:
        アプリ：ストレス
    仕様:
      コンテナ:
        - 名前: コンテナ-1
          画像: swr.cn-north-4.myhuaweicloud.com/testapp/centos-stress:v1
          指示：
            - /bin/bash
          引数:
            -「-c」
            - 真実である一方で、 hello をエコーします。 10寝ます。終わり
          リソース：
            制限:
              CPU: '4'
              メモリ: 4Gi
            リクエスト：
              CPU: 2500m
              メモリ: 1Gi
      imagePullの秘密:
        - 名前: デフォルトの秘密
      スケジューラ名: 火山
      アフィニティ:
        ポッドアフィニティ:
          必須スケジュール中無視実行中:
            - ラベルセレクター:
                一致式:
                  - キー: アプリ
                    演算子: で
                    値:
                      - レディス
              名前空間:
                - デフォルト
              トポロジーキー: kubernetes.io/ホスト名

redis-benchmark コマンドを使用して、redis192.168.1.159のポッド IP のストレステストを行います。

./redis-benchmark -h 192.168.1.159 -p 6379 -n 3000000 -c 100 –q -t SET、INCR、LPUSH、LPOP、RPOP、SADD、HSET、SPOP、ZADD、ZPOPMIN

grafana ページで Redis インジケーターと CPU 使用率を観察します。これらは、干渉することなくベースライン参照データとして使用できます。

画像.png

非混合シーン

ハイブリッドデプロイメント用のノードプールを作成し、上記のワークロードを新しいノードに再デプロイします

redis-benchmark コマンドを再度使用して、redis192.168.1.172のポッド IP のストレステストを行います。

./redis-benchmark -h 192.168.1.172 -p 6379 -n 3000000 -c 100 –q -t SET、INCR、LPUSH、LPOP、RPOP、SADD、HSET、SPOP、ZADD、ZPOPMIN

ストレスコンテナーに入ります。redis インジケーターがベースラインに達して安定したら、コマンドを実行して CPU 使用率を増やします。

-c 4 -t 3600 の応力

grafana ページで Redis インジケーターと CPU 使用率を観察すると、ストレスコンテナーのストレステスト中に Redis のパフォーマンスデータが急速に低下していることがわかります。

画像.png

混合シーン

ノードプールを更新し、詳細構成でノードのハイブリッドラベルを構成します。volcano.sh/colocation="true"

画像.png

ノードプールの構成管理をクリックします - kubeletコンポーネント構成 - ノードコロケーション機能を有効にします

ストレステスト中に CPU 使用率がしきい値を超えた場合の直接のエビクションを回避するには、ノードのエビクションしきい値を 100 に変更します。

kubectl アノテーション ノード 192.168.0.209 volcano.sh/evicting-cpu-high-watermark=100

ストレスワークロードのアノテーションを変更し、ストレスをオフラインビジネスとしてマークします。Redis ワークロードを変更する必要はありません。

種類：展開
APIバージョン: アプリ/v1
metadata: 
  名前：ストレス
仕様:
  レプリカ: 1
  セレクタ：
    マッチラベル:
      アプリ：ストレス
  テンプレート：
    metadata: 
      ラベル:
        アプリ：ストレス
      注釈:          
        volcano.sh/qos-level: "-1" # オフライン ジョブの注釈
    仕様:
      コンテナ:
        - 名前: コンテナ-1
          画像: swr.cn-north-4.myhuaweicloud.com/testapp/centos-stress:v1
          指示：
            - /bin/bash
          引数:
            -「-c」
            - 真実である一方で、 hello をエコーします。 10寝ます。終わり
          リソース：
            制限:
              CPU: '4'
              メモリ: 4Gi
            リクエスト：
              CPU: 2500m
              メモリ: 1Gi
      imagePullの秘密:
        - 名前: デフォルトの秘密
      スケジューラ名: 火山
      アフィニティ:
        ポッドアフィニティ:
          必須スケジュール中無視実行中:
            - ラベルセレクター:
                一致式:
                  - キー: アプリ
                    演算子: で
                    値:
                      - レディス
              名前空間:
                - デフォルト
              トポロジーキー: kubernetes.io/ホスト名

redis-benchmark コマンドを使用して、redis 192.168.1.172 のポッド IP のストレステストを行います。

./redis-benchmark -h 192.168.1.172 -p 6379 -n 3000000 -c 100 –q -t SET、INCR、LPUSH、LPOP、RPOP、SADD、HSET、SPOP、ZADD、ZPOPMIN

ストレスコンテナーに入ります。redis インジケーターがベースラインに達して安定したら、コマンドを実行して CPU 使用率を増やします。

-c 4 -t 3600 の応力

grafana ページで Redis インジケーターと CPU 使用率を確認します。混合シナリオでは、オフラインタスクがノードの CPU を使い果たそうとする場合でも、オペレーティングシステムはオンラインタスクの CPU 要求を維持し、オンラインタスクのサービス品質を確保します。。

クリックしてフォローし、できるだけ早くHuawei Cloudの新しいテクノロジーについて学びましょう~

CCE クラウドネイティブコロケーションシナリオのテストケース

背景

環境整備

環境要件

環境情報

CPU 抑制とプリエンプションのデモンストレーション

ストレステストのベースライン

非混合シーン

混合シーン

おすすめ

CCE クラウド ネイティブ コロケーション シナリオのテスト ケース

背景

環境整備

環境要件

環境情報

CPU 抑制とプリエンプションのデモンストレーション

ストレステストのベースライン

非混合シーン

混合シーン

おすすめ

CCE クラウドネイティブコロケーションシナリオのテストケース