機械学習プラットフォーム PAI はプリエンプティブ インスタンスをサポートし、モデル サービスのコストを最大 90% 削減できます

これは、モデル推論サービスのコストを削減し、効率を高めるのに役立ち、AIGC コンテンツ生成の非同期推論、バッチ画像処理、バッチ音声およびビデオ処理などの推論コスト重視のシナリオに適しています。

AI開発とサービスの効率性が継続的に追求される中、Alibaba Cloudの機械学習プラットフォームPAIは、プリエンプティブインスタンス(スポットインスタンス)をサポートすることを発表した。モデル推論プロセスでは、ユーザーは PAI-EAS モデル オンライン サービス プラットフォームを通じてプリエンプティブル インスタンスを柔軟に選択し、推論遅延の影響を比較的受けにくいタスクを実行できるため、サービス コストを節約できます。同じモデルの場合、最大 90% のコスト最適化を達成できます。

プリエンプティブルインスタンスとは何ですか

プリエンプティブル インスタンス (スポット インスタンス) は、コンピューティング リソースを購入する方法です。従来のサブスクリプション インスタンスや従量課金制インスタンスとは異なり、プリエンプティブ インスタンスの販売価格は、市場の需要や在庫の需給に応じてリアルタイムに変動します。PAI-EAS プリエンプティブル インスタンスは、パブリック リソース グループ内のアイドル状態のコンピューティング リソースに基づいてサービスを提供し、従量課金制インスタンスの 10% という低価格のリソースをユーザーに提供できます。さまざまなインスタンス購入方法の単価比較は次のとおりです。保護されていないプリエンプティブ インスタンス < 保護されたプリエンプティブ インスタンス < プリペイド インスタンス < 従量課金制インスタンス。

PAI-EAS プリエンプティブル インスタンスを使用する前に、ユーザーはまず入札の上限を設定し、1 時間の保護期間を設定するかどうかを選択する必要があります。サービスが正常にデプロイされると、PAI-EAS は対応するリソースに自動的に入札します。

プリエンプティブル インスタンスを購入するには:

  • インスタンスの在庫が十分で、ユーザーが設定した入札の上限がプリエンプティブ インスタンスの現在の市場価格を下回らない場合、リソースは正常にプリエンプトされます。

プリエンプティブル インスタンスの使用:

  • ユーザーが 1 時間の保護期間を設定した場合、プリエンプティブル インスタンスの購入に成功した後、インスタンス リソースはデフォルトで少なくとも 1 時間使用されることが保証されます。1 時間の保護期間中、インスタンスの市場価格がユーザーが設定した入札制限を超えた場合でも、入札制限に従って請求されます。1 時間以上経過後、インスタンスの在庫が不足している場合、または入札上限が市場価格を下回っている場合、インスタンスは直ちに解放されます。
  • ユーザーが 1 時間の保護期間を設定しない場合、プリエンプティブル インスタンスの購入に成功した後、インスタンスの在庫が不足している場合、または入札の上限が市場価格より低い場合、インスタンスはすぐに解放されます。

複数のインスタンスのデプロイメント

  • プリエンプティブル インスタンスを使用してサービスをデプロイする場合、単一仕様のコンピューティング リソースのみを指定すると、入札単価が低いか在庫が不足しているため、サービスが長期間起動されず、保留される可能性があります。この問題に対応して、PAI-EAS デプロイメント リンクは複数の仕様のインスタンスの選択をサポートし、サービス リソース構成内の仕様リストを横断してリソースを取得します。これにより、プリエンプティブ インスタンスのリリースによって引き起こされるデプロイメント リスクが大幅に軽減され、サービスの安定した運用を保証します。

この図は、PAI-EAS プリエンプティブ インスタンス (スポット インスタンス) の価格設定ルールを簡単に示しています。図に示すように、このインスタンスの従量課金制インスタンス価格は 13.98 元/時間、ユーザーの入札制限は 5 元/時間、1 時間の保護期間が設定されています。プリエンプティブル インスタンスを使用すると、ユーザーはコンピューティング リソースを低価格で使用できます。
ここに画像の説明を挿入

注: 2023 年 4 月 23 日の PAI-EAS パブリック リソース グループのプリエンプティブル インスタンスの価格を例に挙げます。モデルは 8vCPU+30GB+1*A10 です。

PAI-EAS プリエンプティブル インスタンスのアプリケーション シナリオ

PAI-EAS プリエンプティブ インスタンス (スポット インスタンス) は、価格には非常に敏感だが、推論サービスのリアルタイム パフォーマンスと安定性には比較的鈍感な次のようなシナリオに適しています。

  • AIGC コンテンツ生成の非同期推論シナリオ
  • 画像認識やOCRなどのバッチ後処理のための画像解析
  • ビデオセグメンテーションやビデオ分類などのバッチ後処理のためのビデオ分析
  • 音声セグメンテーションや音声テキスト変換などの非同期推論またはバッチ推論のための音声分析
  • 安定拡散などの AI ペイントの非同期バッチ処理シナリオ

ユーザーが推論によって返される結果をリアルタイムで取得する必要はないが、一定期間 (たとえば、1 時間以内) の遅延を許容できる場合、これらの状況は、プリエンプティブ インスタンスを使用してサービス コストを最適化するのに適しています。

実際のビジネス シナリオでは、顧客はまず保証リソースとして一定量の前払いリソースを購入して、サービスがスムーズに実行できるようにすることができます。エラスティックな部分については、ビジネス シナリオに応じてさまざまなモデルのプリエンプティブ インスタンスを使用し、PAI-EAS を自動で使用することができます。プリエンプティブルインスタンスを自動的に拡張・縮小するエラスティックスケーリング機能を提供しており、価格の理由でプリエンプティブルインスタンスを拡張できない場合でも、PAI-EASでは通常の従量課金インスタンスを利用して拡張できるマルチスペックインスタンスオプションも提供しています。 . 合計コストにより、サービスの安定した運用が保証されます。

PAI-EAS を使用してプリエンプティブル インスタンスを構成する方法

1. PAI-EAS コンソールに入り、[展開サービス] をクリックして詳細な設定インターフェイスに入ります。

2. [リソース デプロイメント情報] セクションの [リソース グループ タイプ] で [パブリック リソース グループ] を選択し、[リソース構成方法] で [詳細なリソース構成] に切り替えて、プリエンプティブ インスタンス リソース (スポット インスタンス) を構成します。
ここに画像の説明を挿入

3. プリエンプティブル インスタンスの保持期間を選択します。

保護期間を 1 時間に設定します。展開が成功した後は、デフォルトで少なくとも 1 時間使用できます。つまり、プリエンプションが成功した後は 1 時間の保護期間があり、保護期間によって次のことが保証されます。リソースを使用できます。1 時間の保護期間の後、プリエンプティブル リソース インスタンスの在庫が十分であり、以前に設定した入札の上限がプリエンプティブル インスタンスの現在の市場価格を下回っていない場合は、プリエンプティブル インスタンスを引き続き使用できます。

未定の保護期間: リソースの使用を保証するための固定保護期間の保証はありません。プリエンプティブル リソース インスタンスの在庫が十分で、入札価格の上限がプリエンプティブル インスタンスの現在の市場価格を下回らない場合は、プリエンプティブル インスタンスを引き続き使用できます。価格も1時間プロテクター付きのものよりお安くなります。

4. マシンのモデルを選択すると、そのモデルの現在の優先価格と元の価格の比較が表示され、入札することができます。プリエンプティブ リソースの価格が入札より低く、在庫が十分にある場合は、いつでもこのモデルを使用し続けることができます。

「+」をクリックしてインスタンス仕様を追加します。サービスがオンラインになった後、PAI-EAS はサービス リソース構成内の仕様リストを参照してリソースを取得し、プリエンプティブ インスタンスのリリースによって引き起こされるリスクを軽減します。

5. 他の設定を完了したら、「デプロイ」ボタンをクリックしてサービスを起動します。

参照文書

EAS プリエンプティブ インスタンス スポット インスタンスの概要
https://help.aliyun.com/document_detail/52088.htm?spm=a2c6h.12873639.article-detail.4.23cd4fe1amQ1Rz

詳細構成: マルチ仕様インスタンスの選択
https://help.aliyun.com/document_detail/602247.html?spm=a2c6h.12873639.article-detail.5.23cd4fe1amQ1Rz

機械学習プラットフォーム PAI はプリエンプティブ インスタンスをサポートし、モデル サービスのコストを最大 90% 削減できます

おすすめ

転載: blog.csdn.net/bjchenxu/article/details/130772071