新世代 G7 シリーズ Inspur Yunhai ハイパーコンバージド EC 消去機能設計

Inspur Yunhai は、2023 年 5 月に新世代のハイパーコンバージド オールインワン マシンの InCloud Rail G7 シリーズを正式にリリースしました。その内蔵 InCloud dSAN ハイパーコンバージド ストレージ コンポーネントは、新世代のハードウェア プラットフォーム設計に基づいており、フルスタックRDMAプロトコルに加え、EC消去機能も搭載し、新時代のユーザーに新たな体験とより豊かな製品機能を提供します。

この記事では、InCloud dSAN が新世代の InCloud Rail G7 シリーズ ハイパーコンバージド オールインワン マシン上で EC 消去機能をどのように設計するかについて詳しく説明します。

ECイレイジャーコーディング技術とは何ですか?

イレイジャー コーディング テクノロジーは、主にイレイジャー コーディング アルゴリズムを使用して元のデータを複数のセグメントに分割し、展開およびエンコード検証を実行し、セグメント化されたデータと検証をディスク、ストレージ ノード、またはフォールト トレランスのために他の場所に一緒に保存するデータ保護方法です。目的。基本原理: データ ブロックの合計 = 元のデータ ブロック + チェック ブロック、通常、n = k + m と表されます。基本的な考え方は、k ブロックの元のデータ要素を特定の符号化計算を通じて計算し、m 個のブロック チェック要素を取得することです。これらの k+m ブロック要素については、m ブロック要素のいずれかが失敗した場合 (データおよび検証エラーを含む)、対応する再構成アルゴリズムを通じて元の k ブロック データを復元できます。

ブロックストレージ設計におけるECイレイジャーコーディングの課題

図:EC消失コードデータの分割と計算の概略図

上記のシナリオでは、K = 4 および M = 2 を例として、アプリケーション データが 4 つのシャードに分割され、次に 2 つのパリティ ストリップ シャードが計算され、データ分散アルゴリズムに従って 6 つのシャードがダウンロードされます。ストレージには 6 ノード。マルチコピー戦略は顧客にとって一般的に使用されるデータ冗長戦略であるため、EC イレイジャー コーディングと 3 つのコピーの読み取りおよび書き込みプロセス、および障害シナリオのプロセスに関する関連分析を行いました。 次の表から、次のように結論付けることができます。この場合、通常の書き込みプロセスを完了するには 7 IO が必要ですが、同時に障害シナリオでの読み取りと書き込みには 7 IO が必要となり、読み取りと書き込みのペナルティが大きくなります。また、小ブロックIOの読み書き処理では、データブロックがECスライスのデータサイズより小さい場合、無駄な領域が発生します。

データ冗長性戦略

シナリオの読み取りと書き込み

読み取りおよび書き込み IO 時間の消費

EC (4+2)

通常の読み取り

1_ _

普通に書く

4 つの読み取り IO、3 つの書き込み IO

障害が発生したディスクに含まれる読み取り数

5 つの読み取り IO

障害が発生したディスクにある書き込み

5読み取り IO + 2 書き込み IO

3部

通常の読み取り

1_ _

普通に書く

3 _

障害が発生したディスクに含まれる読み取り数

2_ _

障害が発生したディスクにある書き込み

1_ _

ハイパーコンバージド アプリケーション シナリオでは、ユーザーはブロック ストレージを使用してアプリケーション データを処理することが多く、これは仮想化、クラウド プラットフォーム、データベースなどのシナリオに適しています。このシナリオでは、小さなブロックのランダムな読み取りおよび書き込みの負荷が大量に生成されますが、同時に、ユーザーには 5 ミリ秒以内に制御する必要がある遅延に対する高い要件があり、障害シナリオではビジネスへの影響はほとんどありません。これらの要件は EC イレイジャー コーディングの欠点です。

新世代 G7 プラットフォーム上の Inspur Yunhai ハイパーフュージョンの EC デザイン

EC には明らかな長所と短所があるため、ハイパーコンバージド ブロック ストレージ上で EC 機能を使用する方法が今日急務となっており、Inspur Yunhai Hyper-Convergence は新世代 G7 プラットフォーム上で独自のソリューション設計を行っています。


図:EC消去コードの設計スキーム

プログラムのハイライトは次のとおりです。

  • データ階層管理:データストレージはキャッシュ層とデータ層に分かれており、キャッシュ層には高性能NVMeとSATA SSDストレージを採用し、同時にキャッシュ層にはマルチコピー設計を採用し、高いパフォーマンスを実現しています。 - パフォーマンス データ ストレージ機能。データ層は EC ストレージを提供し、主に HDD ハードディスクによって保存され、大容量のストレージスペースを提供します。
  • インテリジェントなキャッシュ管理: ホット データとコールド データを効率的に識別するために、ホットおよびコールドの階層型インテリジェント キャッシュ管理を設計すると同時に、顧客のホット データが確実にキャッシュ スペースに保存されるようにグローバル キャッシュ管理機能を設計します。
  • データスペースの効率的なストレージ: キャッシュ層のコピーストレージにより、上位層アプリケーションの小さなブロックIOが集約され、データがコールドデータになってECストレージ層にフラッシュされると、フラッシュはデータアライメントを使用して、読み取りと書き込みにより、EC データ層で効率的なデータ ストレージを実行できます。
  • ECアクセラレーション コンピューティング: 設計は複数の EC アクセラレーション エンジンをサポートし、さまざまなプラットフォームでの EC アクセラレーション コンピューティングをサポートしており、その中でも ISA-L EC アクセラレーション ライブラリは Intel プラットフォームで使用され、Intel CPU の EC コンピューティング機能を最大限に発揮します。

ソリューションの効果を検証するには、ISA-L アクセラレーション コンピューティングのパフォーマンス テストと、CPU アクセラレーション コンピューティングを使用しない Jerasure 純粋なソフトウェアを使用したパフォーマンス テストを比較します。下図のテストデータは、金融や医療などの業界で一般的に使用されているデータベースアプリケーションを採用しており、1Gのテストデータを使用し、トリガーデータフラッシュシナリオでは、ECアルゴリズムを使用してリードソロモンアルゴリズムとコーシーアルゴリズムを選択してテストします。 EC消去シナリオ。実験データから判明したこと:


図: さまざまな K/M モデル ISA-L と Jerasure の EC コンピューティング帯域幅の比較

  • ISA-Lのさまざまな K/M モデルでは、EC 計算帯域幅のパフォーマンスは比較的安定していますが、ソフトウェア計算では計算量が増加するにつれて直線的な下降傾向を示します。
  • 新世代 G7 プラットフォーム上のISA-Lのスループット レートは 9.8 GB/秒で、これはソフトウェア コンピューティングの 5.7 倍です。

概要:マルチコピー戦略と比較して、 ECイレイジャー コーディングはストレージ使用率を向上させることができます。たとえば、4 + 2 シナリオの使用率は 66% ですが、3 コピーではわずか 33%、8 + 2 では 80% を達成できます。ただし、複数のコピーと比較すると、EC 消去の計算、データ検証、読み取りおよび書き込みペナルティ、その他の問題に関しては、最適化の余地がまだ多くあります。InCloud dSAN 分散ストレージ ソフトウェアは、新世代 G7 プラットフォームに基づいており、新しいハードウェア (Intel 新世代 Xeon CPU) と ISA-L ソフトウェア アクセラレーション ライブラリを利用して新しい EC 機能を設計し、独自のデータ レイヤ化、インテリジェントなキャッシュ管理、およびソフトウェア ソリューションを採用しています。ハード コラボレーションなどにより、データの冗長性とストレージ スペースの使用率に関する現在広まっている問題が解決されます。

おすすめ

転載: blog.csdn.net/annawanglhong/article/details/132798630