速度リミッターの最適化に関する ByteDance の実用的な調査

レートリミッタは非常に基本的なネットワークパケット処理機能であり、さまざまなネットワーク要素デバイスで広く使用されており、トラフィックスケジューリング、ネットワークセキュリティ、およびその他の分野で重要な役割を果たしています。一般的な速度リミッターは、トークンバケットに基づいて実装されます. トークンバケットの原理はよく知られていますが、実際にはいくつかの課題と共通の問題も発見されています. この記事では、過去 2 年間の速度リミッターの最適化における Bytedance システムおよびテクノロジーエンジニアリングチーム (STE チームと呼ばれる) のいくつかの調査を要約し、読者向けのいくつかの経験と教訓をまとめています。

Token Bucket Rate Limiter の基本原則

ネットワークパケット処理を作成するすべてのエンジニアは、基本的なトークンバケット速度リミッタを作成したことがあると思います。トークンバケットはわかりやすい説明です.一定量のトークンを保持できるバケットがあることが想像できます.データパケットがリリースされるたびに,一定量のトークンが消費されます.データパケットがリリースされるかどうかは、トークンバケットに依存しません。内のトークンの数。

図 1 トークンバケットの図

たとえば、トークンバケットの制限が PPS (1 秒あたりのパケット数) である場合、トークンがデータパケットを表すと想定します。次に、PPS を 300K/s に制限する速度リミッターは、毎秒 300K のトークンを生成します。このレートリミッタを通過するデータパケットはすべてトークンを消費し、トークンが消費されて 0 になると、パケットは破棄されます。

\(P_t \)が到着時間が\(t\)であるパケットを表し、トークンバケット上のデータパケットの通過時間が \(t' \)であると仮定すると、この期間中にトークンバケットが生成されます。トークンの数は次のとおりです。

\((t - t') * レート\)

トークンバケット内の残りのトークンバケットの数は\(T \)であり、 \(P_t \)が到着すると、トークンバケット内のトークンは次のようになります。

\((t - t') * 率 + T\)

トークンバケットには容量があり、トークンバケットの容量を\(バースト\)とすると、上記の式の値がトークンバケットの容量を超える可能性があり、上記で計算された値がこの制限を超える場合、トークンの数は\ (バースト \)に等しい。

このとき、データパケット \(P_t\) を通過させる必要があるため、1 トークンを消費する必要があるため、トークンバケットのタイムスタンプを \(t' \)に更新し、それに応じてトークンバケット内のトークンの数を更新します。上の計算に。生成されたトークンの数が消費を超えることが計算によって判明した場合、データパケットは解放されますが、そうでない場合、データパケットは破棄される必要があります。

一部の人々は、トークンバケットの容量が制限されている理由、および最大容量が \(Burst\)と名付けられている理由を疑問に思うかもしれません。これは実際には、トークンバケットが特定の時間枠でレートが制限値を超えることを実際に許可しているためです。例として 300Kpps 速度リミッターを取り上げます。 \(Burst\) が 300K に等しく、現在のトークンバケットがいっぱいであると仮定すると、この時点で、300K パケットが 100 ミリ秒以内に到達したとしても、トークンバケットはすべてのデータパケットを解放します (トークンバケット内のトークンの数が十分であるため)、この 100 ミリ秒内で、実際の速度は 300Kpps ではなく 3Mpps です。名前が示すように、実際にはトークンバケットの容量によって、許容されるバーストレートが制限されます。

実際には、トークンバケットは実装が簡単で効率が高いという特徴があり、多くのシナリオでは、速度リミッターは基本的にトークンバケットと同義です。

既存の問題

特定のプロジェクト期間中に、次の 3 つの問題が発生しました。

1. 精度の問題

実際のエンジニアリングでは、時間測定単位は実際にはシステムによって制限されています. たとえば、タイムスタンプはマイクロ秒 (us) で、各計算間の時間差はわずか 1 ~ 2us です. 次に、PPS=300K の速度リミッターが一度に計算され、生成されるトークンは 0.3 であり、整数演算では簡単に無視されます。最終的な結果は、実際の制限は 300K/秒であり、最終的な効果は 250Kpps のトラフィックのみが許可されるということです。精度が低すぎて、効果が理想的ではありません。

このソリューションも比較的単純で、データパケットによって消費されるトークンの量は 1 ではなく 1000 になる可能性があります。このように、1us であっても、トークンバケットによって生成されるトークンの数は 0.3 ではなく 300 であり、精度が保証されます。しかし、このとき、トークンの数が 1000 倍に増えたため、新しい問題が発生し、トークンバケットの深さが 32 ビットをオーバーフローするかどうかを考慮する必要があります。オーバーフローすると、他の奇妙な問題が発生します。

2. カスケード補償問題

図 2 速度リミッタのカスケード補償

複数の速度リミッターがカスケードされている場合、補償トークンが必要であることが実際にわかっています。たとえば、速度リミッター A の場合、このパケットは解放され、A のトークンを消費します。レートリミッタ B の場合、B にトークンがないため、このパケットは破棄されます。この時点で、パケットは失われます。すると、この時点で A のトークンは無駄に消費されます。つまり、トークンが消費され、パケットは失われます。正確な速度制限効果を得るには、速度リミッター A のトークンを補正する必要があります。図 2 に示すように。

カスケード補償は、複数の速度リミッターを相互に結合させ、コードの記述がより面倒になります。速度リミッター A と速度リミッター B の速度制限値が近く、両方にパケット損失がある場合、カスケード補償の欠如が精度に深刻な影響を与えることが実際にわかりました。ただし、速度制限値が離れている場合、精度への影響はそれほど大きくありません。

3. TCP はパケット損失の影響を受けやすい

トークンバケットにキャッシュがないため、レートが制限値を超えると、パケットロスが発生します。TCP プロトコルはパケット損失に非常に敏感で、パケット損失が発生すると、TCP はより積極的にレートを調整します。トークンバケットの機能により、TCP トラフィックに適用されると 100Mbps に制限されることがよくあります.実際には、一定のパケット損失により TCP が送信ウィンドウを継続的に縮小するため、最大で 80Mbps までしか実行できません.

vSwitch を使用する場合、一般的な仮想ネットワークカードでは TSO (TCP Segmentation Offload) の最適化が有効になっているため、BPS (Bits Per Second) のレート制限が TCP で特に大きく失われます。ホストパケットは非常に大きく、1 つのパケットは 64K バイトになる場合があります.このような大きなケースでは、意図的にいくつかのパケットを失うと、TCP レートへの影響が非常に明白になります.

最初の改善: ポートレンディングバックプレッシャースピードリミッター

実際には、カスケード補償フィードバックの問題は存在しますが、それほど顕著ではないことがわかりました.その理由は、一般的なカスケード速度リミッターの速度制限値が非常に異なるためです.たとえば、単一のネットワークカードの速度と機械全体の速度には一般的に大きなギャップがあり、精度の問題が発生するのは簡単ではありません。最も深刻な問題は、TCP パケット損失の影響を受けやすいため、レート制限された帯域幅に到達できず、ユーザーエクスペリエンスに影響することです。図 3 に示すように、TCP RTT の増加に伴い、実際に達成可能な帯域幅は明らかに減少します。

図 3 トラフィックが 1Gbps レートリミッタを通過した後、実際に取得されるレート

バックプレッシャは、TCP がパケット損失に敏感であるという問題の改善です。最初にデザインしたときは、実は特定のシーンを狙っていました。仮想マシンの仮想ネットワークカードの速度が制限されています。また、私たちのレートリミッターは、たまたま、各ネットワークカードに特定のレートリミッターがあることです。

各仮想ネットワークカードには複数のキューがあり、vSwitch はこれらのキューを継続的にポーリングして、送信するデータパケットを取得します。これらのキューは、基本的にパケットのバッファです。実際、バックプレッシャーは、これらのキューのポーリングを停止または遅延させ、データパケットをキューに蓄積させ、ゲストカーネルにプレッシャーをフィードバックするという目的を達成することです。これにより、ゲストカーネルの TCP スタックが輻輳を感知して送信リズムを調整します。

図4 背圧速度リミッタ

背圧速度リミッターを設計したとき、最終的な実装に影響を与える制限がありました。

仮想マシンの仮想ネットワークカードは Peek 機能を提供しません。つまり、vSwitch はデータパケットを Peek するだけで、実際にデータパケットをキューから取り出しません。この制限により、「借りる」という考え方が採用されました。両方ともポーリングを開始する許可時点を設定します. 現在の時間が許可時点を超えると, トークンが十分かどうかに関係なく, キュー内のすべてのデータパケットが一度に送信されます.問題ありませんが、トークンが十分でない場合は、将来からトークンを借用することを検討し、逆に将来のタイムスタンプを計算すると、このタイムスタンプの前に、vSwitch は仮想ネットワークカードのポーリングを停止します。

ローン方式は、仮想マシンキューからデータパケットをコピーすることを避けるために、最初はパフォーマンスを考慮してのみ提案されましたが、トークンが十分ではなく、破棄する必要があることがわかりました。捨てたくないので、単純にトークンを未来に送ります。

この設計を今振り返ってみると、Peek と比較して、実際には長所と短所があります。

1) 毎回借りられるトークンの量は制御不能です。これは、公平性の問題につながる可能性があります。エレファントストリームはローン資格を取得し続けますが、小さなストリームは餓死する傾向があります. スピードリミッターの競争では、一方が有利になると、支配的な当事者が有利になり続けます.

2) ピークよりもオーバーヘッドが少ない単純なタイムスタンプ比較。データパケットを覗くことができれば、ローンメカニズムはなく、ポーリングを停止する可能性はありません. 代わりに、仮想キューに移動して毎回チェックしますが、オーバーヘッドは少し高くなります.

3) 逆に、ピーク機能がある場合は、最初にキュー内のデータパケットのバックログを確認し、キューが一定量のデータパケットを蓄積するのを待ってから、次のバッチを送信するためのタイムスタンプを計算することもできます。 data packet. ポーリングを停止します。これは、バッチを増やしてパフォーマンスを向上させるのに適しています。

バックプレッシャレートリミッタは仮想マシンのネットワークカードキューをバックプレッシャするため、仮想マシンの送信データパケットのみを制限できますが、仮想マシンの受信方向のトラフィックを制限することはできません。これは、物理ネットワークカードのデータパケットをバックプレッシャできないためです. 物理ネットワークカードのデータパケットは、異なる仮想ネットワークカードに送信される可能性があります. 各ネットワークカードの速度制限値は異なります. 正確な速度を計算することはできません時点. 時点より前にパケットをポーリングする必要はありません。さらに、物理ネットワークカードのキューがいっぱいになると、パケットのみが失われ、仮想マシンネットワークカードのキューがいっぱいになると、TCP プロトコルスタックにバックプレッシャがかかる可能性があり、両者の影響は異なります。

したがって、インバウンドトラフィックの制限に関しては、タイムスタンプを許可するという考えを継続します。現在の時間が許容時間を超えた場合はすべてのパケットが解放され、そうでない場合はすべてのパケットが破棄されます。

2 番目の改善: カルーセル速度リミッター

Carousel speed limiter は、Google が SIGCOMM 17' に関する論文で提案した速度制限アルゴリズム [2] です. 実際、この考え方も非常に単純で、データパケットごとに送信されたタイムスタンプを計算するというものです. 現在のタイムスタンプがタイムスタンプが発行されると、タイムラウンドでキャッシュされます。つまり、パケット損失の代わりに、データパケットが遅延されて送信されます。

図 5 カルーセル速度リミッター

このアルゴリズムの基本原理に基づいて、OVS-DPDK に同様の速度リミッターを実装しました.アルゴリズムのパラメーターを決定するプロセスには多くの詳細があります.たとえば、ポーリングの時間粒度は 1us ですか、10us ですか? 実際に使用されているスピードリミッターの速度域は？300Kppsですか、それとも3Mppsですか？これらはアルゴリズムのパラメータ設定を直接決定し、多くの詳細については説明しません。

Carousel の最大の利点の 1 つは、キャッシュの導入です。タイムホイールの本質はキャッシュであり、TCP トラフィックに明らかな利点がありますが、同時に、タイムホイールは仮想マシンのインバウンドトラフィックをバックプレッシャできないという問題も解決し、すべてのトラフィックを統合することができます。ワンタイムホイール。3 番目の利点は、少し予想外かもしれませんが、データパケットが失われるのではなく遅延するため、カスケード補償の必要性がある程度なくなることです。パケット損失がない場合、カスケード補償は必要ありません。

以下の図は、iperf ツールを使用して仮想マシンのインおよびアウト方向を 100 秒間テストし、10Gbps の速度制限の下で古いバックプレッシャースピードリミッターと新しいカルーセルスピードリミッターを使用した場合の比較効果を示しています。

横軸は時間 (秒)、縦軸はスループット (Gbps) です。つまり、1 秒あたりの iperf によって報告される現在のスループットパフォーマンスです。受信トラフィックが 500Mbps 増加したことがわかります。10Gbpsにかなり近い。

アウトバウンドスループットパフォーマンスでは、カルーセル速度リミッターがより安定していることがわかります。

これらの改善の原因は、TCP トラフィックに対するキャッシュの平滑化効果にあります。

今後の改善点とまとめ

1.さらなる改善

貸与機構の背圧速度制限に基づき、速度制限値が大きい場合、貸与による過送信データパケットが全体の速度制限ジッターに与える影響は限定的です。たとえば、速度制限が 1G の場合、特定の瞬間に少数のパケットがオーバー送信された場合、速度制限のジッタへの影響は比較的小さくなります。ただし、速度制限値が小さい場合 (5Mbps など)、複数のデータパケットをオーバー送信した場合の影響は比較的大きくなります。このとき、仮想マシンのポートのポーリングをタイムスタンプで制御することで ON-OFF 効果が生まれ、仮想マシンから見るとアウトバウンドトラフィックのパス上にゲートが開いているように見えます。しばらくして、しばらく閉じます。

ただし、これは仮想マシンの送信側から見たものに過ぎず、受信側のタイムホイールの調整により、レートは比較的安定します。送信側で比較的安定したエクスペリエンスを実現するには、バックプレッシャの効果を改善して、過剰送信の可能性を減らす必要があります。

また、ポート粒度に基づく速度制限は、制御ポートをポーリングすることで実現できますが、ポートよりも粒度が小さい速度制限については、バックプレッシャーを実現することは容易ではありません。よりきめの細かいバックプレッシャーを実現するために、Google は virtio の機能を使用して、カルーセル上で OOO 完了 (アウトオブオーダー完了) をサポートし、PicNIC の論文 [3] でよりきめの細かいバックプレッシャーを実現しました。最適化されたスピードリミッターはアイデアを提供します。

2.アクティブな速度制限（ECNまたはTCPウィンドウオプションの変更に基づく）

vSwitch で TCP ウィンドウを追跡および変更し、小さなウィンドウをネゴシエートして、より安定した TCP スループットを得ることができます。同時に、仮想マシンの内部に直接的または間接的にフィードバックされるか、vSwitch のポーリング頻度に影響を与える vSwitch で ECN マークも感知できます。

3. ロック機構の改良

上記の速度リミッターの改善はすべてネットワークを対象としています. システムにマルチコアが存在するため, 速度リミッターの粒度は多くの場合スレッドにまたがります. ロックフリーの速度リミッターを設計する方法も検討する価値のある方向性です. .

4. まとめ

現在のアルゴリズムが実際のシーンにますます関連するようになっていることは、速度リミッターの改善履歴からもわかります。アルゴリズムはもはや単なる独立したコンポーネントではなく、実際のオペレーティングシステムや製品機能とますます密接に結びついています。

参考文献

[1] eBPF でのトラフィックポリシング: トークンバケットアルゴリズムの適用

[2] カルーセル: エンドホストでのスケーラブルなトラフィックシェーピング、SIGCOMM 2017。

[3] PicNIC: 予測可能な仮想化 NIC、SIGCOMM 2019

速度リミッターの最適化に関する ByteDance の実用的な調査

おすすめ