マルコーニ(マルコーニ)ファインフローコントロールソリューションの続きノア(ノア)流体適応成熟した過負荷保護システム用の高度に利用可能なシステムリソースの安定性に関する豊富な経験、さらにトラフィックの進化のファインコントロール。洗練されたトラフィック制御方法により、価値の高いサービスリクエストが保証され、サービス提供のビジネス価値が向上します。
この記事では、背景の問題、実際の戦闘効果、デザインのアイデアと解決策の3つの側面から紹介します。マルコーニは、2020年にタオ部門のコアビジネスプラットフォーム(タオバオ、Tmallなど)(ホームページ、会場、ライブ放送など)を確保します。インタラクション、My Taobaoなど)、マルチアーキテクチャレベル(アクセスゲートウェイからビジネスアプリケーションクラスター/コンテナーまで)は、ビジネストラフィックを制御し、サービスビジネスの結果を改善して、ユーザーにスムーズなエクスペリエンスを提供します。Taobao(およびAlibaba Groupの詳細BU)シャーシの安定性は、アプリケーションの安定性保証のコア機能になり、大規模な分散型オンラインビジネスシステムの高可用性/安定性保証における業界の進歩を促進しています。今年のダブル11レコードの保証を提供してください!
バックグラウンド
総取引量は4,982億元に達し、受注のピークは毎秒583,000件でしたが、今年はダブル11が新記録を樹立しました!これは、アリババのアモイ部門の技術部門と切り離せないものです。新しいシナリオや新しいアーキテクチャで困難な問題を革新し、克服し続けるアモイの技術者は、ビジネスの革新を保証するトラフィック制御ソリューションなしでは実現できません。
Amoyビジネスシステムの進化に伴い、ライブブロードキャスト、権利と利益、大規模なプロモーション会場、インタラクション、チャットメッセージ、ショッピングガイド(募集と選択)、ホームページなど、パブリック機能を備えた多数のビジネスプラットフォーム(プラットフォームベースのアプリケーション)が寄託されています。その上にある多数のビジネスシナリオまたはトラフィックソース(さまざまなアプリ、起動など)は、水平プラットフォーム+垂直ビジネスアーキテクチャモデルを形成します。各ビジネスプラットフォームは、大規模なビジネストラフィックをサポートする必要があります(ピーク値は数十万QPS、さらには数百万QPSになります)。
ビジネスプラットフォームモデルは、ビジネス機能の繰り返し構築によって引き起こされる配信効率の低下の問題の解決、沈殿の促進とイノベーションの促進、エンドユーザーに一貫したエクスペリエンスの提供など、多くの問題を解決します。同時に、それはまた新しい問題/魅力をもたらします:
ビジネス価値のための洗練されたビジネスフロー制御(現在の制限/サービス分類/分離など)
ビジネスプラットフォーム上の自作ゲートウェイのシステム安定性とコストの問題
バーストおよび大規模なトラフィックに対する安定性の保証
これらの問題には、ビジネス価値のためにビジネストラフィックのきめ細かい管理と制御を実装するための一連のパブリックソリューションが必要です。これらの問題/アピールについて以下に説明します。
▐ビジネス価値のための洗練された ビジネスフロー制御
プラットフォームベースのアプリケーションのビジネスシナリオは複雑で、多くのサービスを提供し、多くのトラフィックソースチャネルがあります。さまざまなシナリオやチャネルのトラフィックによってもたらされるビジネス効果とメリットには大きな違いがあり、ビジネス価値の高度な管理と制御が必要になります。
たとえば、長年にわたる11.11の大規模なプロモーションからいくつかの一般的なシナリオを抽象化しました。
ビジネスプラットフォームのさまざまなサービスには、コアサービスと非コアサービスの高度な制御が必要です
-
これは、電流制限などのさまざまなサービスで、誰もが頻繁に遭遇するシーンでもあります。しかし、リソースを事前に静的に分割するのではなく(固定の電流制限値を使用するなど)、リソースが完全に使用されたときに電流をさらに制限して、非コアサービスのトラフィックが少なく、占有されているリソースが少ないときにコアサービスにつながることはできますか?リソースを十分に活用できないと、コアビジネスが失われます。
コアサービスが可能な限り最高のサービスを提供できることが期待されます。つまり、フロー制御が発生した場合、非コアサービスのフローを完全に制限し、リソースをコアサービスで完全に使用する必要があります。
ビジネスプラットフォームトラフィックのソースチャネルが異なれば、ビジネスにとっての価値も異なります。統合されたフロー制御操作では、ビジネス価値を最大化できません。
-
価値の低いチャネルのフローが大きすぎると、統合されたフロー制御によって価値の高いチャネルのフローが絞り出され、価値の高いチャネルのフローが破棄される可能性があります。
同じソースチャネルからの同じサービスにも、洗練された管理と制御が必要です。たとえば、クライアントにビジネスデータキャッシュがあり、ビジネスデータキャッシュがない場合:
-
ビジネスデータキャッシュを使用するシナリオでは、ユーザーエクスペリエンスとビジネス効果をより適切に保証できます。一方、クライアントにビジネスデータキャッシュがないシナリオでは、フロー制御を実行すると、ユーザーエクスペリエンスが低下し、ビジネス効果に影響します。
言い換えれば、これらのビジネスシナリオのトラフィックにはビジネス価値の違いがあります。
ビジネスプラットフォームは、これらの差別化されたビジネス価値要求フローの洗練された管理と制御を実行し、ビジネスの効果と利益をさらに改善するために、現在の制限/サービス分類/分離戦略を入念に策定する必要があります。
▐ ビジネスプラットフォームの自作ゲートウェイシステムの安定性とコスト
ビジネスプラットフォームは、その上で多くの垂直ビジネスシナリオをサポートします。さまざまなビジネスシナリオは、相互間の問題の影響(クラスターリソースの過負荷、需要プロセスの影響、開発およびテストリリースの効率など)を分離することを期待し、プラットフォームベースのアプリケーションは上位レベルのサービスの分離されたテナントに進化します。建築。テナント分離でのトラフィックスケジューリングの場合、ビジネスプラットフォームは独自のビジネスゲートウェイを構築します。
これらのビジネスプラットフォームの「自己構築」ゲートウェイには、次の問題があります。
システムの安定性:
-
ビジネスプラットフォームの場合、ビジネスゲートウェイと分離スケジューリングはビジネス以外の機能要件であり、検討の焦点ではなく、大きな投資はなく、ゲートウェイ自体の複雑さもありません。
ビジネスプラットフォームの自作ゲートウェイは、ビジネスプラットフォームの安定性のリスクになることが多く、さまざまなビジネスプラットフォームのこれらの自作ゲートウェイに問題があることは珍しくありません。
開発、運用、保守のコスト:
-
同じ分離スケジューリング機能の場合、複数のビジネスプラットフォームが実装および保守するためのソリューションが複製されます。
各ビジネスプラットフォームは、独自のゲートウェイを開発および維持するためのコストを支払う必要があります。
ビジネスは孤立することを望んでいますが、自作のゲートウェイは、システムの安定性に隠れた危険をもたらし、複数の開発、運用、および保守のコストをもたらします。統合されたフロントゲートウェイが分離の問題を水平方向に解決できることが期待されています。
▐突然の大規模なトラフィックに対する安定 性の保証
ライブブロードキャスト、大規模なプロモーション会場、ホームページ、その他のビジネスプラットフォームなどのビジネスプラットフォームには、数十万のQPS、さらには数百万のビジネスQPSがあり、数倍または数十倍のトラフィックがバーストする可能性があります。このような突然のトラフィックからの防御は難しい問題です。統合アクセスゲートウェイは、安定したダム(数千万のQPS容量)を構築し、専門の基本サービスチームによってサポートされています。アクセス層の現在の制限は、このような突然のトラフィックに効果的に対処できます。
ダブル11高可用性戦闘
上記の問題に対応して、Marconiのビジネス価値のための洗練されたトラフィック制御ソリューションは、対応する機能を提供します。統合アクセスゲートウェイの洗練されたプリフロー制御機能から、ルーティング分離機能からアプリケーションコンテナのサービスごとまで。サービス優先度は、サービス分類およびフロー制御機能を実行して、プラットフォームとビジネスシステムを包括的に保護します。
今年のDouble11では、上記のプラットフォームベースのアプリケーションが過去に多くの問題を解決しただけでなく、各システムがスムーズに動作し、ユーザーエクスペリエンスがスムーズで、期待される効果が達成されました。同時に、一般的なソリューションとして、ビジネスシナリオを緊密に統合する革新的な使用法も数多くあります。 。
トラフィック分散シナリオでは、(ファインリストリクター)のユーザーエクスペリエンスとビジネス価値の保護を最大化するために、ファインフロー制御部門としてロールバック要求のキャッシュがあります。
ビジネスの優先順位に従って階層フロー制御を使用してビジネスを行うさまざまなプラットフォーム/サービスで、サービスのトラフィック制御(適応サービス分類)を分類するための柔軟なパーティション分割方法へのサービス
-
ライブブロードキャスト、インタラクション、私のタオバオ、ゴールドマイニングコインなどは、ユーザーエクスペリエンスとビジネス価値をさらに高めます
その中で、Taoはコアサービスクラスターであり、高圧シナリオでの成功率は2.5%増加します(単一コンテナーの最大増加は17.8%です)。
高作動ホールのシーンでは、ルーティング分離を行う事業部門に応じて、事業の安定性を保護し、サービスアクセスの効率を高めます(洗練されたルート)
-
フロントゲートウェイの洗練されたルーティング分離機能により、クラスターは、さまざまなビジネス会場を個別にサポートするグループに分離されます。
グループ化により、各ビジネスパーティが独自にトラフィックとリソースを運用および維持できるため、会議サイトのビジネスアクセスの効率が50%向上します。
会議会場の大規模なプロモーションでは、プラットフォームがトラフィック部門としてページグループのメイン会場になり、フロー制御を行います(ファインリストリクター)
-
会場内には多くの交通源があり、排水源ページグループの交通が管理されているため、タオバオの主要な供給源の利用可能なリソースが圧迫されたり、予期しない交通制限が発生したりすることはありません。
特定のチャネルソースは、他のソースよりもトラフィックトランザクションの変換が多いため、システムの全体的な安定性と、変換率の高い会場ページ要求の可用性が保証されます。
さらに、会場で使用されている現在の制限機能は、統合アクセスゲートウェイに直接接続されています。今年、安定性の保証に投資された人員は、昨年と比較して100人以上の人日を節約します。
ソリューション実際の戦闘では、各プラットフォーム/ビジネスは、次のような独自の要件に従って、すべての機能またはいくつかの機能の組み合わせを使用できます。
トラフィックソース/リクエストタイプに基づく事前に洗練された現在の制限
ゲートウェイ層の電流制限+ルーティング機能、およびコンテナ層の適応フロー制御を使用します
複数のAPPソースは、ゲートウェイレイヤーでのプリカレント制限、コンテナレイヤーでの適応電流制限+サービス階層フロー制御を使用します
デザインのアイデア
上記の問題を解決できるようにするための全体的なアイデアは、一連の共通機能を確立し、ビジネスに適合させることです。プラットフォームとビジネスがそれぞれの特性に応じてビジネスフィールドの次元でトラフィックを柔軟に編成および制御できるようにし、最終的にシステムの安定性、ビジネス効果と収益の向上、およびスムーズなユーザーエクスペリエンスの目標を達成します。
ここでは、3つの基本的な概念を紹介します。
ビジネスアイデンティティ
粒度を制御する
制御能力
基本サービスは、サービスプラットフォーム要求で実行されるサービス識別子を介して、サービスプラットフォーム上の任意の粒度のサービス要求トラフィックを制御するためのきめ細かい制御粒度を提供します。
▐ビジネス ロゴ
サービスの識別はリクエスト/トラフィックの属性です。ビジネスプラットフォームがトラフィックをどのように分割するかという観点から、通常はいくつかのタイプが関係します。
ソースID。または、発信者IDおよびユーザーIDと呼ばれ、ビジネスリクエストのさまざまなソースを区別するために使用されます。たとえば、大きなプロモーション会場のページロゴ。
ビジネスプラットフォームの識別。これはビジネスプラットフォームのタイプであり、ビジネスリクエストを処理するさまざまなビジネスプラットフォームを区別するために使用されます。たとえば、大きなプロモーション会場、モバイルホームページ、ライブ放送などです。
事業運営属性の識別。たとえば、携帯電話のタオバオホームページのリクエストタイプ。
ビジネスアイデンティティ自体はすでに存在し、各ビジネスには独自のビジネスアイデンティティ構造があります。ここでは、リクエストのさまざまなサービスIDが一貫性のある柔軟な方法で分析および抽出されるため、サービスIDのスマートな組み合わせに従って、リクエストトラフィックを任意にカスタマイズできます。
▐ 粒度を制御する
ビジネスIDを使用すると、ビジネスプラットフォームは、ビジネスIDを介して制御の粒度を構成および定義できます。制御粒度は、要求トラフィック分割ユニットのグループであり、このユニットに対して微調整が実行されます。
コントロールの粒度には、式コンポーネントと、ビジネスセマンティクスを備えた一連の構成情報が含まれます。各ビジネスプラットフォームの下で、他のプラットフォームから独立し、独自のビジネスに密接に関連する制御の粒度を定義できます。ゲートウェイアクセスレベルでは、大量の要求トラフィックの場合、トラフィックが識別され、トラフィックが属する制御粒度範囲の1つまたはグループが確認されます。
ビジネスの識別と制御の細かさの導入は、現在の制限にAPI名とパラメーターを使用する従来のAPIゲートウェイよりもビジネスに適しており、さまざまなビジネス要求を満たすようにカスタマイズできます。
▐制御 能力
制御の細かさとそれによって分割された洗練されたトラフィックを使用して、必要な制御機能のセットを制御の細かさ(洗練されたトラフィック)にマウントして、次のようなビジネスに必要な細かな制御要件を完了することができます。
携帯電話のタオバオホームページは、リクエストの種類に応じて、洗練されたゲートウェイの電流制限を実行します。
大きなプロモーション会場は、サイトページのロゴに従って洗練されたゲートウェイの現在の制限を実行します。
大規模なプロモーション会議会場などのプラットフォームベースのサービスは、アクセスされたサービスに従ってトラフィックのルーティングとスケジューリングを実行します。
ライブブロードキャスト、インタラクション、ゴールドコイン、My Taobaoなどのサービスは、ビジネスのカスタマイズの優先順位に従って階層的にフロー制御する必要があります。
解決
プラットフォームベースのビジネス問題と問題解決のための以前の設計アイデアを組み合わせて、マルコーニは洗練されたトラフィック制御ソリューションのセットを提供します。
従来のAPI名やパラメータを使用して、部分的なテクノロジーの観点からフロー制御とルーティングを行うのではなく、さまざまなプラットフォームに対応するために、ビジネスに合わせて柔軟に調整できる管理と制御の粒度を使用して、細かいフロー制御、ルーティングの分離、サービス分類を行います。ビジネスの個別のトラフィック制御要件。
マルチアーキテクチャレベル(アクセスゲートウェイからビジネスアプリケーションクラスター/コンテナーまで)は、ビジネストラフィックを制御し、ビジネスサービスの効果を向上させます。
▐全体的な アーキテクチャ
マルコーニの洗練されたフロー制御ソリューション
サービスの識別はリクエスト/トラフィックの属性であり、各リクエストは識別に応じて管理するために異なる制御粒度に分割できます。洗練されたトラフィックを制御の細かさで分割した後、制御の細かさIDをコンテキストとして使用して、必要な制御機能のセットを直列に接続できます。
ゲートウェイフロントフロー制御機能(より洗練された制御粒度):
-
ビジネスバリュー指向の細かいビジネスフロー制御と突然の大フローに対する安定性保証の問題を解決します。
ゲートウェイルーティング分離機能(リソースの物理クラスター分離):
-
システムの安定性と、ビジネス価値のための洗練されたビジネスフロー制御のコストとビジネスプラットフォームの自己構築ゲートウェイの問題を解決します。
コンテナ適応フロー制御機能(コンテナ粒度の負荷調整機能):
-
トラフィックの変更、ビジネスロジックの反復、および手動の評価プロセスにおけるさまざまな不確実性によって引き起こされる問題/障害を解決します。
コンテナサービス分類機能(コンテナ内のサービス粒度の適応分離):
-
ビジネスバリュー指向の細かいビジネスフロー制御と突然の大フローに対する安定性保証の問題を解決します。
最終的に、ビジネスリクエストトラフィックの洗練された管理と制御に対する要求が実現され、ビジネスサービスの高品質な出力という目標が達成されます。
現在の制限と分離は、アクセスレイヤーゲートウェイを介して前処理されます。これにより、背後にあるビジネスシステムを、より洗練された効率的かつ強力な方法で保護できます。
ゲートウェイのプリフロー制御機能は、サービスフローがしきい値を超えた後すぐに失敗し、タイムアウトが失敗する前に、要求がゴーストのようにシステムリンクをさまようのを防ぎます。
ゲートウェイは、ダムのように、単一のビジネスシステムの要求処理能力の数千倍に相当する非常に高いトラフィックの影響をもたらすことがよくあります。
▐サービス 分類
Noahの適応フロー制御は、システムのメインCPUリソースを対象としており、適応システム負荷調整用のフィードバック制御アルゴリズムに基づいています。昨年はさまざまな大規模なプロモーションテストを経て、非常に成熟しています。また、今年は、機能を精力的に調査し、ビジネスサービスレベルの差別化された階層フロー制御(適応分離)を作成しました。これにより、システムの安定性を確保しながら、大量のトラフィックに直面したときにビジネスシステムが最大のサービス効果とメリットを発揮できるようになります。良い成果。
サービス分類保護プランの効果
▐ビジネス 効果
マルコーニ(マルコーニ)は、安定性、コスト、効率、経験において卓越したパフォーマンスを発揮し、特別なビジネス効果とメリットが大幅に改善されました。
洗練されたフロント電流制限:
-
会場で使用されている現在の制限機能は、ユニファイドアクセスゲートウェイに直接転送されます。今年は、安定性の保証に投資した人員が、昨年に比べて100人日以上節約できます。
アクセスレイヤーゲートウェイによって構築されたダムは、サービス負荷トラフィックの数千倍を防御できます(たとえば、フロントエンドのバグ増幅要求が900WQPSの異常なトラフィックにヒットし、サービス自体は10WQPSと推定されるため)、フロントエンドのフロー制御ビジネスアプリケーションが圧倒されるのを防ぐために、適応型フロー制御機能と組み合わせることで、絶対的な防御機能を提供できます。
洗練されたルーティング分離:
-
会場プラットフォームのサービスアクセス効率が50%向上します。
プラットフォームベースのサービスは、さまざまなサービス/シナリオのトラフィックを物理リソースに分離/分散して、プラットフォームクラスター全体の全体的な障害につながる特定のサービス/シナリオの問題を回避します。
サービス分類:
-
ライブブロードキャストプラットフォームの主要サービス(ライブルーム、ベビーポケットリストの確認)のクラスター成功率は2.5%増加しました(単一コンテナーは17.8%増加しました)。
これにより、単一の問題のあるサービスがシステムリソースを占有し、アプリケーションのグローバルサービスで問題を引き起こすのを防ぐことができます(次のツアーインターフェイスの発信RTの増加、過剰なログ書き込みの問題、その他の未知のブロッキング/遅延の増加の問題など)。
2020 Double 11では、Marconiは、Tao Department(Taobao、Tmallなど)のコアビジネスプラットフォーム(ホームページ、会議会場、ライブブロードキャスト、インタラクティブ、My Taobaoなど)と複数のアーキテクチャレベル(アクセスゲートウェイ)の安定性を確保します。 、ビジネスアプリケーションクラスターからコンテナーレベルまで)ビジネストラフィックを制御し、ビジネスサービスの効果を向上させ、ユーザーにスムーズなエクスペリエンスを提供します。タオ部門(およびAlibaba Groupのより多くのBU)の安定性を向上させ、アプリケーションの安定性を保証します。コア機能;大規模な分散型オンラインビジネスシステムの高可用性/安定性保証における業界の進歩を促進します;今年のダブル11の新記録を保証します!
タオ部建築チーム
タオ部門のアーキテクチャチームへようこそ。AliMobileMiddlewareの創設者、Dubboのコアメンバー、テクノロジーを愛し、テクノロジーを使用してビジネスを促進することを望んでいる小さなパートナーのグループなど、チームメンバーがここに集まります。
タオ部門のアーキテクチャチームは、タオ部門(タオバオ、Tmallなど)のアーキテクチャのアップグレードを促進し、タオ部門とグループ全体に基本的なコア機能、製品、およびソリューションを提供することに取り組んでいます。
ビジネスの高可用性ソリューションとコア機能(洗練されたトラフィック制御Marconiプラットフォーム:適応型フロー制御、分離と融合、高いサイト可用性:障害の自己修復、複数のコンピュータールーム、リモート災害復旧を備えたビジネス向けの柔軟な高可用性ソリューションを提供します。クイックカットフローリカバリ)
新世代のビジネス研究開発モデルFaaS(ワンストップ機能研究開発ガイアプラットフォーム)
次世代ネットワークプロトコルQUICの実装と着陸
モバイルミドルウェア(APIゲートウェイMTop、アクセスレイヤーAServer、メッセージ/プッシュ、構成センターなど)
一緒にタオ部の基本プラットフォームの構築に参加するのを楽しみにしています〜
履歴書を???に送信してください:哲良[email protected](タオ部門アーキテクチャ-インフラストラクチャリーダー)
✿さらに 読む
著者| Li Ding(Zheliang)、Xu Zebin(Ze Bin)、Xiong Zheng(Eight Winds)
編集|オレンジ
生産|アリババの新しい小売技術