Baidu Search & Finance: 時間効率と可用性の高い分散データ伝送システムの構築

著者 | 検索テクノロジープラットフォーム研究開発部

導入 

分散データ伝送システムは、複数の計算ノード間で大量のデータを効率的に伝送するためのシステムであり、大規模なデータ移行やバックアップ、地域を越えたレプリケーションなどの問題を効率的に解決することができ、実際に広く利用されています。 -時間データ ストリーム送信、データセンター間のデータ移行、マルチメディア送信などのシナリオに加え、ほとんどの企業でログ管理、ビジネス データ データベースの構築などのシナリオでも使用されます。ご存知のとおり、データの効率的な送信は、企業が市場機会をつかむ能力に直接影響することが多く、企業の発展にとって非常に重要です。特に証券業界などの金融分野では、データの設計に対してより高い要件が課されています。分散型データ伝送システム、証券分野のデータは急速に変化するため、時間効率が高く安定したデータストリーミング伝送システムは、ユーザーエクスペリエンスを効果的に向上させるだけでなく、ユーザーに有益な直接の投資情報を提供することもできます。投資判断を可能にし、企業とユーザーの距離を縮めます。この記事では、Baidu 検索の金融事例を通じて分散データ伝送システムの設計を共有します。

全文は 7584 ワードで、推定読了時間は 19 分です。

01 背景

百度の検索シナリオで高いタイムリー性が要求されるビジネスとして、金融業界は毎日数千万件のユーザー検索リクエストを処理します 2021 年以前は、金融ビジネス データは常に従来のインターネット方式を使用して導入されてきました この方式の特徴 アクセス コストが低い, しかし、公衆ネットワークなどの制御不能な要因の影響を受け、データの適時性が悪く、データの停止やエラーなどの問題が頻繁に発生するため、高いビジネス保守コストが発生し、製品のイテレーションにつながりません。世界中の主要証券取引所のデータセンターに接続し、高タイムリーで可用性の高い分散型伝送システムを構築し、従来のデータ導入手法(公衆網等の課題)を効果的に解決することを目的とした証券データ直結プロジェクトを開始クローリングとプッシュによってもたらされる適時性、安定性、正確性など)を実現し、全国、さらには世界中のユーザーの財務ニーズを満たします。

02 デザインの目標

  • 仕事

世界の主要証券取引所のレベル1マーケットデータ(略称LV1マーケット)とは、取引ルールに基づいて取引所が公開するリアルタイムのマーケット情報であり、データ形式はFIX/FASTプロトコルに基づくインターフェースや、 TXT ファイル、バイナリ データ ストリームなどの市場データ(Exchange Information Technology Company の高速地上波ネットワークおよび広帯域放送衛星システム、または SSE Information Network Co., Ltd.のインターネットおよび専用線伝送を通じてリリース)をカバーします。すべての上場企業の株式、外国為替、先物、ETF、ターボ・ブル・アンド・ベア、その他の証券事業 ユーザーのニーズに応え、金融業界の競合商品と同等のタイムリーさを実現し、強力な金融エコシステムを構築するためのデータ インフラストラクチャを構築します。

  • テクノロジー

1. インフラ構築:取引所とオペレーターと協力して物理専用線のリンク展開を完了し、適切な物理専用線アクセスを通じて百度クラウドコンピュータルームの上海、深セン、香港、ナスダック証券取引所のデータセンターに接続します。交換順序とマルチキャスト プロトコルを使用してバイナリ ストリーム/テキスト データを Baidu に導入し、華南、華北、華東、香港 (海外アクセスをサポート) でのデータの保存と転送を完了します。さまざまな地域をサポートする交通スケジュール、地域ユーザーのリクエスト。

2. 適時性と安定性の向上: 市場データの取得の 99 パーセンタイルにかかる時間は 200 ミリ秒以内、データの安定性は 99% から 99.99% 以上に向上し、データの災害復旧機能は 1 マスターと 0 バックアップから 1 マスターにアップグレードされています。そして2つのバックアップ。

3. データ セキュリティ: Baidu のセキュリティ機能に基づいて、同様のファイアウォール ポリシーを構築して、各コンピュータ ルームおよび各クラスタのアクセス許可を厳密に制御し、対応するセキュリティ グループ ポリシーを構成します。

△注: ここでの物理専用線とは、特に光ケーブルを指します。

03 重要なアイデア

機能およびネットワーク トポロジの観点から見ると、時間効率が高く可用性の高い金融データ伝送システムには、少なくとも次の部分が含まれている必要があります。

  • アクセス層: 世界中の主要な交換機のシングルおよびマルチキャスト伝送プロトコルに適応し、専用の物理ネットワーク上でデータが正常に伝送されることを保証します。

アクセス方法としては、主にインターネット経由と物理的な専用線経由の2つがあり、前者は比較的柔軟で基本的にさまざまなデータプロトコルに対応可能で、ダイレクトHTTP(GET/POST)やメッセージキューなどがあります。パブリッシュ&サブスクライブなどはアクセスコストが安く、即時にアクセスできるタイプですが、公衆ネットワークでは制御不能な要因により、後者に比べて伝送効率やセキュリティに比較的大きな差が生じます。インターネット方式は災害対策として存在し、専用線方式はポイントツーポイント伝送のみを特徴とし、独立した光ケーブルを使用するため、理論的には限られた帯域内で競合のない状態を実現でき、公衆ネットワークの影響を受けないため、信頼性の高い伝送が可能になります。伝送プロトコルの民営化により、より多くの認証メカニズムが追加され、より安全になります。これにより、証券データ伝送などのさまざまなアプリケーションシナリオが区別されます。一般に、交換機はユニキャストおよびマルチキャスト方式を使用します。現在ではマルチキャストが主に使用されています。また、専用回線にはアクティブとバックアップの概念もあります。一般に、1 ~ 2 回線は災害復旧用に予約されています。全体として、専用回線はより高価で、アクセス サイクルも長く、多くの場合、専用回線と同じくらい長いです。数ヶ月として。

  • ネットワーク層: サブネット、ルーティング、ゲートウェイなどを含む、中国南部、中国北部、中国東部の Baidu クラウド コンピューター ルームの仮想ネットワーク アーキテクチャの構築を完了します。

仮想ネットワークのコアコンポーネントは主にサブネット、ルート、ゲートウェイ、仮想マシンで構成され、各サブネットは仮想マシンクラスタに関連付けられ、そのコンポーネント(ドメイン)全体を総称してVPC(Virtual Private Cloud)と呼び、ルートは区別されます。 TGW ルーティングおよびピアリング接続の場合、ここでの主な焦点はピアリング接続です。ユーザーに VPC レベルのネットワーク相互接続サービスを提供し、ユーザーが異なる仮想ネットワーク間のトラフィックの相互運用性を実現し、同じリージョン/クロスリージョン、同じユーザーを実現できるようにします。 ./ 異なるユーザー間の安定した高速仮想ネットワーク相互接続の中核は、ルーティング テーブルの操作に基づいています。ピアツーピア接続は、地域レベルの DNS 同期の構成もサポートしています。ゲートウェイは NAT ゲートウェイに分割されています。および専用線ゲートウェイ。1 つは SNAT の設定などの外部です。DNAT ルールは、同じネットワーク セグメントの外部ネットワーク エクスポートに使用され、1 つは内部用で、内部は実際に専用線を使用して接続できることを確認するために使用されます。内部ネットワーク。

  • トランスポート層: 各コンピュータ室でデータの分析、保存、同期、転送などを完結します。

アクセス層で取得したデータを 3 つのレベルに分けます。たとえば、交換は主にバイナリ ストリームであり、テキストは第 1 レベルのデータです。元のデータを最近の期間ローカルに保持する必要があります (第 1 レベルのデータ管理クラスター) )そのため、緊急再生に使用されます。デコードされたデータはセカンダリ データであり、セカンダリ データ管理クラスターに分類され、主に地域間の同期に使用されます。最終的に、デコードされたデータは計算および処理され、次のように使用されます。 3 レベルのデータ管理クラスターはアプリケーション サービスを実行するために使用され、同時にプロトコルに従ってデコードされたデータはリアルタイム ストリーム (タイムシェアリングなど) と遅延ストリームに分割されます。 (K-line など) 使用シナリオに応じて、遅延ストリームはリアルタイム ストリームを通じて計算され、リアルタイム ストリームは IO 効率を向上させるためにメモリに同期され、遅延ストリームは後で DB に非同期的に入力されます。リアルタイム ストリームの計算 DB は 3 レベルのデータ管理クラスター上で維持されます。

  • アプリケーション層: 負荷/トラフィックのスケジューリング、監視機能などの構築。

アプリケーション層の設計には主に 2 つの考慮事項があります。1 つは、アクセス層の負荷とトラフィックのスケジューリングです。たとえば、Websocket/http サービスを展開して Baidu ユーザー トラフィックをサポートすることと、BLB (Baidu) を使用することによって、複数の Baidu スマート クラウド サーバーが 1 つのグループに仮想化され、イントラネットまたは外部ネットワーク サービス アドレスを設定し、同時フロントエンド アクセスを複数のバックエンド クラウド サーバー (BCC) に転送して、同じエリアにトラフィックをロードします。アプリケーションのトラフィックバランスを改善し、パフォーマンスの面でビジネスレベルの拡大を実現します。また、ロード バランシングは、自動フェイルオーバーを通じて単一ポイントのサービス障害をタイムリーに排除し、サービスの可用性を向上させ、サーバー スケジューリングの重み付けポリシー構成をサポートし、TCP、HTTP およびその他のプロトコルをサポートします。一方で、これは、次のような監視のアプリケーションでもあります。リクエスト/データ送信ログとして配置、統計、分析、トラフィック、SLA監視など

上記の 4 層の機能を構築した後、単一のコンピューター ルームのネットワーク トポロジは次の図のようになります。

写真

△注: DCC/BBC/BCC はすべて Baidu Cloud カテゴリのマシンタイプです、詳細については、Baidu Smart Cloud Private Network ( https://cloud.baidu.com/doc/VPC/s/Vjwvytu2v )を参照してください。

04 主要な問題点と解決策

難易度1

パブリック ネットワークおよびプライベート ネットワーク モードでクラウド上でマルチプロトコル適応を完了する方法、特にプライベート ネットワークでユニキャスト プロトコルとマルチキャスト プロトコルを適応させる方法、およびマルチキャストをユニキャストに変換する方法。

パブリック ネットワークとプライベート ネットワーク アクセスの概要

データ伝送システムにとって、実際に最も重要なポイントは、システムの柔軟性を向上させるためにマルチプロトコル データ アダプテーションをサポートすることです。証券取引所が一般的に提供するアクセス方法には、パブリック ネットワーク アクセスとプライベート ネットワーク アクセスがあります。ネットワーク アクセスのコストは、低レベルであり、一般に複雑なプロトコルの制約なしで毎週の粒度で完了できます。プライベート ネットワークでは多くの場合、より高い要件が必要です。ほとんどのプロトコルではユニキャスト介入機能が必要ですが、ナスダックなどのいくつかのプロトコルではユニキャスト介入機能が必要です。および深セン取引所ではマルチキャストをサポートするためにダウンストリームが必要ですアクセス。大多数のクラウドベンダーは仮想マシンに直接対応できません 従来の仲介会社は基本的に高価な物理マシンリソースを使用して負荷を担っています 物理マシンの抜き差しの方が便利で安定していますが、運用保守管理コストも高くなります. ハイ、2 つの方法には、有効性とコストにおいても本質的な違いがあります。

1. パブリック ネットワーク アクセス: パブリック ネットワーク上でより一般的なデータ アクセス方法は、主に HTTP/HTTPS です。もちろん、RPC/FTP もありますが、比較的使用されていません。データ送信のセキュリティを向上させるために、双方が次のことを行うことができます。優れたデータ暗号化アルゴリズムとキーには、特に大洋横断送信において、アクセス コストが低く、迅速に適用できるという利点があります。欠点は、公衆回線を使用すること、ネットワークの信頼性が低く、データが簡単に傍受されることです。両端でデータ パケットをキャプチャした後、たとえ完全に解析できなかったとしても、サービスの安定性に影響を与えるためにいくつかのトラフィック攻撃手法が実装される可能性があります。一般に、高いセキュリティと適時性の要件が必要なデータは、通常、この方法ではアクセスされません。単なるバックアップ方法です (大洋横断伝送などの特殊なシナリオを除く)。

2. プライベート ネットワーク アクセス: 企業のイントラネットは実際にはプライベート ネットワークですが、企業間のデータ送信シナリオでプライベート ネットワークを構築したい場合は、通常、物理的な専用線アクセスを使用します。この方式には大きな利点がある プライベートネットワークは専用で安全性が高いという利点がある 公衆ネットワークの影響を基本的に受けない(自然災害などの不可抗力を除く) 帯域幅(データ量)の範囲内ではネットワークの競合が基本的にないプライベートネットワーク(双方向イントラネット伝送)であるため、基本的にデータセキュリティの問題を心配する必要はなく、追加のデータ検証方法が追加されることもよくあります。特に金融シナリオでは、厳密なトークン (ハード/ソフト) 認証が必要になります。この方法の欠点は、コストがかかることです。公衆ネットワークの送信やアクセスと比較すると、コストが高く、通常は数か月かかり、コストもさらに高くなります (通常は数百万ドル)選択した伝送媒体 (通常は光ファイバー) と帯域幅によって異なります。

プライベート ネットワークにおけるユニキャストおよびマルチキャスト プロトコル アクセス ソリューション

プライベート ネットワークは、ユニキャスト、ブロードキャスト、およびマルチキャストに分類されます。ユニキャストは比較的適応しやすいです。スタティック ルーティングを使用するには、IPV4 専用線相互接続アドレスと同じ VLANID でクラウドと IDC の IP セグメントをそれぞれ構成できます。ブロードキャストは一般に、サーバー側の場合、たとえば証券取引所の下流は世界中のすべてのブローカーに接続されており、データ ソースは同じです。一般に、データをすべての下流にプッシュするためにブロードキャスト メカニズムが使用されます。マルチキャスト プロトコルは通常、ダウンストリームの適応。現在、ほとんどの企業はパブリック クラウドに移行しています。仮想化テクノロジは、サーバー クラスターの展開を完了するためにクラウド上で一般的に使用されています。仮想マシンの場合、より多くのサポートはユニキャスト送信であり、マルチキャスト送信はサポートしていません。多くの場合、以下が必要です。マルチキャスト パケットを転送するためのルートが物理デバイス (マルチキャスト ルーター、または特定のマルチキャスト ソフトウェア) 上に設定され、ルーティング テーブルが特定のルーティング プロトコル (PIM など) に関連付けられ、その後 IGMPV3 プロトコルが使用されます。マルチキャスト メンバーとパケットのルーティングを完了するための管理、動的 BGP を介したネイバー関係の維持 (現在のクラウド ベンダーは BGP に固定 AS 番号を割り当てる場合があります。AS 要件がある場合は、物理マシン上で個別に行う必要があります)。特にマルチキャスト データを伝送するために物理リソースの一部を周回できます。IGMP スヌーピングを設定することにより、送信 (マルチキャスト メッセージを第 2 層のデータ リンク層に転送して、グループ対ユニキャストを実装できます。バージョンは 3 である必要があることに注意してください)そうでない場合、IGMPV3 メッセージは転送できません) + AP はマルチキャストからユニキャストへの構成を完了し、デュアル ネットワーク カード (WAN ポート + LAN ポート) を通じて、Baidu イントラネットへの専用線ネットワーク データ アクセスと同期が実現されます。物理マシンは関連付けられています。 3 層スイッチを介して、次のようなネットワーク トポロジを構築します。

写真

難易度2

データ管理とリージョン間の同期、データの災害復旧機能と適時性が向上します。

データの階層管理は、主に単一のコンピュータ ルーム内のシナリオを扱います。複数のコンピュータ ルームまたは複数のリージョンにまたがる場合の主な困難は、データの同期です。後者では、複数のコンピュータ ルーム間のデータ送信効率と災害復旧管理をより考慮する必要があります。コアはネットワーク設計です。:

1. データ管理: さまざまな使用シナリオに従って、データはバイナリ ストリーム データ (元のデータ ストリーム)、テキスト データ、ビジネス データ/ログなどに分割されます。

  • 元のデータ ストリームは主に、単一マシン ルームおよびクロス マシン ルームの送信シナリオを扱います。下流のビジネス サービスの異常によってデータ表示エラーが発生した場合、保存された元のデータ ストリームはデータを非常に適切に再生して、ビジネスを迅速に復元できます。 、特に金融証券の場合。データ送信シナリオでは、証券取引所は通常、重複データをプッシュしません。下流のビジネス サービスの例外により、保存されているすべてのビジネス データが無効またはダーティ データになる場合は、上流に再送信を積極的に要求することしかできない場合があります。 -リフレッシュにより取得しますが、コアデータが失われる可能性があります。この方法は効率が悪く、事業への影響が拡大するため、通常は取引所が発行した元のデータストリームを最初に保存します。保存方法は事業者がカスタマイズできます。問題が発生した場合、元のデータ ストリームを「再生」することで損失を防ぐことができます。また、元のデータ ストリームを使用して、ピアツーピア ネットワーク内のコンピュータ ルーム全体でビジネス データを復元することもできます。

  • ビジネス データ フローは主に単一コンピューター ルームの送信シナリオを扱い、モジュールのさまざまな分業、リアルタイムの市場状況、証券の過去の市場価格などに応じて、単一コンピューター ルームのデータを管理するさまざまな方法があります。独自に開発した DB の場合、スケジューリングは可能です 一部の標準的な分散管理方法 (zk など) では、通常、データ同期方法をカスタマイズする必要があります Mysql、Redis、Mongo などの従来の DB の場合、一般に標準化された方法データ同期方法とスケジューリング モード。

2. 地域間同期: コンピューター ルーム間の地域同期の前提は、複数のコンピューター ルームが直接的または間接的な関係を持つ専用の物理ネットワークを必要とすることです。つまり、ネットワークに到達できることを確認してから、仮想ネットワークを結合して、サブネットとルーティングの構成。直接ネットワーク関係を持つ 2 つのコンピューター ルームの場合、ピアツーピア ネットワーク (ピア接続) の設計は少し単純になります。現在、すべてのクラウド ベンダーは基本的に直接構成をサポートしています。原則として、最初にそれらを同じ VPC の下に分割します。 . サブネットを作成し、クラスター サイズを計画し、ルーティング テーブルを構成することで、ローカル エンドと反対側エンドの間のネクスト ホップ アソシエーションを完了します。これにより、2 つの直接ピアツーピア ネットワークの構築が完了し、次に、サブネットへのルートが構成されます。イントラネット専用線。クラウド コンピュータ ルーム -> イントラネット コンピュータ ルームの間でネットワークの相互運用性を実現できます。しかし、2 つのコンピュータ ルームが直接関連しておらず、ローカル データとピア データの同期を完了する必要がある場合はどうすればよいでしょうか。たとえば、コンピュータ ルーム ABC が 3 つあるとします。 AB BC のみ 直接の関連付け関係があり、AC を関連付けたいと考えています。現時点では、別の物理リンクを確立することはできません。ブリッジのような方法 (またはトンネル) を使用して、3 つのコンピュータ ルーム ABC を関連付けることができます。同時に、B をネットワーク ブリッジとして使用し、C が A からのルートを確実に識別できるようにするために、NAT テクノロジーを介して IP アドレス変換を完了します。また、AB BC は通常、ピアツーピア ネットワークを使用します。複数の計算機室が通信できるように基本的なネットワーク構成が完了しますが、物理的なネットワーク伝送のため、計算機室での所要時間はそれほど変わりません(30ms以内)。

ネットワークの詳細は多すぎるため、ここでは詳しく説明しませんが、ここでは、リージョン間同期のためのネットワーク アーキテクチャを見ていきます。

写真

△注: 図内のネットワークセグメントは、さまざまなシナリオに応じて分割できますが、ここでは簡単に説明します。

3. データ災害復旧機能と適時性の向上

  • データ障害復旧: 通常、各証券取引所に近いアクセス ポイントを選択します。たとえば、上海証券取引所は上海のコンピュータ ルームにアクセスすることを選択し、深セン証券取引所は広州にあるアクセス ポイントを選択し、ナスダックは香港にあるアクセス ポイントを選択します。各アクセス ポイントは、プライマリおよびバックアップの物理リンクとして 2 つの専用回線を構成し、セカンダリ バックアップとしてインターネット チャネル (ここでのインターネットも交換機に直接接続されており、従来のデータ導入チャネルではないことに注意してください) を拡張します。デフォルトでアクティブになっており、物理機器は専用線の健全性状態に基づいて自動的に切り替わります(カスタマイズされたロジック) 最後に、前述の地域間同期原則に基づいて、各物理リンクがクラウド コンピュータ ルームで関連付けられます。各物理リンク上で独立した VPC を抽象化し、ネットワーク トポロジを構築することでマシンルームを越えたデータ レプリケーションと災害復旧を実現します。

  • 適時性: 物理的な専用線 (光ケーブル) アクセス方式の当然の利点は、固定帯域幅内では基本的にネットワーク競合がなく、ほとんどの回線に中継器が装備されているため、データが「送信されたらすぐに利用できる」ことです。 、損失の原因となります。影響は比較的制御可能であるため、アクセス方法がデータ送信の適時性を決定します。従来のインターネット アクセス方法と比較して、データの観点から、専用線アクセスの SLA は 5 9 を超えています (インターネット アクセスは 2 9 を超えています) ). もちろん、データ到着の信頼性をさらに向上させるために再送信メカニズムも構成されます; 取引所によって発行されるデータの頻度は市場によって分割され、A 株は通常 3 取引/取引であり、香港および米国株には特別な制限はありません, 軽いものを除いて、トランザクションが完了するとすぐに発行されます 紛失の影響は最速で 3ms/ペンに達する可能性があります. 周波数が高いほど、マシンの要件も高くなります. このため、私たちは特別にいくつかの周波数制限操作を実行しました。全体的なデータの適時性は基本的に 60 ミリ秒 (99.99+ 分) ビット) 以内になります。

難易度3

クラスター管理、単一リージョンおよびクロスリージョンのトラフィック スケジューリング。

トラフィック スケジューリングはアプリケーション層で効果を発揮します。主に、内部/外部サービスのデータ サポートを提供するための効率的なスケジューリング/ロード方法を見つけることを目的としています。プロトコル/アプリケーション シナリオの分類では、主に TCP/HTTP が含まれます。戦略は状況に応じて異なります。これは依然としてトラフィック分散における重み付けの定義に基づいています。たとえば、RS ヘルスチェックに基づく分散があり、下流クラスターの健全性状態を時々検出して、トラフィック比率を動的に調整します。ダウンストリーム マシンの接続数に応じて割り当てることもできます。割り当てはリソース アクセスの人気に基づいて行うこともできます。単一リージョン シナリオとクロスリージョン シナリオの区別は次のとおりです。

1. 単一リージョンのシナリオ: 現在、さまざまなクラウド ベンダーが対応するトラフィック スケジューリング製品をサポートしています。たとえば、Baidu Cloud には BLB (Baidu Load Balance) があり、スケジューリング ルールを簡単に構築できます。BLB では、スケジューリング用のプロトコルを設定できます。クラスタ (TCP/HTTP) を関連付けてから、対応するサーバー クラスタを関連付け、最後にさまざまなサーバー クラスタの重みポリシーを構成します。トラフィックが流入すると、BLB が自動割り当てを完了するのに役立ちます。特定のクラスタで問題が発生した場合は、手動で調整できます。介入するクラスターの重み 流量比、いわゆるカットフロー。

2. マルチリージョンのシナリオ: 複数のコンピュータ ルームのトラフィック スケジューリング戦略は、通常、クラウド上に分離されています。もちろん、複数のコンピュータ ルームの最上位にある特別なスケジューリング クラスタを抽象化し、VIP を外部に公開することもできます。 VIP 上の複数のリージョン間の関係。これは基本的にインターネット企業が行うことです。非常に大規模なクラスター規模のシナリオをよりターゲットにしており、VIP の選択にも条件やコストがかかりますが、低コストが必要な場合は、アプリケーションをすばやく作成します。複数リージョンからの同時アクセスに対応し、トラフィックスケジューリングの自動化を実現したクラウド 複数リージョンでのVIP共有機能がクラウドに対応していない場合でも、クラウド上の既存機能をベースに可能な限り自社で完結で​​きます。各計算機室にはnginxと同様のクラスタが抽出され、各クラスタはローカルドメインとは異なるスケジューリング関係を維持し、その下流はローカル計算機室とは異なるBLBとなり、同時に互いの健康状態を確認し報告するこれにより、異常発生時には、ローカルコンピュータルーム内でBLBレベルのトラフィックスケジューリングを完了するだけでなく、複数のコンピュータルーム間でトラフィックを切り替え、コンピュータルームの災害復旧能力を向上させることができます。もちろん、十分な容量も必要です。

写真

05 全体デザイン

写真

上図の各モジュールの機能は次のとおりです (各モジュールは多重化を使用します)。

1. ソースデータアクセスクラスタ: 2方向(インターネット/物理専用線)+各種プロトコル(インターネット、ユニキャスト、マルチキャスト)でのデータソースアクセスに適応

2. ソース データ転送クラスター: 各コンピューター ルームのソース データの一貫性を確保し、ビジネス サービス自体によって引き起こされるデータの不整合の問題を軽減します。

3. データ解析クラスター: ソース データを下流のビジネスに転送するために主に統合処理するためのパブリック モジュール。

4. ビジネス データ クラスター (リアルタイム/遅延ストリーミング) : データ分析クラスターによって配信されたコンテンツを、B 側または C 側のユーザーが見るデータである詳細なビジネス データに変換する責任を負います。

5. ゲートウェイ クラスター: ユーザー アクセス トラフィックの伝送を担当します。

6. クラスターの監視: 各クラスターから報告されたログを収集し、安定性管理方法の 1 つとして使用します。

他の計算機室と比較して、計算機室 B のアクセス層構成が少ないことがわかります。これは主にコストとパフォーマンスの考慮に基づいています。計算機室 B をデータ送信ハブとして使用することで、ローカルの計算機室でのデータ送信が確保されるだけでなく、同期とレプリケーション: この分散伝送システムは、データ アクセスからクラスターの監視まですべてをカバーします。マシン全体のサイズは大きくありません (約 100) ですが、10 億を超えるトラフィックをサポートできます。

06 概要と展望

優れた製品エクスペリエンスと製品マトリックスは、可用性が高くタイムリーなデータ サポートから切り離すことができません。特に金融分野では、ユーザーは直接の情報と完全な製品機能に対してのみ料金を支払うことができます。2021 年以降、データ チャネルの構築以来、財務の安定性と事業規模は質的に飛躍しており、証券データの適時性は四半期に数十回から年に 1 回未満に、99 パーセンタイルの時間は過去数分から年に 1 回未満に短縮されました60ms以内のデータSLAが約29から59以上に向上、商品は株式、外国為替、ファンド、先物など多分野をカバー、市場の長期接続をサポートする初のビジネスでもあります。また、検索エコシステムにも基づいてインキュベートされており、Baidu Stock Connect PC サイトやアプリなどの独立した製品を多数開発しており、現在 AI 機能を統合して継続的な最適化を行っており、ユーザーの向上が期待されていますエクスペリエンス -> ユーザーが高度な意思決定を行うのを支援し、金融投資をよりスマートかつシンプルにします。

この記事では主に、データ アクセス層のマルチプロトコル適応、データの階層管理など、伝送システム内のいくつかのコア ノードの設計を含む、金融データ アクセスの事例に基づいた分散データ伝送システムについて簡単に紹介します。地域を越えたデータ同期などに対応するネットワークトポロジは、実験を通じて、このソリューションがさまざまな規模の分散データ伝送システムの設計にうまく適用できることが結論付けられています。もちろん、スペースの問題により、実装の詳細の多くは省略されていますが、読者の方が質問がある場合は、メッセージを残して一緒に議論していただければ、可能な限りお答えします。

- 終わり -

推奨読書

「落とし穴を踏んだ」経験の共有:Swift言語実装の実践

モバイルのスクリーンショット防止および画面録画技術が Baidu アカウント システムに実装されています

AI ネイティブ エンジニアリング: Baidu App AI インタラクティブ テクノロジーの実践

イベントループの謎を解明する

Baidu 検索表示サービスの再構築: 進捗と最適化

Bilibiliは2度クラッシュ、テンセントの「3.29」第1レベル事故…2023年のダウンタイム事故トップ10を振り返る Vue 3.4「スラムダンク」リリース MySQL 5.7、莫曲、李条条…2023年の「停止」を振り返る 続き” (オープンソース) プロジェクトと Web サイトが 30 年前の IDE を振り返る: TUI のみ、明るい背景色... Vim 9.1 がリリース、 Redis の父 Bram Moolenaar に捧げ、「ラピッド レビュー」LLM プログラミング: Omniscient 全能&&愚かな 「ポスト・オープンソースの時代が来た。ライセンスの有効期限が切れ、一般ユーザーにサービスを提供できなくなった。チャイナ ユニコムブロードバンドが突然アップロード速度を制限し、多くのユーザーが苦情を申し立てた。Windows 幹部は改善を約束した: Make the Start」メニューもまた素晴らしいです。 パスカルの父、ニクラス・ヴィルトが亡くなりました。
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/4939618/blog/10575984