10億のノードグラフ計算を数分で処理するPlatoはどうですか?

インタビュー対象者| Yu Donghai

レポーター| Xi Yan

出品 | CSDN(ID:CSDNnews)

「AI Technology Ecology」のキャラクターインタビューコラムは、CSDNによって開始された何百万もの人々によるAIの学習の取り組みの重要な部分です。トップのAIエコパワー、起業家、業界のKOLへのインタビューを通じて、業界についての彼らの考え、将来の傾向の判断、技術的実践、成長経験を反映しています。

本稿は、「AIテクノロジーエコロジー」シリーズのインタビューの第18号で、Tencentの大規模オープンソースグラフコンピューティングフレームワークPlatoについて詳しく説明し、グラフコンピューティングフレームワークの今後の開発動向を予測します。

何百万人もの人々がAIを学び、あなたは共有しています!本日から、クリックして元の登録「2020 AI開発者1万会議」を読み、クーポンコード「AIP211」を使用して、299元相当の無料オンライン会議チケットを入手できます。100枚限定、先着順!

2019年11月、Tencentは、グラフコンピューティングフレームワークPlatoを含む5つのオープンソースプロジェクトを一度に発表しました。グラフコンピューティングは以前から人気があり、5G、IoT、その他のテクノロジーの開発により、グラフコンピューティングの人気が高まると予想されています。本日は、TencentのオープンソースグラフコンピューティングフレームワークPlatoを例に、WeChat Platoの高性能コンピューティングチームリーダーであるYu Donghai氏を通じて、グラフコンピューティングフレームワークの構築技術と今後の開発動向分析します。

 

グラフ計算とは?

 

まず、グラフ計算の概念を理解しましょう。実際、グラフコンピューティングは、画像認識、画像処理、その他のテクノロジーについて私たちが通常言うこととは異なります。通常の画像や写真ではなく、頂点を使用してオブジェクト間の関係を表すために使用される抽象的なデータ構造(頂点)とエッジ(エッジ)の説明:頂点はオブジェクトを表し、エッジはオブジェクト間の関係を表し、グラフによって記述されたデータに抽象化できます。グラフ計算は、グラフをデータモデルとして使用して問題を表現し、解決するプロセスです。

 

簡単に言うと、グラフコンピューティングは、大量のグラフデータを効率的に計算、保存、管理する方法を研究する方法です。

 

従来のリレーショナルデータ自体にモデリングの欠陥や水平方向のスケーリングなどの問題があり、グラフデータにはより強力な表現力があり、同じグラフ内のさまざまなソースやさまざまなタイプのデータと組み合わせて分析できるため、元の独立した分析が得られます。その結果を見つけるのは難しいため、グラフコンピューティングは、特にソーシャルネットワーク、レコメンデーションシステム、ネットワークセキュリティ、テキスト検索、生物医学の分野で業界の注目を集めており、広く使用されています。

 

TencentグラフコンピューティングフレームワークPlatoの誕生

 

実際、Pregel、Spark GraphX、Hadoop Giraphなど、グラフコンピューティングには多くのオープンソースフレームワークがありますが、Tencentが独自のグラフコンピューティングフレームワークを構築することにしたのはなぜですか?

 

Yu Donghai氏はインタビューで、Tencentがプラトンを行う当初の意図は、Tencentのデータスケールの超大規模なグラフ計算を完了する必要があったためであると語っています。コンピューティングリソースはすべて受け入れられません。Tencentのビジネスシナリオでは、非常に大規模なグラフ計算を限られた時間と限られたリソースの中で完了する必要があります。したがって、カリフォルニア大学、清華大学、北京大学などの世界的に有名な大学で構成される高性能コンピューティングチームの努力により、10億ノードのグラフ計算を実行できると主張するPlato高性能分散グラフコンピューティングフレームワークが誕生しました。フレームは別の「一般」を追加します。

 

Platoフレームワークについては、必ずしも知っているとは限りません

プラトンに関しては、リリースの初めにさまざまな解釈がありましたが、CSDNは本日プラトンの技術的解釈をレビューおよび拡張し、ギャップをチェックします。

 

PlatoはTencentのオープンソースの高性能分散グラフコンピューティングフレームワークであり、オフライングラフコンピューティングとハイパースケールグラフデータのグラフ表現学習の2つのコア機能を提供します。

 

 

  • グラフコンピューティングエンジンは新しいコンピューティング通信モードをサポートします

 

プラトンは、図の計算プライマーのコアである APIの底部から、図アルゴリズムライブラリに新たな通信モードを計算アクセスにマルチレベルのインターフェースをサポートするように設計された通信モジュールを、計算グラフ分割、マルチレベルの表現及び図協調スケジューリングを含む、エンジン特定のビジネス向けに調整された一連のグラフツール。これらのアプリケーションレイヤーのインターフェイスとツールを通じて、プラトンはオフラインの計算結果を他の機械学習アルゴリズムと組み合わせて、トップレベルでさまざまなサービスを共同でサポートすることもできます。

 

  • 計算モデルは、Gemini、KnightKing、Cyclopsなどのグラフコンピューティングシステムの設計に基づいています。

 

Yu Donghaiによれば、プラトン計算モデルで、ジェミニ[1]、ナイトキング[2]、サイクロプス[3]を含む多くの学界によって提案されたグラフコンピューティングシステムの設計を借用しました。プラトングラフ計算エンジンは、疎密密計算モード、共有メモリ計算モード、パイプライン計算モードを提供します。グラフアルゴリズムのタイプが異なるため、アルゴリズムの実行プロセスは大きく異なり、単一の計算モードではすべてのアルゴリズムのパフォーマンスを最適化できないため、プラトンはグラフアルゴリズムのタイプの実行プロセスを要約して調整します。反復して、一連の最適な計算モードを取得します。

 

  • 数分で10億のノードグラフ計算の秘密

 

Platoの最も魅力的な機能の1つは、10億のノードグラフ計算しか処理できないことです。Platoは、速度を維持しながらデータ処理のスループットとスケールを増やすことをどのように保証しますか?さらに、Giraph / GraphLab / GraphX / Gellyなどの主流のオープンソースフレームワークと比較して、Platoの2つのコア機能は、TencentのデータレベルでのオフライングラフコンピューティングとTencentのデータレベルでのグラフ表現学習です。それはどのように機能しますか?

 

これは、高性能の分散グラフコンピューティングフレームワークであるプラトンが優れた並列スケーラビリティを備えているためです。つまり、プラトンコンピューティングクラスターは、より多くのサーバーを並列に結合してデータを共有できるためです。ストレージと計算。

 

オリジナルの主流のオープンソースグラフコンピューティングフレームワークでは、10億のノードスケールのグラフ計算を実行する場合、数日と多くのコンピューティングリソースが必要になります。Platoの独創的な設計とストレージ、計算、通信、スケジューリングなどの最適化、データストレージの圧縮、計算効率の向上、通信スケジューリングの最適化により、Platoのメモリ消費量はGraphXと比較して1〜2桁削減され、計算パフォーマンスも向上します。 1〜2桁。つまり、中小規模のクラスター(約10台のサーバー)のみが、Tencentデータスケールのハイパースケールグラフの計算を数分で完了することができます。

 

  • 適応グラフ計算エンジンによる自動照合アルゴリズムのメカニズム

 

CSDNが気になるもう1つの点は、プラトンの適応グラフ計算エンジンが自動マッチングアルゴリズムを実行する方法です。

 

Yu Donghai氏によると、プラトン適応グラフ計算エンジンは疎密密計算モードを指します(この方法はLigra [4]によって最初に提案されました)。プラトンは、アルゴリズム実行プロセス中にアクティブな頂点の数に従って実行するかどうかを自動的に選択します。密計算モードは疎計算モードでもあり、自動マッチングアルゴリズムが完成します。

 

プラトンの上陸の難しさと痛みはどこにありますか?

 

ビッグデータを表現および分析するための効果的な方法として、グラフコンピューティングは、ソーシャルネットワーク、レコメンデーションシステム、ネットワークセキュリティ、テキスト検索、ファイナンス、および医療の分野で重要なデータ分析およびマイニングツールになりました。たとえば、ユーザーの検索エクスペリエンスを改善するためにWebページの影響を定期的にランク付けします。グラフベースの認知分析を使用して、財務リスク管理機能を改善します。サブグラフマッチングやその他の方法を通じてタンパク質間の相互作用を理解し、より効果的な臨床医学を開発します待って。

 

ただし、新興のテクノロジーは、それが発生すると必然的に困難に遭遇し、グラフコンピューティングも例外ではありません。たとえば、プラトンオフライングラフコンピューティングは、データ処理チェーン全体の一部として使用され、他のフレームワークと組み合わせて使用​​する必要があります。これにはデータ接続が必要です。これはデータ転送効率の問題を引き起こします。

 

この問題に対して、Platoは解決策を持っています。上流および下流の各フレームワークの実行プロセスを分析し、それらとPlato間のデータ接続を最適化し、データのランディングとコピーを削減することで、効率的なデータ処理を実現できます。 

 

もちろん、グラフコンピューティングの実装にはまだ多くの困難があり、基盤となるテクノロジーとアプリケーション、市場などのすべてのレベルで改善し続ける必要があります。

 

Platoは2019年11月にオープンソース化されて以来、Tencent Cloudに統合され、Tencent Cloud Big Data Suite、Smart Titanium、Tencent Cloud Knowledge Graphなどのソリューションを通じてサービスを提供し、業界の多くの有名なインターネット企業や大学で使用されています。

 

現在、プラトンはグラフ機能やグラフ表現学習などのアルゴリズムをサポートしています。将来的には、ネットワークエンベディングやGNNアルゴリズムなど、より多くのアルゴリズムがオープンソースになる予定です。同時に、他のフレームワークの維持と更新、使用の探求も継続されます。

 

プラトンについての説明はここにあります。次のステップは、グラフコンピューティングフレームワークに関してよくある質問に答え、グラフコンピューティングテクノロジーの開発傾向を予測することです。

 

グラフコンピューティングフレームワークと一般的なコンピューティングエンジンを組み合わせて機能させる必要がありますか?

 

最初の質問は、グラフコンピューティングフレームワークとコンピューティングエンジンの組み合わせについてです。たとえば、GiraphはHadoopに基づいており、GraphXはSparkに基づいています。それから、誰もが疑問を抱くかもしれません。グラフコンピューティングフレームワークと一般的なコンピューティングエンジンの組み合わせはすべて利点ですか?すべてのグラフコンピューティングフレームワークが将来そうするのが最善の選択ですか?

 

Yu Donghai氏はCSDNに対し、グラフコンピューティングフレームワークと一般的なコンピューティングエンジンの組み合わせには長所と短所があると述べました。長所は利便性と普遍性です。データ処理、データマイニング、データアプリケーションのプロセス全体を1か所で完了することができますが、欠点も明らかです。つまり、一般的なコンピューティングエンジンはグラフアルゴリズムに対して特定の最適化を行わず、超大規模グラフデータ処理のパフォーマンスが低下します。

 

これは実際にはパフォーマンスと一般性のバランスであると彼は信じています。パフォーマンス要件が高くない場合は、一般的な観点から汎用コンピューティングエンジンを選択できます。パフォーマンス要件が高い場合は、高性能グラフコンピューティングフレームワークが最適です。チョイス。

 

グラフコンピューティングテクノロジーのホットスポットは何ですか?グラフコンピューティングフレームワークの開発動向を教えてください。

2つ目の質問は、将来、グラフコンピューティング分野全体で、注目し、注目するに値する技術的なポイントは何ですか?また、グラフコンピューティングフレームワークに関する限り、将来の開発動向はどうなっていますか?

 

彼は、GNNは現在グラフコンピューティングの分野でホットスポットであり、業界の有名なインターネット企業や大学は、ネットワークフレームワークTF-GNN、Aliオープンソースグラフラーンなどを介して、自己開発したGNNコンピューティングフレームワークを次々と立ち上げていると述べました。

 

GNNは、グラフ構造上で直接実行されるニューラルネットワークであるグラフニューラルネットワークです。グラフのノード間の依存関係をモデル化する強力な機能により、関連するグラフ分析の分野で研究を行ってきました。これは、学界や産業界にとって重要なテクノロジーとなっている画期的なテクノロジーです。

 

さらに、ディープラーニングフレームワークと組み合わせて使用​​できるいくつかのフレームワークがすでにあります。これは、グラフディープラーニングフレームワークの開発方向かもしれません。

 

【終わり】

よりエキサイティングな推奨事項

同時期の2 つの性質:動作温度が1Kを超える量子コンピューティングプラットフォームが登場!

GitHubスター10,000以上、ApacheのトッププロジェクトShardingSphereのオープンソースロード

香港科学技術大学の学者鄭廣定が未来について尋ね、AIの最新のアプリケーションと実践を公開する

☞200,000の法人と数百万の銀行口座情報がダークウェブで販売されている

イーサネットスクエア2.0カストディゲームとMPCを実装

☞9 つのMySQLインタビューの質問を非常に注意深く書きました。

あなたが注文するすべての「ウォッチング」、私はそれを真剣に受け止めます

リリース1985元の記事 ウォンの賞賛40000 + ビュー1845万+

おすすめ

転載: blog.csdn.net/csdnnews/article/details/105697465