[Yunqi 2023] Wang Feng: オープンソース ビッグ データ プラットフォーム 3.0 の技術的解釈

この記事は、2023 Yunqi Conference でのスピーチの記録に基づいて編集されています。

講演者: Wang Feng | アリババクラウド研究者、アリババクラウドコンピューティングプラットフォーム部門オープンソースビッグデータプラットフォーム責任者

講演テーマ: オープンソース ビッグ データ プラットフォーム 3.0 の技術的解釈

リアルタイムとサーバーレスは、オープンソースのビッグデータ 3.0 時代において避けられない選択肢です

Alibaba Cloud のオープンソース ビッグ データ プラットフォームは、Alibaba Group の社内ビジネス内で育成されています。2009 年には、アリババの急速に成長する電子商取引ビジネスにサービスを提供するために、オープンソースの Hadoop テクノロジー システムの使用を開始しました。アリババ内の Hadoop テクノロジー システムは当時 Yuntiyi と呼ばれていましたが、成熟するとクラウドへの移行が始まりました。私たちは、初のオープンソース ビッグ データ製品 E-MapReduce (略して EMR) を Alibaba Cloud 上でリリースしました。これをオープンソースビッグデータプラットフォームの第一段階である1.0時代と定義しており、これからはまさにクラウドネイティブ時代となります。

ビッグデータテクノロジーの進化に伴い、ビッグデータ処理はオフラインテクノロジーアーキテクチャからリアルタイムへと進化しており、Apache Flinkストリームコンピューティングテクノロジーの導入を開始しました。Alibaba は Apache Flink コミュニティに多くのリソースを投資し、徐々に最大のユーザーおよびコミュニティ プロモーターになりました。これまでに、Apache Flink はストリーム コンピューティングとリアルタイム コンピューティングの世界標準として発展してきました。同時に、Alibaba Cloud 上でリアルタイム コンピューティング クラウド製品サービスのリアルタイム コンピューティング Flink バージョンも開始しました。

EMRも技術的には常に進化しており、従来のHadoopデータウェアハウスアーキテクチャから、データレイクを核としたクラウドネイティブなデータレイクを中心とした技術アーキテクチャにアップグレードされており、リアルタイムとデータの2つの技術進化トレンドと呼んでいます。オープンソースビッグデータプラットフォーム2.0ステージとしてのレイク。

今年から、オープンソースのビッグデータ プラットフォームが次期どのように進化するかを考え、お客様により良いサービスを提供するために 3.0 アーキテクチャについて次のような技術的検討を行いました。

まず、リアルタイムのテクニカル分析をデータ レイク アーキテクチャと統合することを試み、リアルタイム データ ウェアハウス分析アーキテクチャである新世代の Streaming Lakehouse アーキテクチャを立ち上げました。

第 2 に、サーバーレス アーキテクチャの実装が深まり続けるにつれて、クラウド ネイティブ アーキテクチャの最終状態がどのようなものになるのかを検討し始めます。今年、私たちはオープンソースのビッグデータプラットフォームのすべてのコアコンピューティングコンポーネントとストレージコンポーネントをサーバーレスにしました。 

第三に、私たちは現在完全に AI 爆発の段階に入り、あらゆる階層が AI テクノロジーを使用して自らを革新し始めています。私たちは、新しい AI テクノロジーをビッグデータ プラットフォーム システムに導入して、ビッグデータ AI 統合の機能を実現し、プラットフォームのインテリジェントな運用保守とデータ管理を支援したいと考え、AI の統合の検討を開始しました。

今年から、私たちは新しいデータ分析アーキテクチャである完全なクラウドネイティブ アーキテクチャを採用し、AI と深く統合して新しい 3.0 アーキテクチャを作成しました。次に、いくつかの 3.0 プラットフォームの中核となる技術アーキテクチャ機能を選択して、私たちがこれまでに何を行ってきたか、どのような結果を達成したか、そして今後どのように開発していくかについてお話しします。

新世代のストリーミング レイク ウェアハウス

まず、新世代のデータ分析アーキテクチャであるストリーミング レイク ウェアハウスを紹介します。ユーザーの大多数は、従来の Hadoop Hive データ ウェアハウス アーキテクチャの限界とテクノロジー開発のトレンドを認識しており、新世代の Lakehouse 分析 Lakehouse アーキテクチャに向けて従来の Hadoop テクノロジーを進化させ始めていると思います。

新しい Lakehouse データ分析アーキテクチャにアップグレードすると、明らかに多くの利点があります。たとえば、新しい Lakehouse アーキテクチャはストレージと計算を完全に分離しており、スケーラビリティと柔軟性が向上しています。同時に、新しいデータ レイク形式により、リアルタイム サポートが向上し、クエリ パフォーマンスが向上します。レイクハウス アーキテクチャによってもたらされる利点は明らかです。

しかし、レイクハウスの建築は完璧なのでしょうか? まだこの段階に達していないと思います。これで、Lakehouse アーキテクチャにはリアルタイム方向でさらに開発の余地がまだあることがわかりました。これは、Lakehouse アーキテクチャを使用するときに多くのオープンソース ユーザーが遭遇する問題点でもあります。よりリアルタイムの処理パイプラインでデータを高速化し、従来のデータ ウェアハウスのように Lakehouse でデータをリアルタイムで分析する方法。

現在の Hucang では、完全なリアルタイム効果、さらには準リアルタイム効果を実現することはできません。その理由は、データ レイクのストレージ形式がリアルタイムの開発を制限しているためです。ご覧のとおり、現在のデータ レイク ストレージ形式は主に Iceberg、Delta、Hudi の 3 人の剣士によって構築されており、ユーザーやメーカーによって選択されるデータベース形式も異なります。ただし、Iceberg と Delta は、バッチ処理用に設計されたデータ レイク フォーマットです。これらは、バッチ コンピューティング エンジンとの連携により優れています。これらは、Lakehouse でバッチ処理を実装しており、マージによって更新される比較的強力なマイクロバッチ処理である場合もあります。このアーキテクチャでは完全なリアルタイム性を実現することはできず、リアルタイム性を特に細かくすることもできず、例えば分単位、さらには10分単位の粒度を実現することは非常に困難です。

Hudi の本来の目的は、この問題を解決し、リアルタイム データ レイク形式を実装し、リアルタイム更新を改善し、データ レイクの適時性を加速することでした。しかし、現在のアーキテクチャ設計とエンジニアリング実装の結果は期待を満たしておらず、多くの顧客は Hudi を使用する際に多くの落とし穴に遭遇し、システムの安定性、システムの運用と保守の複雑さの点で非常に大きな課題に直面しています。

実際、根本的な原因は、レイク ウェアハウス アーキテクチャにリアルタイム データ更新またはリアルタイム分析用に設計されたデータ レイク フォーマットがないことであることがわかります。昨年、私たちは Flink コミュニティで技術的な調査を実施し、PMF (市場の受け入れ) を確認することを目的として、Flink コミュニティで Flink Table Store と呼ばれる新しいサブプロジェクトを立ち上げました。Flink Table Store を通じて、リアルタイム更新を真に指向したデータ レイク フォーマットを設計することが非常に必要であることがわかりました。特に、リアルタイム ストリーミング コンピューティング エンジンである Flink を使用すると、リアルタイム データ チェーンを完全に実現できます。データ レイク レイクハウス アーキテクチャ、道路。 

このプロジェクトがより良く発展できるようにするために、私たちは今年このプロジェクトを Flink コミュニティから分離し、独立した Apache Foundation プロジェクトとして育成し、より大きな開発スペースを与え、Apache Paimon と名付けることにしました。

Paimon は、リアルタイム更新用に真に設計されたデータ レイク形式であり、完全にオープンであり、Flink だけでなく、Spark、Presto、Channel、StrarRocks などの主流のコンピューティング エンジンもサポートしています。

また、リアルタイム向けに設計されているため、パフォーマンスと安定性が非常に優れており、一般的なアプリケーション シナリオでは、オープンソースの Hudi ソリューションと比較して、Alibaba Cloud ストリーミング レイク ウェアハウス ソリューションの Upsert パフォーマンスは 4 倍以上向上しています。 、スキャンパフォーマンスは 4 倍以上向上し、10 倍以上向上しました。

したがって、Flink と Paimon に基づいて、一連のデータを使用して、レイクへのデータ全体のリアルタイム入力からレイク上でのリアルタイム ETL データ更新まで、新世代のストリーミング レイク ウェアハウス データ分析テクノロジを立ち上げました。 Lakehouse データ処理でフルリンク リアルタイムを実行するための統合 SQL。Paimon はオープンであるため、Spark、Presto、StrarRocks などの一般的に使用されるオープンソース分析エンジンをこのアーキテクチャに導入することもできます。また、Paimon データとシームレスに接続できる Alibaba Cloud の自社開発エンジン MaxCompute や Hologres も導入できます。 、完全にオープンな湖の倉庫システムを実現し、リンク全体で完全なエコロジーを実現し、リンク全体にわたるリアルタイムのデータの流れを実現するだけでなく、データ全体のリアルタイム分析も実現します。リンク。これは 3.0 全体のデータ分析アーキテクチャの進化傾向であり、Hucang のリアルタイム実装を促進します。

包括的なサーバーレス

次に、製品アーキテクチャについてご紹介します。当社製品とクラウド ネイティブの統合も重要な一歩を踏み出しており、オープンソースのビッグ データ プラットフォームが完全にサーバーレスになることを期待しています。実際、サーバーレス テクノロジーは数年前から研究されており、オープンソースのビッグ データ プラットフォームの最初のサーバーレス製品であるサーバーレス Flink は 2 年前に発売され、Alibaba Cloud の多くの顧客によって使用されています。

サーバーレス Flink を通じてお客様から多くの肯定的なフィードバックをいただいており、誰もがすぐに使えるオープンソース製品を使いたいと考えています。そのため、今年はさらに 4 つのサーバーレス オープンソース ビッグ データ製品 (コンピューティング用に 2 つとストレージ用に 2 つ) をリリースしました。コンピューティングには、ユーザーの間で最も人気のある Spark と StarRocks を選択し、これら 2 つのエンジンは、EMR Serverless StrarRocks と近々リリースされる EMR Serverless Spark という 2 つのコンピューティング サーバーレス製品を発売しました。

同時に、ストレージに関しても 2 つのサーバーレス製品を発売しており、1 つ目は OSS オブジェクト ストレージ チームと共同で発売したフルマネージドのサーバーレス HDFS 製品である OSS-HDFS です。もう 1 つのデータ レイク管理製品は、HMS プロトコルと完全に互換性のあるフルマネージドのサーバーレス ソース データ管理サービスです。これらの製品を組み合わせることで、ほぼすべてのビッグデータシナリオの処理と分析を実現できます。

1年間でサーバーレス・ビッグデータ製品を4つも立て続けに投入できたのは、ひとえに当社の技術蓄積によるものです。サーバーレスに対するすべての要求は、ビッグデータサーバーレスプラットフォームベースに蓄積され、このプラットフォームベースは、Alibaba Cloud のさまざまな異種ハードウェアとリソースプールを保護し、ネットワーク分離、リソース分離などを含むマルチテナントシステム管理の完全なセットを提供します。新しいサーバーレスビッグデータ製品を迅速に開発できるようになります。

サーバーレスフリンク

最初の製品は、Alibaba Cloud の上流と下流のストレージを接続できるサーバーレス Flink で、データベース、データ レイク、データ ウェアハウス、メッセージ キューなど、Alibaba Cloud 上のすべての主流ストレージ データ ソースにワンクリックで接続できます。ワンストップの SQL 開発プラットフォームには、すぐに使えるインテリジェントな運用保守管理サービスが含まれています。同時に、アリババ社内で広く使用されているサーバーレスFlink製品のFlinkコアエンジンに大幅な最適化を施し、オープンソースのFlinkエンジンと比較してパフォーマンスが2~3倍向上しました。したがって、サーバーレスの Flink 製品を使用すると、開発を効率化するのに便利なだけでなく、運用効率の面でもコストを大幅に節約できます。

今年上半期に発売されたもう 1 つの新しいサーバーレス データ製品はサーバーレス StarRocks で、主に OLAP シナリオのリアルタイム インタラクティブ分析におけるユーザーのニーズに対応しており、現在 OLAP またはリアルタイム分析もホットなトピックとなっています。オープンソース業界で最も主流または最高の OLAP エンジンは StarRocks であると評価しており、EMR で最初のサーバーレス OLAP 製品をリリースするために StarRocks を選択しました。StarRocks は完全にベクトル化された C++ エンジンであるため、パフォーマンスは非常に優れており、数十をサポートします何千もの同時実行。

サーバーレス StarRocks

同時に、StarRocks の最新バージョンでは、実際にストレージとコンピューティングの分離アーキテクチャをサポートし、製品全体のクラウドネイティブ機能と組み合わせて、ユーザー ビジネス間の柔軟性と分離を考慮した仮想ウェアハウス機能が開始されました。このストレージと計算の分離により、StarRocks とデータ レイクを接続できます。ストリーミング レイク ウェアハウスは、レイク上に大量のリアルタイム更新データを生成します。現時点では、サーバーレス StarRocks を使用して、レイク上のリアルタイム更新データをクエリできます。インスタント クエリにより、レイクとウェアハウスの統合効果が得られます。大きな湖と小さな倉庫と呼ばれるレイアウト。

サーバーレススパーク

今年のもう 1 つの大ヒットサーバーレス製品は、サーバーレス Spark です。Spark は、オープンソースのビッグ データ システムで最も一般的に使用されているコンピューティング エンジンであり、EMR で見られる最も重要なコンピューティング エンジンでもあると私は考えています。

近年、お客様の運用保守負担の軽減、開発効率の向上、さらには運用効率の向上に貢献できる、真のフルマネージド、オペレーションフリー、サーバーレスのSpark製品を望む声がユーザーから寄せられ続けています。そのため、私たちは今年、包括的なサーバーレスという目標の下で多くのリソースを投資し、サーバーレス Spark 製品を作成しました。これは間もなくテストされ、商品化される予定です。

Serverless Spark 製品は、実際には、以前の 2 つの Flink および StarRocks Serverless 製品の利点を統合しています。ワンストップ開発とインテリジェントな運用と保守をすぐに実装でき、従量課金制は完全に柔軟です。データレイクなど。また、Serverless SparkにはCelebornをベースとしたサーバーレスデータサービスが組み込まれており、ローカルディスクへの依存を排除​​し、データ計算全体の完全なサーバーレス化を実現します。

サーバーレスHDFS(OSS-HDFS)

いくつかのサーバーレス コンピューティング製品についてお話しましたが、次に、非常に重要な製品がもう 1 つあり、それはサーバーレス ストレージ製品です。私たちの名前はサーバーレス HDFS で、正式な製品名は OSS-HDFS で、OSS チームと共同で構築された製品形式です。

HDFS がビッグ データ業界の事実上の標準ファイル システム プロトコルであることは誰もが知っています。データをデータ レイクに移動するユーザーが増えるにつれ、ユーザーは引き続き HDFS プロトコルを使用してデータ レイク上のデータにアクセスしたいと考えています。計算はすべて互換性があります。

したがって、OSS データを一見無限にあるクラウド HDFS にパッケージ化し、多くのユーザーのニーズを満たすこともできます。そこで今年、私たちは OSS チームと共同で、HDFS と完全な互換性を持つ OSS-HDFS サーバーレス ファイル システムをリリースしました。これにより、多くのユーザーがローカル HDFS クラスターを自分で維持する必要がなく、運用とメンテナンスの複雑さが解消されます。完全な従量課金制で、非常に優れた柔軟性を備えています。私たちが計算した元のウェアハウス データと組み合わせることで、インテリジェントなデータ分析を行うことができ、ホット データとコールド データの階層化により、ユーザーはコストを削減し、効率を向上させることができます。

先ほども述べたように、サーバーレスはオープンソースのビッグデータ 3.0 におけるクラウドネイティブ アーキテクチャの進歩であり、将来的にはサーバーレス側の製品がさらに登場するでしょう。

よりスマートなオープンソースのビッグデータ

現在、AI は活況を呈しており、Alibaba Cloud のオープンソース ビッグデータ プラットフォームでも、ビッグデータ プラットフォーム システムに AI テクノロジーが導入されており、インテリジェントなプラットフォームの運用と保守、またはデータ管理を支援しています。今年は、お客様に広くご利用いただいているインテリジェントな運用保守ツール「EMR Doctor」および「Flink Advisor」と、Alibaba Cloud 社内プラットフォームの運用保守をアップグレードし、平均クラスター問題特定時間を​​ 30% 短縮し、クラスターの有効活用を実現しました。クラスターリソースの割合が 75% 増加しました。

周知のとおり、EMR には Hadoop、Hive、Kafka、Spark、Flink、Presto などのコンポーネントが多数あるため、EMR 製品の運用とメンテナンスは非常に困難です。システムに問題が発生した場合、どのように対処するかが重要になります。問題を迅速に特定することは、ユーザーにとって非常に面倒なことです。場合によっては、問題が発生していない場合でも、ユーザーはクラスター全体のリソース使用率とストレージ効率を改善したいと考えます。

以前は、すべて人間の経験に基づいていました。当社はここ数年、お客様が人間の生身でこれらの問題を解決できるよう支援するために多くのエンジニアを投資してきましたが、近年ではこれらの経験と知識をAIのナレッジベースとルールベースに蓄積し、それらをいくつかの従来の技術と組み合わせています。機械学習アルゴリズムとデータ分析: この方法は、問題をインテリジェントに特定し、クラスターを最適化し、問題を解決するための提案をユーザーに提供します。

また。また、Flink 製品についても多くの実践を行い、インテリジェントな診断サービス Flink Advisor を立ち上げました。これは、ユーザーが開発と運用のライフサイクル全体で、タスクがなぜ失敗したか、どこで失敗したか、そしてそれを修正および改善する方法を特定するのに役立ちます。タスクに問題がない場合でも、潜在的なリスクを判断するためにタスクのヘルス チェックを実行します。この機能はヘルス スコアに似ており、ユーザーがリスクが発生する前に予防策を講じるのに役立ち、ユーザーにいくつかのインテリジェントな提案を提供します。ユーザーはタスクを最適化できます。実はこれらはすべて、ビッグデータやAIと組み合わせた分析技術を使って行われています。

最後に、AI に関して開発者が最初に注目する言葉はベクトル検索であると思います。AI 時代では、すべての非構造化データはベクトルで表現できるようになり、ベクトル検索技術が春の雨後のキノコのように湧き出てきます。現在、業界にはさまざまなオープンソースのベクトル検索技術が存在しますが、評価の結果、Milvus テクノロジーが現在最も人気があり、ユーザーからの需要が最も高いベクトル検索技術であると考えられます。そのため、オープンソースのビッグデータ プラットフォームも開始されます。オープンソースに基づくフルマネージドのサーバーレスベクトル検索サービス Milvus エコシステム、Alibaba Cloud の PAI 機械学習プラットフォーム、およびさまざまな大規模モデルは、AI シナリオでのベクトル検索のニーズを持つ顧客にサービスを提供する、完全なビッグデータ AI 統合技術ソリューションを形成します。

以上が、オープンソースビッグデータプラットフォーム3.0の中核となる技術アーキテクチャと技術開発動向の共有です。私たちは、これらの新しいテクノロジーが製品に実装され、顧客にサービスを提供し、顧客からフィードバックが得られることを願っています。ご清聴ありがとうございました。

Microsoft、新しい「Windowsアプリ」 .NET 8を正式にGAリリース、最新LTSバージョン XiaomiはXiaomi Velaが完全にオープンソースであり、基盤となるカーネルはNuttXであることを正式に発表 Alibaba Cloud 11.12 障害の原因が明らかに:Access Key Service(アクセスKey) 例外 Vite 5 が正式にリリースされた GitHub レポート : TypeScript が Java に取って代わり、3 番目に人気のある言語になる Rust で Prettier を書き換えるために数十万ドルの報酬を提供 オープンソース作者に「プロジェクトはまだ生きていますか?」と尋ねる 非常に失礼で、失礼な バイトダンス: AI を使用して Linux カーネル パラメータ 演算子を自動的に調整する 魔法の操作: バックグラウンドでネットワークを切断し、ブロードバンド アカウントを無効化し、ユーザーに光モデムの変更を強制する
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/5583868/blog/10142058