[2023 Yunqi] Chen Shouyuan: Alibaba Cloud のオープンソース ビッグデータ製品の年次リリース

この記事は、2023 Yunqi Conference でのスピーチの記録に基づいて編集されています。

講演者: Chen Shouyuan | アリババ クラウド コンピューティング プラットフォーム部門、オープンソース ビッグデータ製品担当ディレクター

講演テーマ: Alibaba Cloud のオープンソース ビッグデータ製品の年次リリース

クラウド コンピューティングの継続的な発展に伴い、将来のデータ処理とアプリケーションのトレンドは、クラウド ネイティブ、サーバーレス、データ + AI を中心に展開することになります。中でも、クラウドネイティブ アーキテクチャは、データ処理とアプリケーションの拡張性と柔軟性を向上させ、大規模な展開と応答時間の短縮をサポートできるため、主流のトレンドになっています。同時に、新しいコンピューティング モデルとしてのサーバーレスは、処理効率の向上、運用コストの削減、リソースの無駄の削減が可能であり、そのユニークな特性により、大規模なデータの処理に理想的な選択肢となります。さらに、データと AI の統合が急速に発展しており、インテリジェンスと自動化の度合いは常に向上していますが、同時にアルゴリズムの精度と有効性をサポートするために高品質のデータが必要です。

EMR: 次世代のレイクウェアハウスと包括的なサーバーレスに向けて

製品リリース プロセスに入りましょう。クラウド上のユーザーにより良いサービスを提供するために何をすべきか、どのリリースを行うかという上記 3 つの点に焦点を当て、製品の主要なリリースについて説明します。

まずはEMRについて見ていきましょう。EMR は、クラウドネイティブなオープンソースのビッグデータ プラットフォーム システムです。EMR の場合、オフライン IDC。オープンソースの Hadoop エコシステム上に構築された多数のオフライン ユーザーは、クラウドに移行する際の最初の目的地として EMR を選択します。変換コストが非常に小さいため、クラウドへの移行はほぼシームレスに行うことができます。これはユーザーにとって人的資本と機械資本の大幅な節約になります。当社では、Alibaba Cloud EMR を、ユーザーが Web サイトをクラウドに移行するための最初のストップとして位置付けています。

今年は製品マトリクスを刷新し、より多様化したクラウド上のIaaSをベースとした多様なEMR製品形態を提供していきたいと考えています。EMR Universal Edition によって解決されるユーザーの問題の中核は、ユーザーのビッグ データ システムのクラウドへの移行を支援することであり、これはユーザーのオフライン展開との互換性が最も高いソリューションでもあります。2 つ目は EMR コンテナのバージョン、つまり EMR ACK のバージョンです。現在、ITインフラのクラウドネイティブなコンテナ化は人々の心に深く根付いており、多くのお客様がクラウド上にITシステムを構築する際に、Alibaba CloudのACKなどコンテナ化されたプラットフォームを選択することになります。ユーザーは、データと AI のワークロードを IT インフラストラクチャの同じクラスターに移行して、データと AI のワークロードを IT 施設のワークロードと混合できるようにする方法を自然に考えることになります。EMR コンテナ バージョン (EMR onACK) は、ユーザーがそのような問題を解決するのに役立つ製品です。問題があります。

今日最後に強調したいのは、EMR サーバーレス バージョンです。EMR サーバーレス サブ製品ラインについては、一部の内部機能が以前に Yunqi でリリースされています。今日は、EMR サーバーレス製品ラインのより完全なマトリックス プレゼンテーションです。今日は、2 つの主流 EMR コンピューティング エンジン、サーバーレス Spark とサーバーレス StrarRocks のサーバーレス化に焦点を当てます。また、今日、完全な EMR サーバーレス製品ライン マトリックスを正式に提案します。

EMR サーバーレス バージョンは、EMR 製品ラインでリリースされた最新世代の製品およびテクノロジーであり、実際、EMR のサーバーレスに関するレイアウトは 1 年前と 2 年前に本格化しました。以前のOSS-HDFSとサーバーレスHDFSは、実は昨年と一昨年にリリースしましたが、今年はさらに力を入れて、主流のビッグデータコンピューティングエンジン、ストレージエンジン、開発プラットフォーム、メタデータ管理をEMR上に統合したいと考えています。すべてサーバーレスです。この方法によってのみ、クラウド ネイティブ ユーザーをより満足させ、ビッグ データをより効果的に活用することができます。サーバーレス Spark はレイク ウェアハウス シナリオにおけるデータ ETL 処理機能をより適切に解決し、サーバーレス StrarRocks はレイク ウェアハウス シナリオにおけるデータ分析機能をより適切に解決し、サーバーレス HDFS はレイク ウェアハウス シナリオにおけるデータ ストレージ機能をより適切に解決し、最後に EMR Stutio がユーザーの移行を支援します。オフライン エクスペリエンスをクラウドに移行することで、ユーザーは運用とメンテナンスを不要にしながら、クラウド上のビッグ データ インフラストラクチャをより効果的に利用できるようになります。したがって、今年 EMR は、コンピューティング、ストレージ、開発環境のほぼすべての側面を実装しました。EMR のメイン エンジンとプラットフォームはサーバーレスにすることができます。私たちは、ビッグ データの開発と運用のループ全体を閉じて、クラウド ネイティブの開発者がさらに支援できるようにしたいと考えています。ビッグデータを上手に活用しましょう。

EMR のメイン シーン、つまり湖の倉庫シーンを中心に多くの更新を行った EMR のユニバーサル バージョンに戻りましょう。EMR の主なシナリオは依然として Hucang の処理を​​中心に展開しており、Hucang のコンピューティング、ストレージ、運用と保守、開発を中心に多くの更新が行われています。コンピューティング レベルでは、私たちのコアはコストの削減と効率の向上です。IaaS レイヤーは新しい Etian CPU に適合し、PaaS レイヤーには Native Spark RunTime があります。これらはすべて IaaS レイヤーと PaaS レイヤーからのもので、ユーザーのコスト削減をより効果的に支援します。コストを削減し、効率を向上させます。ストレージ部分では、サーバーレス HDFS (OSS-HDFS とも呼ばれます) がかなり前にリリースされていますが、今年はサーバーレス HDFS とローカル HDFS が、ファイル パフォーマンス、データなどの使用レベルで同じユーザー エクスペリエンスを実現することが期待されています。アクセス、ソース データ取得やその他のソリューションはほぼ同じです。上記の目標を達成するために、私たちはシステム パフォーマンスの最適化とシステム セキュリティの最適化を数多く行ってきました。オープン ファイルのパフォーマンスの向上とソース データへの DU のアクセスの向上はすべて今年の成果です。

EMR の運用と保守には、主に 2 つの側面が反映されます。クラウド上では、EMR をクラウド ネイティブと組み合わせて、柔軟性にあるプラットフォームの価値をユーザーにさらに高めることができます。今年、私たちは多くの柔軟性の最適化を行いました。多くのお客様から、EMR のプラットフォームの柔軟性がますます安定してきているというフィードバックが寄せられています。運用とメンテナンスのもう 1 つの重要なポイントは EMR Doctor です。私たちは、ユーザーが AI、自動化、インテリジェントを通じてオープンソースのビッグデータ運用を解決できるよう支援したいと考えています」運用および保守プラットフォームの方法、次元の問題。コミュニティのオープンソース ビッグ データ ユーザーからのフィードバックから判断すると、オープンソース ビッグ データを使用する際の最大かつ最も困難な点は、システムの運用と保守です。クラウド上でビジネスが長期的に健全に運営されることを効果的に保証する方法は、クラウド内外でオープンソースのビッグデータを使用する場合、多くのユーザーにとって非常に大きな問題点であり、EMR Doctor はこの問題を解決します。EMR 開発、つまり EMR Studio では、開発プラットフォームとスケジューリング プラットフォームのクラウドネイティブのサーバーレス ホスティングにより、ユーザーがオフライン エクスペリエンスからクラウド上の一連のエクスペリエンスに完全に移行できるようになることを期待しています。上記はすべて、カン湖シーンに関する EMR からの主要なアップデートです。

最後に、EMR For AI の話に戻りますが、当社の各製品は前向きな変化を取り入れており、EMR DataScience、EMR Doctor、EMR+DataWorks の Code Pilot の 3 つの部分に分かれています。EMR DataScience は EMR のコンテナ バージョンに含まれており、Pytorch や TF などの最も人気のある AI コンポーネントの多くが組み込まれた EMR DataScience と呼ばれる新しいクラスターを提供しています。私たちは、ユーザーが 1 つのプラットフォームでビッグ データを処理し、AI ツールをクラウドでネイティブに処理できることを望んでおり、これは EMR DataScience がユーザーの実行を支援する関連作業です。前述したように、EMR Doctor は、AI ベースのインテリジェントな方法を使用してユーザーが AIOps を実装できるようにし、自動化された手段を使用して問題を特定し、問題を診断し、問題を早期に検出できるようにしたいと考えています。EMR+Dataworks、今年の DataWorks の大きなリリースはコード パイロットのリリースですが、プラットフォームとしては実際には EMR などと接続されており、コード パイロットはプラットフォーム エンジンから独立した機能でもあり、 EMR で HIVE を生成します。コードを使用すると、ユーザーは DataWorks 上の開発プラットフォームを使用して、自然言語を通じて MaxCompute SQL を生成し、ビジネスを運営できます。これにより、ユーザー開発コードのコストを大幅に削減できます。DataWorks がパブリック ベータ版を提供するときに、ぜひお試しください。

Flink Streaming Lakehouse: 新世代のストリーミング レイクハウス ソリューション

フリンク ストリーミング レイクハウスを見てみましょう。実はここ数年、Lakehouse という概念が非常に人気になっているのですが、その理由は、Lakehouse システムが ACID、バージョン管理、データ形式の検証などを含むデータ ウェアハウスの厳密性を備えていると同時に、データ ウェアハウス: Lake の柔軟性により、写真、ビデオ、オーディオ、画像などを含む大量の非構造化テキストに対応できます。Lakehouse は構造化データと非構造化データの両方を運ぶことができ、ユーザーにとって AI とビッグデータを統合するための非常に優れた基盤となるストレージ ソリューションです。しかし、Lakehouse を検討したところ、Lakehouse には適時性の点で非常に大きな問題があることがわかりました。Flink の中核となる使命と価値は、お客様がビッグデータのリアルタイム変換とアップグレードを解決できるよう支援することです。そこで、Flink コミュニティが私たちと協力して、Streaming Lakehouse ソリューションをリリースしました。

Streaming Lakehouse の話に戻り、プロダクトの方向性から 3 つのシナリオのポイントを中心にお話します。前述したように、Lakehouse のソリューションは構造化データと非ステージデータの両方を保存できるため、AI 時代にはますます重要になり、ビッグデータと AI の統合ストレージの重要な軸となります。ただし、Lakehouse は依然として実際には適時性の問題に直面しています。Lakehouse データ パイプライン全体が直列に接続されている場合、時間レベルの遅延に達する可能性があります。最初のデータ入力から BI や AI などのデータ値の使用まで、全体のデータ パイプラインを見ることができます。データ リンクが時間レベルに達すると、ユーザーがリアルタイムのレイク ウェアハウスを構築するのに実際に大きな遅延が生じます。したがって、Flink は、ユーザーが Lakehouse をリアルタイムで実装できるように支援し、ストリーミングとリアルタイムを通じてユーザーが大幅な改善を達成できるように支援したいと考えています。

実際、Flink コミュニティはここ数年、統合バッチとストリーミングに焦点を当ててきました。私たちは、コンピューティング レベルでの統合、つまりストリーミングとバッチ処理の統合を実現したいと考えています。私たちがオープンソース コミュニティでストリーミング バッチ統合ソリューションを推進したとき、ユーザーがコンピューティング レベルで統合するだけでは、問題の半分しか解決できないことがわかりました。問題の半分はストレージにあります。ストレージは依然として 2 セットのストレージ ソリューションです。2 セットのストレージと 2 セットのデータでは、オフラインおよびリアルタイムのデータの不整合が発生します。これはユーザーにとって非常に大きな問題です。そのため、Flink チームとコミュニティが協力してパイモンが建てられました。Paimon は、基盤となる分散ファイル システムに基づいています。たとえば、OSS は、ストリームとバッチの両方に使用できる統合ストレージを構築します。これをバッチ ストリーム統合ストレージと呼びます。したがって、Flink+Paimon は、統合プロセスと統合ストレージの両方を備えた Lakehouse ソリューションを構成しており、このレイヤーの組み合わせにより、ユーザーは統合されたフローバッチ ソリューションを実現することができます。これが当社のストリーミング レイクハウスの価値ポイントであり、最終的には、ユーザーがデータ + AI 時代にリアルタイムのストリーミングおよびサーバーレスのレイクハウス ソリューションを提供できるように支援したいと考えています。

Flink の本筋に戻りますが、私たちの使命は常にユーザーによるビッグ データのアップグレードと変換を支援することでした。そのため、リアルタイム シナリオでの費用対効果の追求が常に Flink チームの取り組みの方向性でした。今年、リアルタイムの費用対効果を追求する上で重要なポイントは 2 つあります。1 つは、Flink が Yitian を完全に採用し、Yitian と組み合わせたことです。Flink の全体的なリアルタイム コンピューティング パフォーマンスは 50% 向上しました。これは、Flink がチームは IaaS レベルで多くの最適化を行いました。同時に、オペレーターの最適化を含め、PaaS レイヤーの Flink エンタープライズ レベルのカーネルで多くの最適化を行っており、将来的にはネイティブ ランタイムの最適化についても発表する予定です。オープンソースの Flink エンジンと比較すると、この部分の最適化により、リアルタイム コンピューティングの Flink バージョンの改善が 2 倍になり、特にスループットの部分で、高スループットまたは大規模なトラフィックを伴う多くのユーザーのリアルタイム コンピューティング シナリオを解決できます。

Elasticsearch:サーバーレス 和 データとAIの検索

次に、オープンソースのビッグデータの重要な部分でもある Elasticsearch について話しましょう。Elasticsearch に関して言えば、おそらくほとんどの人がまだ比較的初期のデータ検索、つまり検索エンジンによる全文検索と同様の全文検索に行き詰まっているのではないでしょうか。しかし、今日私が言いたいのは、この考えを一新する必要があるということです。Elasticsearch はデータの検索であるだけでなく、AI の検索でもあります。今日は、ES がデータからデータ + AI 検索システムにどのように変換されるかに焦点を当てます。

1 つ目は、Elasticsearch バージョンのリリースです。率直に言って、現在の製品形態、つまり PaaS 上の ES の独立クラスタ版は、中国のパブリック クラウドおよびプライベート クラウドの顧客の多くの市場ニーズを非常によく満たしており、多くの中堅および大企業が Alibaba Cloud の ES 製品を高く評価しています。製品の顧客層は、基盤と将来の成長の両方の点で非常に良好です。しかし実際には、過去 2 年間、顧客がコスト削減と効率向上を議題に掲げてきたため、非常に大規模な潜在顧客だけでなく、中規模およびロングテールの顧客ももたらされる利点に依然として関心を持っていることが判明しました。クラウド上の独立したクラスター バージョンによるコストは、依然としてクラウド導入の比較的大きな参入障壁であると考えられています。彼らは、低しきい値またはゼロしきい値の方法でクラウド上で ES を開始することを非常に望んでいます。これが私たちの ES サーバーレスの本来の目的です。私たちは、ユーザーがゼロしきい値の方法でクラウド上で Elasticsearch を使い始めるのを支援したいと考えています。」

同時に、Elasticsearch Serverless は、一般的なシナリオをサポートする中国初の ES バージョンでもあります。昨年、Elasticsearch サーバーレス バージョンもリリースしましたが、これはログ ELK シナリオのニーズにさらに対応したものでした。ただし、このバージョンではデータの一貫性に問題があるため、今年は製品の技術アーキテクチャの再構築を多数実施します。ESサーバーレスの今回のリリースは、一般シナリオ向けのアップグレードリリースであり、ログシナリオだけでなく、注文、財務などのシナリオもサポートしており、データの整合性も十分に保証されています。これは、今年リリースしたアップグレードと昨年とで大きく異なる点です。ES サーバーレスは、従量課金制、第 2 レベルの弾力性、シンプルな運用とメンテナンスを真に提供でき、他の多くのベンダーが実現できない可能性があるオープンソース ES と完全な互換性を備えています。

以下では、ES の AI とデータの部分に焦点を当てます。これは、ES がデータからデータ&AI までの真の検索エンジンであることを示しています。Yunqi 会場の外には、ES Company のメジャー リリースである ESRE のリリースに焦点を当てた大きな広告欄があります。このリリースの核心について簡単に説明すると、マルチチャネル並列クエリ最適化を含むベクトル検索を含む AI 関連の検索をサポートすることであり、これらはすべて、ユーザーが AI 検索を実行できるようにするための ES カーネルに焦点を当てています。Alibaba Cloud ES は、ES の最新の AI 機能を中心とした多数のソリューションを統合しています。これは右側の拡張ソリューションです。当社は DAMO アカデミー AI ソリューションおよび PAI-EAS ソリューションと提携しており、さらに多くの共同ソリューションについてコミュニティと協力する予定です。これらのソリューションは、ユーザーがクラウド上の Alibaba Cloud と DAMO アカデミーをより効果的に利用できるように支援します。AI テクノロジーは優れています。コミュニティの ES と統合されます。したがって、このバージョンの ES8.9 がユーザーによる次世代のデータ + AI 指向の検索システムの構築に役立つことを願っています。

ES の自己調査機能のアップグレードに関して、Alibaba Cloud ES は ES 企業と協力しており、さらに最適化とインキュベーションを行うためにオープンソース ES にも基づいています。実際、完全にオープンソースに基づいており、オープンソースと完全な互換性があります。 . 多くの機能強化を行いました。ここでは、シナリオのアップグレード、つまりログシナリオの一般シナリオへのアップグレードと変換を含む 3 つのアップグレードが行われています。昨年の ES はログ シナリオと ELK シナリオに重点を置いていましたが、今年は ES サーバーレスが一般的なシナリオに完全に対応します。さらに、読み取りと書き込みの分離、ストレージとコンピューティングの分離など、検索カーネル エンジンの最適化が行われ、クラスターの安定性、コスト フロー制御、リソースの弾力性の問題をより適切に解決できます。最後に、購入リンクと関連コンソールで比較的大規模なエクスペリエンス アップグレードを行いました。完全なサーバーレス ES を体験するには、Alibaba Cloud ES サーバーレス バージョンを使用することを強くお勧めします。

Milvus:AI時代の検索エンジン

本日最後、今年の完全新作です。フロント部分はすべて当社の既存機能と既存製品群を重ね合わせたもので、今年リリースするAI時代の新しい検索エンジン「Milvus」です。現在、Milvus はベクトル検索部分において、世界で最もホットで最も注目を集めているテクノロジーです。12月にはベクター検索版Milvusの外部テストを開始し、オープンソースのMilvusと比較して、対応製品をエンタープライズレベルで強化する予定です。同時に、オープンソース互換の Milvus に加えて、DAMO Academy のテクノロジーも組み合わせて、より優れたエンタープライズレベルのベクトル検索機能を提供します。同時に、ユーザーが取得したりクエリしたりできるストレージ内の大量の非構造化データなど、製品の共同作業の多くをクラウド上で行うことは間違いありません。同時に、PAI プラットフォームと DAMO アカデミー AI モデルとのより詳細な統合を行い、AI ベクトル検索機能とより大きなモデル ベクトルのサポートを開発し、これらのソリューションは将来的に当社の製品上に構築される予定です。したがって、私たちは最終的には、クラウド上のMilvusを使用するユーザーが、AI時代の検索システムをより速く、より便利に、より低い敷居で構築できるように支援したいと考えています。

先ほど説明したビッグデータの 3 つのトレンドを振り返ってみましょう。クラウド ネイティブ、IT 投資全体がクラウドへの変革を加速しています。サーバーレス、私たちは将来すべての PaaS プラットフォームが最終的にサーバーレスになり、すべての AI 製品、ビッグデータ製品、その他の PaaS 製品がサーバーレスになると信じています。最後に「Data+AI」ですが、将来的にはAIとビッグデータが徹底的に融合するため、オープンソースのビッグデータ全体がこの3点を中心に積極的に計画を立てています。

最後に、皆さんが Alibaba Cloud とそのオープンソースのビッグデータにもっと注目してくれることを願っています。

Microsoft、新しい「Windowsアプリ」 .NET 8を正式にGAリリース、最新LTSバージョン XiaomiはXiaomi Velaが完全にオープンソースであり、基盤となるカーネルはNuttXであることを正式に発表 Alibaba Cloud 11.12 障害の原因が明らかに:Access Key Service(アクセスKey) 例外 Vite 5 が正式にリリースされた GitHub レポート : TypeScript が Java に取って代わり、3 番目に人気のある言語になる Rust で Prettier を書き換えるために数十万ドルの報酬を提供 オープンソース作者に「プロジェクトはまだ生きていますか?」と尋ねる 非常に失礼で、失礼な バイトダンス: AI を使用して Linux カーネル パラメータ 演算子を自動的に調整する 魔法の操作: バックグラウンドでネットワークを切断し、ブロードバンド アカウントを無効化し、ユーザーに光モデムの変更を強制する
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/5583868/blog/10149103