キュウビの導入メリット(公式サイトリンク)

公式サイトリンク:https://kyuubi.apache.org/

Apache Kokubi™ は、データ ウェアハウスおよびレイクハウス上のサーバーレス SQL 用の分散マルチテナント ゲートウェイです。

Ryubi は、さまざまな最新のコンピューティング フレームワーク (Apache Spark、Flink、Doris、Hive、Trino など) 上に分散 SQL クエリ エンジンを構築し、異種データ ソースから多数のマシンに分散された大規模なデータセットをクエリします。

以下のスイムレーンの Kyubi サーバー チャネルは、潜在的なユーザーをエンド ユーザーと管理者に分割します。一方で、計算とストレージの技術的な詳細がエンドユーザーから隠蔽されます。そのため、使い慣れたツールを使用してビジネスとデータに集中できます。その一方で、ビジネス ロジックの複雑さを管理者から隠します。その結果、メンテナンスのダウンタイムなしでサーバー側のコンポーネントをアップグレードしたり、エンドユーザーが何をしているのかを明確に理解してワークロードを最適化したり、クラスターとデータのセキュリティを確保するための認証、認可、監査などが可能になります。

ここに画像の説明を挿入
一般に、九尾の完全なエコシステムは上図に示す階層構造に分かれており、各層は疎結合になっています。上記のコンポーネントのいくつかを組み合わせて最新のデータ スタックを構築するのは子供の遊びのようなものです。たとえば、Kyubi、Spark、Iceberg を使用して Data Lakehouse を構築および管理したり、データ処理 (ETL など) やオンライン分析処理 (OLAP) (BI など) に純粋な SQL を使用したりできます。すべてのワークロードは、データの 1 つのコピーと 1 つの SQL インターフェイスを備えた 1 つのプラットフォーム上で実行できます。

ユニファイド ゲートウェイ
サーバー モジュールは、ユニファイド ゲートウェイとして機能します。このサーバーにより、エントリ ポイントを通じて任意のクラスター リソースへの簡単かつ安全なアクセスが可能になり、エンド (リモート) ユーザーへのさまざまなワークロードの展開が可能になります。この 1 つのエントリの背後で、管理者はクラスタへのリモート アクセスを 1 か所で設定、保護、制御できます。エンドユーザーは、より良いエクスペリエンスを実現するシームレスなデータ処理に必要な Kyubi エンジンを使用できます。

アプリケーション プログラミング インターフェイス
エンド ユーザーは、以下にリストされているアプリケーション プログラミング インターフェイスを使用して、サポートされているクライアントときゅうびサーバーの間で接続し、相互運用できます。現在の実装は次のとおりです。

Hive Thrift プロトコル
エンド ユーザーが Thrift クライアント (言語間サポート、tcp および http)、Thrift ベースの Java Database Connectivity (JDBC) インターフェイス、または JDBC ベースの Open Database Connectivity (ODBC) インターフェイスを使用できるようにする HiveServer2 互換インターフェイス。to-ODBC ブリッジは、Kyubi と通信します。

RESTful API
エンジン、セッション、オペレーション、その他の API を含むシステム管理 API を提供します。

これは、クライアントが SQL クエリを送信してクエリ結果を受信したり、メタデータ リクエストを送信してメタデータ結果を受信したりできるメソッドを提供します。

これにより、Spark ジョブなどのバッチ処理用のスタンドアロン アプリケーションを簡単に送信できるようになります。

MySQL プロトコル
エンドユーザーが MySQL コネクタ (Connector/J など) を使用して Kuubi と通信できるようにする MySQL 互換のインターフェイス。

さらに追加する予定です。
アイデアや質問がある場合は、メーリング リストにご参加ください。

マルチテナント
Kyubi は、エンドツーエンドのマルチテナントをサポートします。コントロール プレーンでは、Kyubi サーバーは集中認証レイヤーを提供し、データとリソースの漏洩のリスクを軽減します。LDAP や Kerberos などのさまざまなプロトコルをサポートし、クライアントとサーバー間のネットワークを保護します。データ プレーンでは、Kyubi エンジンは同じ信頼できるクライアント ID を使用して自身をインスタンス化します。リソースの取得、データおよびメタデータへのアクセスはすべて、独自のエンジン内で行われます。したがって、クラスター マネージャーとストレージ プロバイダーは、データとリソースを簡単に安全に保つことができます。さらに、Kyubi は、データ セキュリティ モデルをきめ細かい行/列レベルに最適化するためのエンジン認証拡張機能も提供します。詳細については、セキュリティのページをご覧ください。

高可用性
Ryubi は、指定された期間、障害なく継続的に実行されることを保証する高可用性 (HA) を考慮して設計されています。HA は、合意された運用パフォーマンスのレベルを満たす九尾を提供することに尽力しています。

ロード バランシング
マルチテナント アクセスのため、Kyubi は実際の運用環境での高可用性を確保する必要があります。

単一点障害を効果的に防止します。

計画的なシステムメンテナンスのためのダウンタイムゼロを促進します。

障害の検出可能性
きゅうびサーバーやエンジンの障害やシステム負荷をメトリクスやログなどで把握できます。

サーバーレス SQL など
Lakehouses のサーバーレス SQL により、エンド ユーザーはデータの世界から洞察を得て、データ パイプラインを最適化することが容易になります。できる:

RDBMS と同じユーザー エクスペリエンスで、使い慣れた SQL をさまざまなワークロードに使用します。

異種データ ソースにわたる広範囲かつ安全なデータ アクセス。

スケーラブルなコンピューティング リソースを使用して、大量のデータに対して高いパフォーマンスを実現します。

さらに、Kyubi は、より高度な使用のためにコード スニペットやスタンドアロン アプリケーションのサーバーレス送信もサポートしています。

使いやすさ
エンドユーザーは、最適化されたエクスペリエンスを実現するために、JDBC + SQL または REST + コードを使用してサーバーレス方式でデータの世界を探索できます。ほとんどのシナリオでは、Spark や Flink などの対応するエンジンのスーパーパワーは必要ありません。言い換えれば、デプロイメントとランタイムの最適化に関連する作業のほとんどは、Kyubi サーバー側の専門家によって実行される必要があります。次のシナリオに適用されます。

基本的な検出と探索
クラウド ストレージまたはローカル HDFS クラスターのデータ レイク内のさまざまな形式 (Parquet、CSV、JSON、テキスト) のデータを迅速に推論します。

Lake House の形成と分析
Hudi、Iceberg、または Delta Lake を使用して ACID テーブル ストレージ レイヤーを簡単に構築します。

論理データ ウェアハウスは、
ETL ジョブ (収集から結合まで) を必要とせずに、異種データに対するリレーショナル抽象化を提供します。

どこでも、どんな規模でも実行可能
ほとんどの Kyubi エンジン タイプには分散バックエンドがあり、実行時に分散タスクをスケジュールできます。単一ノード マシンまたは YARN や Kubernetes などのクラスターでデータを処理できます。さらに、Kyubi サーバーはベアメタルまたは Docker での実行もサポートしています。

ハイパフォーマンス
クエリのパフォーマンスは、サーバーレス SQL の実装における重要な要素の 1 つです。最先端のビッグ データ クエリ エンジンで保守性を実現することで、これを達成するための準備が整えられます。

最先端のクエリエンジン

複数のアプリケーションによる高スループット

共有可能な実行ランタイムにより低遅延を実現

サーバー側でのグローバルな継続的最適化

Z オーダー、クエリ オプティマイザーなどの補助パフォーマンス プラグイン。

サーバーレス SQL のもう 1 つの目標は、エンド ユーザーが難しいパフォーマンスの最適化をほとんど、またはまったく気にする必要がないようにすることです。

おすすめ

転載: blog.csdn.net/qq_43688472/article/details/131807782