[ODPS 新製品リリース第 2 号] リアルタイムデータウェアハウス Hologres: コンピューティンググループインスタンスを開始/JSON データ/ベクトル計算 + 大規模モデルおよびその他の新機能をサポート

Alibaba Cloud の ODPS シリーズ製品は、MaxCompute、DataWorks、Hologres を中核として、ユーザーの多様化するデータのコンピューティングニーズを解決し、ストレージ、スケジューリング、メタデータ管理における統合アーキテクチャの統合を実現し、交通、金融、科学のサポートに取り組んでいます。シーンデータの効率的な処理は、中国で最も初期に自社開発され、最も広く使用されている統合ビッグデータプラットフォームです。

この問題では次のことに焦点を当てます

ꔷ Hologres がコンピューティンググループインスタンスを起動

ꔷ Hologres は JSON データをサポートします

ꔷ Hologres ベクトル計算 + 大規模モデル機能

ꔷ Hologres の新しいデータ同期機能

ꔷHologres データ階層型ストレージ

新機能 - Hologres がコンピューティンググループインスタンスを起動

コンピューティンググループインスタンスは、高可用性展開をより適切に提供するために、コンピューティングリソースをさまざまなコンピューティンググループに分解することをサポートします。

アプリケーションシナリオ:

リソースの分離:書き込みと書き込みの間の相互作用、読み取りと書き込みの間の相互作用、大規模なクエリと小規模なクエリの間の相互作用、およびオンラインサービス間の相互作用、多次元分析、アドホックなど、さまざまなエンタープライズシナリオ間の相互作用によって生じるクエリジッター一部のビッグデータエンジンは、複数のコピーによる分離などの高コストのビジネスシナリオを実現するために、ストレージと計算の分離アーキテクチャを使用しません。
高可用性:サービスレベルの高可用性、ディザスタリカバリ、およびマルチアクティビティを備えていないソリューションの場合、企業はデュアル/マルチリンクを使用して高可用性、ディザスタリカバリ、およびマルチアクティビティを実現します。これには人的資源や人材などの高コストのビジネスシナリオが伴います。コンピューティングリソース。
柔軟な拡張と縮小:ビジネスの柔軟性に対する企業の高い要求に応えます。ビジネストラフィックの急激な増加には、トラフィックの処理に間に合うように拡張することができ、ビジネスの低ピーク時に容量を削減して、ビジネス資本の損失とコストを削減できます。。

特徴：

自然な物理リソースの分離:各コンピューティンググループ間には自然な物理リソースの分離があり、企業での使用によりコンピューティンググループ間の相互影響を回避し、ビジネスのジッターを軽減できます。
オンデマンドでの柔軟な拡張と縮小:コンピューティングとストレージは拡張性が高く、二重の弾力性を備えています。企業はオンタイムまたはオンデマンドでスケールアップ (スケールアウト)、オンデマンドでのホットな拡張と縮小 (スケールアップ) が可能です。
コストの削減:物理レプリケーションの実装に基づいて、物理ファイルは完全に再利用され、企業はオンデマンドでリソースを柔軟に使用でき、コストを最小限に抑えることができます。

製品デモコンピューティンググループインスタンス

Hologres コンソールに移動し、SQL を通じて新しい計算グループを作成し、対応するテーブルグループ (データ) 権限を付与します。計算グループを変更し、初期ウェアハウスを新しく作成した読み取りウェアハウスに変更します。クエリを実行すると、負荷全体が読み取り倉庫に転送されました。同時に、必要に応じて計算グループを開始および停止することができ、停止または開始の操作は SQL を使用して実装することも、インターフェイス上で視覚的に操作することもできます。同時に、コンピューティンググループのリソースもオンデマンドで調整でき、ページ上または CPO を使用して視覚的に操作できます。コンピューティンググループが使用する必要がなくなったときに、リソースを占有することなく、適切なタイミングで解放できます。リソース。

製品デモビデオを見る

新機能 - Hologres が JSON データをサポート

列指向の JSONB ストレージをサポートしてクエリ効率を向上させます

アプリケーションシナリオ:

クエリ効率:半構造化スキーマの場合、スキーマを事前に固定することができず、行ストレージが主に使用され、大規模なデータを計算する場合、大量のデータをスキャンする必要があります。クエリの効率性は企業のビジネスニーズを満たす必要があります。
ストレージ効率:カラムストレージの圧縮機能を使用できないため、圧縮率が低くなり、ストレージスペースが大きくなります。ストレージ効率は企業のビジネスニーズを満たす必要があります
データ処理:半構造化データの処理における比較的複雑な問題の場合は、データのクリーニング、抽出、変換などの操作が必要です。企業のより包括的な機能サポートのビジネスニーズを満たす必要があります。

特徴：

JSON データ処理メソッド:一般的な半構造化データ型として、JSON には 2 つのデータ処理メソッドがあります。

インポートとは、データ構造を解析し、強力なスキーマにデータを保存することを意味します。この方法の利点は、データがデータベースに保存される時点ですでに強力なスキーマデータであるため、クエリパフォーマンスとストレージパフォーマンスが優れていることです。欠点は、解析プロセス中にデータを強力なスキームに変換する必要があり、JSON データの柔軟性が失われることです。JSONkeyを追加または削減した場合は、解析プログラムを変更する必要があります。
もう 1 つの方法は、このデータ層をデータベースに直接書き込み、クエリ中に JSON 関数を使用して解析することです。この方式のメリットは、JSON データの柔軟性を最大限に保持できることですが、デメリットは、クエリのパフォーマンスが悪く、その都度適切な処理関数やメソッドを選択する必要があり、開発が煩雑になることです。

JSON データ処理方法の場合、Hologres は JSON データストレージ機能を最適化し、その欠点に応じて JSON データを保存できます。JSON データシステムは、書き込まれたキーと値の値に基づいて、保存できるデータ型を推測します。

柔軟で使いやすい:オプション 1 とは異なり、データは事前に強力にスキーマ化され、JSON データの柔軟性を最大限に保持します。
高い圧縮率:列型ストレージを使用すると、圧縮率が効果的に向上し、ストレージ領域を節約できます。
強力なクエリパフォーマンス:列ストレージを使用して、スキャンデータを削減し、IO 効率を向上させ、クエリ効率を向上させます。

製品デモ列 JSON 関数

JSON 形式で保存されたキー値データを含む、JSON 形式で保存された公開サンプルデータに基づいて、各行にはさまざまなビジネス上の意味を表すキーと値が含まれます。——このセクションCを使用して、年および月ごとにクローズされた問題の数をクエリし、システムが実行を開始します ——従来の実行方法とクエリ方法は、1行ずつスキャンしてキーと値を1つずつ取り出します合計時間は 55 秒かかります。——この時点で、データ列のストレージが有効になり、完了後にクエリを実行できるようになり、合計で 1.47 秒かかり、クエリ効率が大幅に向上しました。

製品デモビデオを見る

新機能 - Hologres ベクトル計算 + 大規模モデル機能

高性能ベクトルコンピューティングと大規模モデルを組み合わせて独自の知識ベースを構築

アプリケーションシナリオ:

エンタープライズレベルの大規模モデルのナレッジベースを展開する際の問題:

企業がモデルを展開する場合、コンピューティングおよびストレージリソースの高コスト、リソースの弾力性、大規模なモデルの展開などの問題が発生します。

業務でコーパスを処理する場合、元のコーパス処理プロセスが複雑になるコーパスデータが大量になると、ベクトルデータベースの記述能力やリアルタイム性の要求が高くなる知識ベースの質疑応答を行う場合QPSが高く、ベクトルデータベースのクエリ能力が高く、要件やその他のニーズがある。

企業が大規模なモデルのナレッジベースを構築すると、長いプロセス、多くの製品が関与すること、全体的なアーキテクチャ接続コストの高さ、アーキテクチャの接続の難しさなどの問題が発生します。

特徴：

Hologres + Proxima の全体的な利点:

Proxima は DAMO Academy が自社開発したベクトルエンジンであり、Faiss などのオープンソース製品よりも安定性とパフォーマンスが優れています。Hologres は、DAMO アカデミーが自社開発したベクトルエンジンである Proxima と緊密に統合されており、高 PQS と低遅延のベクトルコンピューティングサービスを提供します。その具体的な利点は次のとおりです。

高性能:統合されたデータウェアハウスを通じて、低遅延、高スループットのオンラインベクトルクエリサービスを提供します。ベクトルデータのリアルタイムの書き込みと更新をサポートし、書き込み後すぐにクエリを実行できます。
高いユーザビリティ:ベクトルデータをクエリするための統合 SQL クエリインターフェイス、PostgreSQL エコシステムと互換性があり、複雑なフィルタリング条件によるベクトル検索をサポート
エンタープライズレベルの機能:ベクトルコンピューティングおよびストレージリソースの柔軟な水平拡張。マスター/スレーブインスタンスアーキテクチャ、コンピューティンググループインスタンスアーキテクチャをサポートし、コンピューティングリソースの物理的分離をサポートし、エンタープライズレベルの高可用性機能を実現します。

Hologres+PAI は、大規模モデルのナレッジベースアーキテクチャと利点を導入します。

アーキテクチャは主に 3 つのレベルに分かれています

前データ前処理層:元のコーパスデータに対して、読み込みと分析後にテキストチャンクが形成され、その後 Embedding によってベクトル化されてコーパスベクトルデータが生成され、最終的にリアルタイムデータ Hologres に書き込まれます。
テキスト生成層:ユーザーの元の質問の場合、質問は最初に質問ベクトルに埋め込まれ、次に上位 K ベクトルが Hologres で取得されます。
最終生成層:トップ K コーパスが大規模モデルの入力として使用され、チャット履歴やプロンプトの最終推論などの大規模モデルの他の入力と組み合わせて、最終的な回答が得られます。ここの大規模モデルは、機械学習プラットフォームを通じて均一にデプロイできます。

アーキテクチャ上の利点:

簡素化されたモデル展開:モデルオンラインサービス PAI-EAS を介した LLM 大規模モデル推論サービスのワンクリック展開
コーパスの処理とクエリを簡素化:ワンクリックでコーパスデータのロード、スライス、ベクトル化、Hologres へのインポートを行うことができ、同時に Hologres の低遅延かつ高スループットのベクトル取得機能に基づいて、より高速で優れたベクトルをユーザーに提供します。検索サービス。
ワンストップのナレッジベース構築:手動接続が不要で、大規模モデルのデプロイ、WebUI デプロイ、コーパスデータ処理、大規模モデルの微調整を 1 つのプラットフォーム上で完了できます。

製品デモのデモンストレーション - Hologres+PAI は大規模なモデルのナレッジベースを展開します

Hologres インスタンスを開き、インスタンスの詳細ページのネットワーク情報にインスタンスのドメインを記録します。ログインインスタンスボタンをクリックして HoloWeb に入ります - 元のデータ管理ページでデータベースを作成し、データベースアカウント名を記録します - セキュリティセンターをクリックしてユーザー管理ページに入り、カスタムユーザーを作成して認証し、作成したユーザー名を記録します大規模なモデルのデプロイメントの場合、PAI-EAS を使用して大規模な LLM モデルをデプロイし、大規模なモデルの呼び出し情報を記録できます。デモでは、PAI-EAS を使用して langchain の WebUI サービスをデプロイします。 Web アプリケーションを使用して Web UI ページに入ります。設定ページで埋め込みモデルを設定します。デプロイしたばかりの LLM ラージモデルと Hologres ベクターストレージを設定できます。上記のファイルは、Json ファイルを使用してワンクリックで構成できます。[解析] をクリックし、関連する構成情報をワンクリックで入力します。同時に、「Hologres に接続」をクリックして接続をテストします。アップロードページに入り、コーパスデータを処理します。コーパスデータをアップロードし、テキストスライスに関連するパラメーターを設定し、[アップロード] をクリックしてデータを Hologres ベクターテーブルにインポートします。HoloWeb エディターに戻って更新すると、コーパスデータがベクターとして Hologres にインポートされます。先ほどの Web UI ページに戻り、チャットページに入り、最初にネイティブの ChaGLM 大きなモデルを試して「Hologres とは何ですか」と尋ねますが、結果は理想的ではありません。次に Hologres を使用して大きなモデルを微調整し、同じ質問、結果は正しい - langchain チャットボットページに戻り、情報を呼び出して上記のソリューションの API 呼び出しを完了します。

製品デモビデオを見る

新機能 - Hologres データ同期の新機能

ClickHouse、kafka、Postgres などのデータソースを Hologres に同期するためのサポートを追加しました

アプリケーションシナリオ:

同期パフォーマンス:エンタープライズデータのソースは多数あるため、データベース全体の同期、完全な増分同期、サブデータベースとサブテーブルのマージ、リアルタイム同期など、さまざまなデータ要件が生じます。
企業はデータプラットフォームを構築します。各データソースは特定の調整を行う必要があるため、高パフォーマンスの書き込みを実現するには、開発学生は特定の同期調整機能を備えている必要があります。
同期コスト:データソースが多く、対応するクライアント開発により開発者の初期費用が高額になる、同期パフォーマンスがビジネスニーズを満たせない、リソースが短期間で継続的に追加されコストが増加する、メタデータ管理データ同期中は困難です
ビジネスの運用と保守:自社構築のデータプラットフォーム、開発のライフサイクル全体、デバッグ、展開、運用と保守などはすべて開発学生によって管理されます。プロセス全体が非常に煩雑であり、リンク全体でデータの不整合がないかを 1 つずつチェックする必要があるため、コストがかかります。ある時点でデータに問題がある場合は、データのバックウォッシュが必要になります。バックウォッシュのソースは次のとおりです。異なるため、運用とメンテナンスのプロセスが非常に困難になります。

特徴：

Hologres データ同期機能の概要

Hologres は非常にオープンなエコシステムを備えており、Flink、DataWorks データ統合、Holo クライアント、JDBC、およびデータを Hologres に同期するその他の方法をサポートし、さまざまなビジネスのデータ同期とデータ移行のニーズを満たし、よりリアルタイムで効率的なデータ分析とデータを実現します。サービス能力

Flink は完全な互換性を備えており、リアルタイムのデータ書き込み、ディメンションテーブルの関連付け、読み取りなどを実現できます。
DataWorksデータ連携への高い適応性： DataWorksデータ連携への適応性が高く、例えばDataWorksがサポートする各種データソースは基本的にHologresに同期することが可能です。
Holo Client と Holo Shipper はすぐに使用できます。Holo Client を通じて、高性能のデータチェックと高性能のポイントツーライト更新を実現できます。同時に、Holo Shipper はデータインスタンスのデータベース全体の移行を実現できます。
標準 JDBC/ODBC インターフェイス:すぐに使用できる標準 JDBC/ODBC インターフェイスを提供します。

継続的な進化、Hologres データ同期の新機能

さまざまなビジネスニーズを満たすために、Hologres はデータ同期機能を継続的に更新しており、その新機能には次のような特徴があります。

ClickHouse のデータベース全体のオフライン移行: DataWorks データ統合に依存します。オフライン移行全体は 2 つの部分に分かれています: 1 つはメタデータの自動識別とマッピングで、もう 1 つはデータベース全体のデータを必要とせずに 1 回限りの同期です。従来の作業と同様に1テーブルに1つのテーブルを記述することで、開発・運用時のさまざまな不便を大幅に軽減し、ClickHouseデータのHologresへの迅速な移行を実現しました。
Kafak リアルタイムサブスクリプション: Kafak リアルタイムサブスクリプションは 2 つの方法で実現できます。1 つは、Flink が Kafka をサブスクライブし、それをリアルタイムで Hologres に書き込み、データウェアハウス層でリアルタイムデータウェアハウスのストリーミング ETL を実装することです。 2 番目に、DataWorks データ統合を通じてリアルタイムで Kafka を使用し、メッセージの変更は自動的に同期され、その後 Hologres に自動的に直接書き込まれます。Kafak データにはすぐにアクセスできます。
PostgreSQL リアルタイム同期: PostgreSQL データは、DataWorks データ統合を通じてリアルタイムで Hologres に同期されます。単一テーブルのリアルタイム同期をサポートするだけでなく、DDL 機能構成、データベース全体のリアルタイム同期、自動マッピングもサポートします。データベースとテーブル構造の完全な合計リアルタイムの増分データ同期により、開発同期の問題が大幅に軽減されます。

製品デモ - ClickHouse 全体のライブラリ同期

DataWorks データ統合インターフェイスで、ClickHouse および Hologres データソースを構成し、データソースの接続をテストします。テストに合格した場合は、次のステップに進むことができます。ClickHouse で同期する必要があるテーブルを選択し、シングルエンドタスクの速度などの高度な構成、同時実行、実行およびその他の構成、テーブルを確認して一度に Hologres に同期します - ターゲットテーブルのマッピング、バッチ更新ボタンをクリックしてテーブル構造のマッピングを実現します -同期タスクを開始し、約 2 分間待ちます - データの同期が完了すると、ページが更新されます。書き込まれたデータの数に基づいて上流のデータを検証し、データが合格したかどうかを確認できます - Hologres がデータ検証を実行しますテーブルに対して簡単なクエリを作成すると、クエリが完了します。

製品デモビデオを見る

新機能 - Hologres データ階層型ストレージ

アプリケーションシナリオ:

電子商取引の注文:ここ数カ月間、注文には頻繁にアクセスがあり、RT の感度は高く、履歴データのアクセス頻度は低く、レイテンシは敏感ではありません。
行動分析:最近のトラフィックデータの高頻度クエリには高い適時性が必要ですが、履歴データのクエリは頻度は高くありませんが、いつでも確認できることが必要です。
ログ分析:最近のデータは頻繁にクエリされますが、その後の監査とバックトラック作業を確実にするために、履歴データは長期間保存する必要があります。

特徴：

標準ストレージ:標準ストレージは、Hologres のデフォルトストレージであるフル SSD ホットストレージであり、主にテーブル全体のデータが頻繁にアクセスされ、アクセスパフォーマンスに対する高い要件があるシナリオに適しています。
低頻度アクセスストレージ:アクセス頻度は時間の経過とともに減少し、徐々にコールドデータになります。たとえば、一部のログデータは今年以降アクセスできなくなるため、コストを削減するためにデータを標準ストレージから低頻度ストレージに移行する必要があります。ルールに基づいてホットデータとコールドデータを自動的に変換する機能があれば、メンテナンスコストは、データ量が多く、アクセス頻度が低く、ストレージコストを削減する必要があるシナリオに適しています。
パーティションの動的ホットおよびコールド階層化:動的パーティション機能を通じてホットおよびコールドのパーティションフロールールを設定し、パーティションの動的なホットおよびコールド階層化を実現します。また、ホットおよびコールド階層化のコスト (北京市の年間サブスクリプションと月次サブスクリプションを例として挙げます)。ストレージは月額 1 GB あたり 1 元、低頻度保証ストレージは月額 1 GB あたり 0.144 元で、コストの約 7 倍の差があります。パフォーマンスの点では、標準的な TPC から ETB データを使用して測定されたテストセットの結果に基づくと、約 3 ～ 4 倍のギャップがあります。

製品デモ - コールドストレージテーブルステートメントを作成し、パーティションテーブルをセットアップする

たとえば、デモのテーブル作成ステートメントでは、テーブルの作成時にサイエンステーブルプロパティを設定すると、[実行] をクリックしてコールドストレージテーブルを作成できることが示されます。HG テーブルストレージステータスシステムテーブルをクエリすると、ストレージが次の表の戦略は期待に応えます。——テーブルの進捗状況はコールドで、これはストレージテーブルです。システムにすでに存在するこの標準ストレージのホットストレージテーブルについては、コマンドに従って個別に実行し、テーブルを指定して [実行] をクリックすると、コールドストレージの設定が成功します。すべてのデータがテーブルの既存の状態にあります。コールドストレージ低周波記憶媒体に完全に移動されました。——パーティションテーブルは 2 つの部分に分かれています。最初の部分では、通常のパーティションテーブルのコールドストレージテーブルを作成します。次に、このテーブルのストレージモードを設定します。パーティションテーブルの作成ステートメントパーティションテーブルのパーティションサブテーブルはデフォルトになりますストレージ戦略はデータベーステーブルとして記録されるため、個別に設定する必要はありません。——一方、あるパーティションの属性を変更したい場合、テーブルプロパティにパーティションサブテーブルのテーブル名を指定し、ストレージを設定するとします。特定のパーティションサブテーブルを変更するポリシーが、必要なホット属性とコールド属性に変更されます。動的パーティションテーブルの場合は、他のプロパティを設定する必要があります。

製品デモビデオを見る

Hologres5000CU を受け取った場合の無料トライアル: https://free.aliyun.com/?pipCode=hologram

DataWorks の無料トライアルを入手: https://free.aliyun.com/?pipCode=dide

MaxCompute5000CU受信時の無料使用：https://free.aliyun.com/?pipCode =odps