openGemini の新機能は、エンタープライズおよびコミュニティ開発者との未来を勝ち取るために HDC でリリースされました

2023年7月7日、中国の東莞市西村でファーウェイ開発者会議2023(クラウド)が正式に開幕した。7 月 8 日、openGemini アーキテクト Xu Ran は、openGemini の 2 つの主要な新機能、ログ取得と高基数ストレージ エンジンをオープン ソース フォーラムでリリースしました。

写真

ログの取得

アプリケーションの数と IT システムの規模が増加するにつれて、大量のログ データが生成されます。これは、ストレージ コストの増加、データ書き込みとクエリのパフォーマンスの向上、ストレージ システムのスケーラビリティと安定性の向上などを意味します。既存のログストレージシステムは軽量でElasticsearchが主流ですが、ライセンス認証、ストレージコスト、パフォーマンスや安定性など課題が山積 エンタープライズレベルの高性能・低コストの大規模ログストレージ・分析システムが特に必要です。

写真

Xu Ran 氏は、「ログは重要な種類の時系列データであり、時系列データベース ストレージを使用することがより適切ですが、単純なログ データ ストレージはビジネスにとって意味がありません。ログ データは他の時系列データとは異なります。全文インデックス、現在および将来の膨大なログ データの保存と分析によってもたらされる技術的課題を解決するには、インデックスの作成とインデックスの取得の両方で新たな技術的ブレークスルーを模索する必要があります。openGemini コミュニティが設計および開発しました。新しいワード セグメンタとインデックス データ構造。読み取りおよび書き込みのパフォーマンスが向上し、メモリ リソースの消費が少なくなります。さらに、openGemini は列指向ストレージと専用のデータ圧縮アルゴリズムを使用するため、ストレージ コストが大幅に削減されます。」

写真
 

HSCE 高基数ストレージ エンジン

高カーディナリティとは何かをよりよく理解するために、まず、データ セット内のさまざまな値の数を表すカーディナリティとは何かを説明する必要があります。たとえば、表には Bool 型を使用して表すフィールドがあります。サービス ステータス。データ セットには true と false の 2 つの値しかないため、基数は 2 です。しかし、ナンバー プレート番号のようなデータ セットの場合、簡単に数百万、さらには数千万に達する可能性があり、基本的な数値は非常に大きくなります。

一般に、時系列データの取得を容易にするために、通常、いくつかのタグ (メタデータ) が時系列データに関連付けられ、タグ値に基づいてデータがクエリされ、フィルタリングされます。時系列データベースでは、システムのカーディナリティは各タグのカーディナリティの外積であり、タイムラインの総数とも呼ばれます。

時系列データベースでは、より高速にデータを取得するために、タイムラインごとにインデックスが作成されます。ベースが大きくなるほど、タイムラインの数も増えます。これにより、インデックスが大幅に拡張され、インデックスのスキャン遅延が大幅に増加し、時系列データベース: 読み取りおよび書き込みのパフォーマンス、これはカーディナリティが高いことの問題です。

写真

Xu Ran 氏は、「高カーディナリティの問題の本質は、インデックスのパフォーマンスとメモリ リソースの消費です。従来の逆インデックスは、高カーディナリティのシナリオでは密なインデックス作成に近似しており、インデックス作成のオーバーヘッドが大きくなります。同時に、効果はほとんどありません」と述べています。データフィルタリングに関する問題を解決するには、既存のタイムライン反転インデックスを放棄する必要がありますが、問題を根本的に解決するには、メモリリソースの消費量を削減し、より効率的なインデックス検索の技術的ソリューションを求める必要がありますが、これは簡単ではありません。openGeminiはAPシステムからインデックス設計のアイデアを取得します。時系列データとビジネスを組み合わせます。 特徴: 高基数のストレージ エンジンを開発し、より適切なデータ クラスタリングと並べ替え方法を使用し、カーディナリティに依存しないスパース インデックスを構築することでデータ フィルタリングとクエリのパフォーマンスを向上させました。

写真

実際のアプリケーションシナリオのテストデータから、InfluxDB は書き込み時に OOM が発生することがわかり、ClickHouse と比較して、新しいストレージ エンジンの書き込みパフォーマンスは 3 倍、同時クエリのパフォーマンスは 10 倍以上向上しています。

要約する

この機能カンファレンスで、openGemini はエンタープライズレベルの高性能、低コストのログ ストレージおよび分析ソリューションを提供します。同時に、openGemini は、タイミングにおける高カーディナリティの問題の解決に焦点を当てた、新しいストレージ エンジン HSCE も発表しました。これにより、openGemini をより広範なタイミング ビジネス シナリオで使用できるようになります。

ログ取得であろうと高基数エンジンであろうと、その背後にはまだ非常に大きな技術的課題とワークロードが存在します。私たちはログ取得などの最適化と改善を継続するために最善を尽くします。コミュニティは現在、最も一般的に使用されている 3 つをサポートしています。クエリ方法: 完全一致、フレーズ一致、あいまい一致。フィードバックに基づいて新しいニーズがあれば、引き続き新機能を追加します。もう 1 つの例は、高カーディナリティのストレージ エンジンです。ほとんどの集計関数はまだサポートされていません。コミュニティは 9 月から 10 月に作業を完了する予定です。しばらくお待ちください。

どなたでもフィードバックをお試しください。私たちの投資は限られています。openGemini で良い仕事をするには、より多くの企業や開発者がコミュニティに参加する必要があります。そうすれば、オープンソースがより多くの企業や開発者に利益をもたらし、優れたオープンソースを作成できるようになります。コミュニティ文化. パートナーも大歓迎です コミュニティに参加して、一緒に未来を構築、統治し、共有しましょう!

PS: コミュニティでは、ソース コード分析、カーネル テクノロジの共有、コミュニティへの貢献、ソリューション、ビジネス シナリオ、パフォーマンス比較テストなどを含むがこれらに限定されない投稿を募集しています。不思議な贈り物があなたを待っています。連絡先: xiangyu5632

技術文書のリファレンス:

  1. https://docs.opengemini.org/zh/guide/geminiql/sql_syntax/DDL/create_measurement.html

  2. https://docs.opengemini.org/zh/guide/geminiql/sql_syntax/DML/text_retrieval.html


    openGemini公式ウェブサイト:http://www.openGemini.org

    openGemini オープンソース アドレス: https://github.com/openGemini

    openGemini パブリック アカウント:

    注目へようこそ~openGeminiコミュニティに参加して、一緒に未来を構築、管理、共有することを心から歓迎します!

オープンソース フレームワーク NanUI の作者がスチールの販売に切り替えたため、プロジェクトは中断されました。Apple App Store の無料リストのナンバー 1 はポルノ ソフトウェア TypeScript です。人気が出てきたばかりなのに、なぜ大手はそれを放棄し始めるのでしょうか。 ? TIOBE 10月リスト:Javaが最大の下落、C#はJavaに迫る Rust 1.73.0リリース AIガールフレンドにイギリス女王暗殺を勧められた男性に懲役9年の実刑判決 Qt 6.6正式リリース ロイター:RISC-Vテクノロジーが中米テクノロジー戦争の鍵となる 新たな戦場 RISC-V: 単一の企業や国に支配されない レノボ、Android PC の発売を計画
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/3234792/blog/10110210