時系列データベースの概要と従来のデータベースとの違いを詳しく解説

ここ数年、モノのインターネット (IoT) の人気の高まりとリアルタイム データの必要性により、時系列データベース (TSDB) の採用が大幅に増加しました。DB-Engine のランキングによると、TSDB の人気は他のタイプのデータベースを上回り、Graph DBMS に次いで 2 番目です

時系列データを保存、管理、分析するための重要なツールとして、時系列データベース (TSDB) の需要は今後も高まり続けると考えられます。まだよく知らないという方のために、この記事では時系列データベースとは何か、時系列データのデータベースがなぜ必要なのかを包括的に紹介します。

時系列データとは

近年の時系列データベースの人気について語るには、なぜ時系列データの処理に特別に最適化されたデータベースが必要なのかを最初に説明する必要があります。一般的なリレーショナルデータベースでは満たせないのでしょうか?

いわゆる時系列データは、非常に一般的な観点から見ると、時間とともに変化するいくつかの値 (Value) であり、同時にこれらの値には Key=Value で構成されるいくつかのタグが付いています。

通常、次の 3 つの属性が含まれます (Wikipedia より)。

時系列

名前 (多くの場合メトリックと呼ばれます) と一連の Key=Value ラベル (ラベル、または一般にタグと呼ばれます) で構成される一意の識別子。

キーと値のペア (タイムスタンプ、値)

タイムスタンプと値で構成されるキーと値のペアは、通常、タイムスタンプに従って並べ替えられます。これらのキーと値のペアは、通常、サンプルと呼ばれます。

価値

ポイント 2 の値は通常、温度、湿度、CPU、メモリ使用量などの数値ですが、任意のデータ構造 (構造化および非構造化の両方) にすることもできます。

時系列データの場合

たとえば、天気予報 Web サイトの余杭市の 15 日間の天気予報のスクリーンショットを撮ります。

最高温度と最低温度の 2 つの線を分析すると、ここでの 3 つの属性は次のとおりです。

  1. タイムラインは次のとおりです: a. 毎日の最高気温 + <地域=余杭> b. 毎日の最低気温 + <地域=余杭>
  2. タイムスタンプと最高気温の値で構成されるシーケンスは、8/29 から 09/06 までの 15 個のキーと値のペアであり、その値は 1 日の最高気温です。最低気温も同様です。
  3. ここで、Value は温度、つまり数値です。たとえば、8/29 の最高気温は 36 ℃、最低気温は 25 ℃です。

時系列データは天気予報情報以外にも以下の分野に広く存在します。

株価: 株式アナリストやトレーダーが特定の株価の傾向と方向性を理解できるようにします。

健康モニタリング: 特定の薬を服用している可能性のある患者の心拍数やその他の健康値を監視するために医療分野で使用されます。

産業およびモノのインターネット用の物理センサー: さまざまな温度、湿度、速度、加速度、方向、心拍数、血中酸素、および製造業で広く使用されているさまざまなスマートフォン、スマートカー、スマートホームなどに含まれるその他のセンサーが含まれます。 、医療およびその他の産業では、さまざまなセンサーが常に大量のセンサーデータを一定または不定期に生成しており、主に機器や人体の日常的および異常な監視、およびこれらの大量のデータマイニングに基づくインテリジェントなアプリケーションに使用されます。インテリジェント製造の生産ライン最適化)、自動運転)など。

ソフトウェア センサー: 従来の DevOps での侵入型プローブの監視、クラウド ネイティブ環境での非侵入型プローブ (eBPF およびサービス メッシュ データ プレーン プローブに基づく現在人気の非侵入型プローブ ソリューションなど)、さまざまなソフトウェア、さまざまなインジケーターの主な目的組み込みデータは、ビジネス サービスの継続的かつ安定した運用を確保するために、日常的なソフトウェア アプリケーションや異常なソフトウェア アプリケーションを監視するためのものであり、AIOps 分野の現在の発展と相まって、時系列データの使用規模と粒度についてもより高い要件が求められています。

時系列データの特徴

  • データは比較的頻繁かつ安定して生成され、その頻度は一般に安定しており、人々の日内活動サイクルによって変化することはありません。センサーの種類が多く、業界や地理的位置のラベルが多数あるため、データとタイムラインの規模は非常に大きくなります。そして、スマート デバイス (ウェアラブル デバイス、スマート カー、スマート マニュファクチャリング) の人気と、これらのデータ アプリケーションに対する人々のより高度な要求に伴い、そのようなデータの規模は急速に拡大しています。
  • データの変更特性は追加のみの方法に似ており、データは継続的に追加され、更新シナリオは少なくなります (ただし、特に弱いネットワーク環境では、データの遅延は依然として発生します)。通常、データは有効期限に基づいて削除されます。 . 期間ごとにまとめて削除します。
  • データ活用としては、日常監視や異常監視が最も一般的であり、これらのデータをもとに視覚的な監視レポートや警報システムを構築し、特に金融分野においては将来の動向予測、つまり時系列予測が行われます。

時系列データが非常に重要な理由

時系列データは新しいデータ タイプではありませんが、DB-Engines の分析によると、その人気と使用量はここ数年で大幅に増加しています。次のような無視できない要因がいくつかあります。

  • インターネットの発展と多くの産業のデジタル化。これは、Web サイトのトラフィック、ソーシャル メディアのアクティビティ、センサーの測定値などの大量の時系列データの生成に直接つながります。
  • 機械学習アルゴリズムの開発。リカレント ニューラル ネットワーク (RNN) や長短期記憶 (LSTM) ネットワークなど、これらのアルゴリズムは時系列データ分析に適しており、この種のデータから貴重な情報を抽出しやすくなり、時系列データに機会が与えられます。さらなる価値を生み出すために。
  • 予測分析の台頭。このため、時系列データは傾向と将来の結果を予測するための重要なツールになります。
  • 金融、医療、交通などの分野でのニーズ。これらの分野ではリアルタイムの意思決定のニーズが高まっており、時系列データ分析はこれらの急速に変化する状況に対処できます。

時系列データベースとは

ウィキペディアの定義によると、時系列データベース (Time Series Database) は、時系列データ処理に特化して最適化されたデータベースであり、ドメイン データベースの一種であり、グラフ データベース処理やグラフ ストレージなどの特定のビジネス分野のデータ処理サービスのために設計されています。検索では、文書データベースは半構造化文書の保管と検索に使用され、検索エンジンは特に非構造化テキストの検索に使用されます。

時系列データベースの特徴

上で説明した時系列データに伴う特性と課題に対処するために、TSDB は多くの手法を採用しています。これらの典型的な特性には次のようなものがあります。

ログ構造のマージツリー(LSMツリー)

LSM ツリーは、書き込み負荷の高いワークロード向けに最適化されたディスク ベースのデータ構造で、一連の層でデータをマージおよび圧縮することで効率的なデータの取り込みと保存を可能にします。これにより、書き込み増幅が軽減され、従来の B ツリーと比較して書き込みパフォーマンスが向上します。

時間ベースのパーティショニング

時系列データベースは通常、時間間隔に基づいてデータを分割するため、クエリがより高速かつ効率的になり、データの保持と管理が容易になります。このアプローチは、頻繁にアクセスされる最近のデータと、アクセス頻度が低い古いデータを分離し、ストレージとクエリのパフォーマンスを最適化するのに役立ちます。

データ圧縮

時系列データベースは、デルタ エンコーディング、ゴリラ圧縮、辞書エンコーディングなどのさまざまな圧縮技術を使用して、ストレージ容量の要件を削減します。これらの技術は、時系列データの時間的および値ベースのパターンを利用して、データの忠実性を失うことなく効率的なストレージを可能にします。

組み込みの時間ベースの関数と集計

時系列データベースは、移動平均、パーセンテージ、時間ベースの集計などの時間ベースの関数のネイティブ サポートを提供します。これらの組み込み機能により、ユーザーは従来のデータベースと比較して、より効率的に、少ない計算オーバーヘッドで複雑な時系列分析を実行できます。

時系列データベースを選ぶ理由

上記の紹介から、時系列データベースという特定の分野でデータベースが必要な理由についての予備的な答えも得られます。

時系列データの特性、スケール、アプリケーションに基づいて、時系列データベースはターゲットを絞った最適化を行うことができます。ストレージにはカスタマイズされた圧縮アルゴリズムが採用され、ストレージ形式には時系列の大量書き込みとクエリのシナリオに最適化された行と列の混合ストレージ形式が採用されます。クエリ演算子 タイミングのためのタイム ウィンドウ関連関数をさらに導入し、タイミング モデルのためのクエリ プロトコルを最適化し、データ削除のためのより柔軟な有効期限戦略を採用します

これらのドメイン固有の最適化により、時系列データベースは、ドメインの機能、パフォーマンス、コスト、安​​定性などの点で、汎用データベースに比べて大きな利点を得ることができます。

要約する

時系列データベースは、モノのインターネット、財務データ分析、監視および警報システム、エネルギー管理、ヘルスケア アプリケーション、およびその他の「時間」に敏感な業界で広く使用されています。時系列データベースを使用して時系列データを分析および予測することにより、企業はデータから貴重な情報を取得し、より多くの情報に基づいた意思決定を行い、独自の競争上の優位性を得ることができます。

しかし、時系列データベースとリレーショナル データベースには互換性がないわけではありません。通常、ビジネス システムでは依然としてリレーショナル データベースが広く使用されているため、時系列データとビジネス データをより便利に組み合わせて、より大きなビジネス価値を生み出すことができるかが課題の 1 つです。シリーズデータベースを解決する必要があります。


グレップタイムについて:

Greptime Greptime Technology は、スマート カー、モノのインターネット、可観測性など、大量の時系列データを生成する分野にリアルタイムで効率的なデータ ストレージと分析サービスを提供し、顧客がデータの深い価値を発掘できるよう支援することに取り組んでいます。現在、主な製品は次の 3 つです。

  • GreptimeDB は、Rust 言語で書かれた時系列データベースであり、分散型、オープンソース、クラウド ネイティブであり、企業が長期ストレージ コストを削減しながら、リアルタイムで時系列データの読み取り、書き込み、処理、分析を行うのに役立ちます。

  • GreptimeCloud は、可観測性、モノのインターネット、その他の分野と高度に統合できるフルマネージド DBaaS サービスをユーザーに提供できます。

  • GreptimeAI は、LLM アプリケーション向けに調整された可観測性ソリューションです。

  • 車両とクラウドの統合ソリューションは、自動車会社の実際のビジネス シナリオに深く入り込み、企業の車両データが急激に増加した後の実際のビジネスの問題点を解決する時系列データベース ソリューションです。

GreptimeCloud と GreptimeAI は正式にテストされています。最新の開発状況については、公式アカウントまたは公式 Web サイトをフォローしてください。 GreptimDB のエンタープライズ バージョンに興味がある場合は、アシスタントに連絡してください (アシスタントを追加するには、WeChat で greptime を検索してください)。

公式サイト:https://greptime.cn/

GitHub: https://github.com/GreptimeTeam/greptimedb

ドキュメント: https://docs.greptime.cn/

Twitter: https://twitter.com/Greptime

スラック: https://www.greptime.com/slack

LinkedIn: https://www.linkedin.com/company/greptime

1990 年代生まれのプログラマーがビデオ移植ソフトウェアを開発し、1 年足らずで 700 万以上の利益を上げました。結末は非常に罰的でした。 高校生が成人式にオープンソースプログラミング言語を自作―ネチズンの鋭いコメント: 詐欺横行でRustDesk依存、国内サービスの タオバオ(taobao.com)は国内サービスを一時停止、ウェブ版の最適化作業を再開 Java最も一般的に使用されている Java LTS バージョンは 17 、Windows 11 は減少し続ける Open Source Daily | Google がオープンソースの Rabbit R1 を支持、Microsoft の不安と野心; Electricがオープンプラットフォームを閉鎖 AppleがM4チップをリリース GoogleがAndroidユニバーサルカーネル(ACK)を削除 RISC-Vアーキテクチャのサポート Yunfengがアリババを辞任し、将来的にはWindowsプラットフォーム用の独立したゲームを制作する予定
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/6839317/blog/11046036