10分には理解してApacheのドルイド(時系列データウェアハウスのセット、フルテキスト検索データ記憶装置の1つ)

REVIEW:Apacheのドルイドは、時系列データベース、データウェアハウス、および全文検索システムのセットは、分析データプラットフォームの一つで特徴です。この記事では、単純にドルイド、使用シナリオ、技術的な機能とアーキテクチャの特性を理解するために行くことができます。これは、ストアプログラムデータの選択、ドルイドの保管の深い理解、時系列ストレージの深い理解に役立ちます。

Apacheのドルイドは、高性能なリアルタイム分析データベースです。

概要

  • 現代のクラウドネイティブ、ネイティブストリーム、分析データベース

    ドルイドは、迅速なクエリや高速なデータ摂取ワークフローとデザインのためです。強力なUIに強いドルイド、操作クエリが実行され、高性能な並列処理されます。ドルイドは、多様なユーザデータウェアハウスシナリオを満たすために、オープンソースの代替とみなすことができます。

  • 既存のデータパイプラインとの容易な統合

    ドルイドメッセージバスは、湖のバルク・ロードは、(例えばHDFS、アマゾンS3、及び他の同様のデータソース)のストリーミングデータ(例えば、カフカ、アマゾンキネシス)から、またはデータファイルから取得されてもよいです。

  • 100倍の高速化、従来のソリューションのパフォーマンスより

    データ取り込みのためのドルイドベンチマークデータのクエリと大幅に従来のソリューションを超えています。

    ドルイドのアーキテクチャは、データウェアハウス、時系列データベース及び検索システムの最良の特徴を組み合わせます。

  • ロック解除新しいワークフロー

    クリックストリームのためのドルイド、APM(アプリケーションパフォーマンス管理システム)、サプライチェーン(サプライチェーン)、ネットワークテレメトリ、検索、ワークフローに新しい方法のロックを解除するデジタルマーケティングおよび他のイベント駆動型のシナリオ。ドルイドは、リアルタイムデータと履歴データとビルドで迅速なアドホッククエリのために設計されています。

  • AWS / GCP /アズール、ハイブリッドクラウド、K8S、レンタルサーバーにデプロイ

    ドルイド* NIXは、どのような環境で展開することができます。内部環境やクラウド環境かどうか。ドルイドの展開は非常に簡単です:サービスの追加や削除によってボリュームの減少に展開。

利用シナリオ

リアルタイムのデータ抽出、高性能・高クエリシーンの高可用性要件に適したApacheのドルイド。したがって、それは通常、バックグラウンドが高い同時急速な重合APIを必要とする豊富なGUIを持つ、またはドルイド解析システムであるとして。ドルイドは、イベントデータに適しています。

より一般的な使用シナリオ:

  • ストリーム分析(Webおよびモバイル解析)をクリックします

  • リスク管理分析

  • テレメトリネットワーク分析(ネットワークパフォーマンスモニタ)
  • ストレージサーバーのメトリック
  • サプライチェーン分析(製造業指数)
  • アプリケーションのパフォーマンス
  • リアルタイムのためのビジネスインテリジェンス/ OLAP分析システムオンライン

以下は、これらの利用シナリオを詳細に分析します。

ユーザーの活動と行動

ドルイドは、多くの場合、クリックストリーム、ストリーム・アクセス、および活動データをストリーミングで使用します。製品のA / Bテストデータを追跡メジャーユーザ係合、解放を、ユーザーが使用する方法を理解する:特定のシナリオが含まれます。ドルイド近似計算を正確に行うことができ、ユーザーの指標は、例えば、カウントインデックスが繰り返されることはありません。日活ユーザとして近似値指標(98%の平均精度)を計算することができ、この手段は、全体的な傾向を表示する、または正確に第二における利害関係者に示すために計算します。ドルイドは、何らかのアクションを行うユーザー数を測定するための「ファンネル分析」のために使用することができますが、別の操作をしませんでした。これは、製品の追跡登録ユーザーに便利です。

ネットワークの流れ

ドルイドは、多くの場合、ネットワークのフローデータを収集し、分析するために使用します。セグメンテーション属性の任意の組み合わせでのデータの流れを管理するために使用することドルイド。ドルイドは、ネットワークフローレコードの多くを抽出し、かつ迅速に問合せ時にネットワークフロー解析を助け組み合わせと順序プロパティの数十、にすることができます。これらのプロパティは、コアの一部は、このような場所、サービス、アプリケーション、デバイス、およびASNなど、いくつかの追加アドオン強化された特性、を含む、IPやポート番号などの属性を含んでいます。ドルイドは、あなたが望む任意のプロパティを追加することができることを意味し、非定常モードを、処理することができます。

デジタルマーケティング

ドルイドは、多くの場合、ストアとクエリデータオンライン広告に使用します。これらのデータは、通常、広告サービスプロバイダから来て、その対策キャンペーンの結果を理解、浸透をクリックして、コンバージョン率(消費)と他の指標が不可欠です。

ドルイドはもともと広告アプリケーションのための強力なユーザー指向の分析データであるように設計されました。広告データの保存に関しては、ドルイドは、生産の練習、数千台のサーバーに保存されている世界PBレベルのデータの周りに多数のユーザーが多数存在します。

アプリケーションパフォーマンス管理

ドルイドは、多くの場合、アプリケーションが動作データを生成してもよい追跡するために使用されます。そして、同様のシナリオを使用して、ユーザの活動は、これらのデータは、データの指標とすることができるユーザとアプリケーションとの対話は、アプリケーション自体によって報告された方法についてことができます。ドルイドドリルは、ボトルネックを配置、アプリケーションの異なるコンポーネントのどのような特性を発見するために使用され、問題を特定することができます。

多くの従来のソリューションとは異なり、ドルイドは、より少ない複雑性、より高いデータ・スループットをより小さなメモリ容量を有します。それはすぐに何千もの属性アプリケーション・イベント、および負荷、パフォーマンスと使用率メト​​リックの計算の複雑さを分析することができます。例えば、95パーセントのクエリAPIの端末遅延に基づいて。私たちは、どのような組織に分割して、データセンターの場所の統計によるような、ユーザーの統計的な肖像画のような時間のための日のセグメンテーションデータ、のような一時的な属性データを、カットすることができます。

物事の指標と設備

ストアインデックスデータ処理装置とサーバへの時系列データベースソリューションとしてDriud。収集リアルタイム機械生成データ、パフォーマンスを測定するために、最適化ハードウェアリソースを迅速に中間解析を実行し、障害を見つけます。

多くの異なる伝統と時系列データベース、ドルイドは、本質的に分析エンジンです。ドルイドは、時系列データベース、カラムベースのデータベース概念分析、および検索システムを組み合わせます。これは、単一のシステムでは、時間ベースのパーティショニング、柱状ストレージ、インデックス作成と検索をサポートしています。問い合わせの時、デジタルコンバージェンスは、クエリと検索に基づいてフィルタリングすることは、特に高速であろうと、この手段。

あなたの指標に百万ユニークなディメンション値を含むことができ、かつ寸法の任意のランダムな組み合わせでグループおよびフィルタ(dimension次元のドルイドは、時系列データベースタグと同様です)。あなたはグループをタグ付けし、ランクに基づいて、複雑な指標の数を計算することができます。そして、あなたはより速く、タグ上の伝統的な時系列データベースより検索し、フィルタすることができます。

OLAPおよびビジネス・インテリジェンス

ドルイドは、多くの場合、ビジネスインテリジェンスシナリオで使用します。同社は、クエリと強化されたアプリケーションをスピードアップするためにドルイドを展開しました。インタラクティブUIデータクエリによって増強のHadoopとSQLエンジン(例えばプレストまたはハイブなど)の異なる、ドルイド高い並行性とサブ第クエリデザインに基づい。これは、ドルイドは本当の視覚的な対話型の分析に適しています。

テクノロジー

Apacheのドルイドは、オープンソース分散データストレージエンジンです。ドルイドのコア設計のコンバインは、ユースケースの広い範囲に適した統一されたシステムを作成するために、分析データベース、時系列データベース、およびアイデア/検索システムをOLAP。Druidの摂取層へのシステム・インテグレーション(データ摂取層)、格納形式(フォーマット記憶層)、層(クエリレイヤ)を照会し、コアアーキテクチャ(コアアーキテクチャ)これら3種類のドルイド主な特徴。

IMG

ドルイドの主な機能は次のとおりです。

  • 柱状ストレージ

    ドルイドは、圧縮されたデータの列ごとに別々に記憶されています。そして、クエリクエリはのみのランキングとGROUPBY、高速スキャンが可能、クエリの特定のデータにする必要があります。

  • ネイティブの検索インデックス

    ドルイドは、高速検索やフィルタリングのデータを達成するために、文字列値の転置インデックスを作成します。

  • バルクデータの摂取をストリーミング

    ボックスのApacheカフカ、HDFSのうち、AWS S3コネクタコネクタは、プロセッサを流れ。

  • 柔軟なデータモデル

    ドルイドは優雅に変化するデータ型とネストされたデータパターンに適応します。

  • 時間のパーティションベースの最適化

    ドルイド時間ベースのインテリジェントなデータパーティション。したがって、ドルイドベースのクエリ時間が大幅に高速化従来のデータベースよりになります。

  • SQL文のサポート

    ネイティブJSONベースの外側の問い合わせに加えて、ドルイドはまた、HTTPおよびJDBC SQLをサポートしています。

  • レベルのスケーラビリティ

    データ取り込み速度百万/秒、大容量データ記憶装置、サブ秒のクエリ。

  • 運用・保守のしやすさ

    伸縮を収容することにより、サーバーを追加または削除することができます。ドルイドは、自動再バランス、フェイルオーバーをサポートしています。

データ摂取

ドルイドは、両方のストリーミングや大容量データの取り込みをサポートしています。典型的には、ドルイド(ローディングストリーミングデータ)、または、元のデータソースを接続カフカメッセージバスなどによってHDFS(ローディングバルクデータ)などの分散ファイルシステムを介し。

セグメント・データ・ノードのように格納された生データを処理してドルイドのインデックスを作成、クエリオプティマイザセグメントは、データ構造です。

IMG

データストレージ

像大多数分析型数据库一样,Druid采用列式存储。根据不同列的数据类型(string,number等),Druid对其使用不同的压缩和编码方式。Druid也会针对不同的列类型构建不同类型的索引。

类似于检索系统,Druid为string列创建反向索引,以达到更快速的搜索和过滤。类似于时间序列数据库,Druid基于时间对数据进行智能分区,以达到更快的基于时间的查询。

不像大多数传统系统,Druid可以在数据摄入前对数据进行预聚合。这种预聚合操作被称之为rollup,这样就可以显著的节省存储成本。

IMG

查询

Druid支持JSON-over-HTTP和SQL两种查询方式。除了标准的SQL操作外,Druid还支持大量的唯一性操作,利用Druid提供的算法套件可以快速的进行计数,排名和分位数计算。

IMG

架构

Druid是微服务架构,可以理解为一个拆解成多个服务的数据库。Druid的每一个核心服务(ingestion(摄入服务),querying(查询服务),和coordination(协调服务))都可以单独部署或联合部署在商业硬件上。

Druid清晰的命名每一个服务,以确保运维人员可以根据使用情况和负载情况很好地调整相应服务的参数。例如,当负载需要时,运维人员可以给数据摄入服务更多的资源而减少数据查询服务的资源。

Druid可以独立失败而不影响其他服务的运行。

図-7

运维

Drui被设计成一个健壮的系统,它需要7*24小时运行。Druid拥有以下特性,以确保长期运行,并保证数据不丢失。

  • 数据副本

    Druid根据配置的副本数创建多个数据副本,所以单机失效不会影响Druid的查询。

  • 独立服务

    Druid清晰的命名每一个主服务,每一个服务都可以根据使用情况做相应的调整。服务可以独立失败而不影响其他服务的正常运行。例如,如果数据摄入服务失效了,将没有新的数据被加载进系统,但是已经存在的数据依然可以被查询。

  • 自动数据备份

    すべてのデータのドルイド自動バックアップは、HDFSのように、それは分散ファイル・システムとすることができる、ファイルシステムにインデックスされています。あなたは、すべてのデータドルイドクラスタを失い、かつ迅速にバックアップデータから再ロードすることができます。

  • ローリングアップデート

    ユーザーが認識していないので、ローリングアップデートすることで、あなたは、ダウンタイムなしでドルイドクラスタを更新することができます。すべてのドルイドのバージョンは下位互換性があります。

時系列データベースとコントラストのために、別の記事の会場になります

時系列データベース(TSDBの)選択した知人

私たちは公共の番号に従ってください、あなたはより多くのシリーズを得ることができます

いいえ公共ありません

おすすめ

転載: blog.51cto.com/14745561/2475971