最新のデータスタックにおけるデータ統合エコロジー (パート 1)

前に書いてある

業界で最新のデータ スタックについてよく言われることは、本質的には、SaaS のアイデアを使用してクラウド上でいくつかの従来のツールをやり直すことであり、これにより常に顧客にとっての使用の困難さが大幅に増加しました。最新のデータ スタックの中核は、クラウド、オープンソース、SaaS ビジネス モデルです。

データ統合は伝統的な市場です。ガートナーはこの市場を長い間分析してきましたが、その収集と組織化は依然として伝統的な企業に偏っています。この記事には、ガートナーによるこの市場の理解と組織化に関する簡単な情報が含まれています。

このコンテンツは 2 つのパートに分かれており、この記事では、モダン データ スタック自体と、データ統合に関する Gartner の理解について説明することに重点を置きます。最新のデータ スタックでの具体的なデータ統合については、後ほど別の記事で説明する予定です。

この分野にはまだ多くの革新的な企業があり、典型的な FiveTran の評価額は現在 50 億米ドルを超えています。これらの企業は比較的初期の企業であり、まだ新しい企業が出現しているため、私の整理の試みが十分に包括的ではない可能性があります。

従来のデータ処理と比較して、最新のデータスタックにはいくつかの重要な変更があります

  • 云化:オンプレミスからクラウドへの移行

  • ETL ではなく ELT: データ ウェアハウスのコンピューティング能力は比較的強力であり、処理は通常、データ ウェアハウスに移されます。

  • 自助式分析:The rise of self-service analytics to democratize data exploration

上記の点に加えて、最新のデータ スタックの主要な変更点を以下の図にまとめます。

a469eb18c30a1d2d79a559b296e756e3.png


最新のデータスタックショー

上図は典型的なデータ アクセス、ストレージ、消費プロセスであり、従来のものと大きな違いはありませんが、重要なのは、これらがすべて新しいクラウド サービスに置き換えられることです。

f506005753d30a554e957baf1718447b.png

次の図はさらに詳しく説明されていますが、リバース etl 部分が欠けているため、参照用にまとめることができます。

afe35998c31cc0e7f28ecb2c1eafa9c0.png49c02efcf0eec242c208dc56bd7d9025.png


Gartner と Forrester によるデータ統合の定義

この市場は非常に複雑です。ガートナーはシナリオの観点からより適切な定義を作成しましたが、この定義はマーケティングに偏っています。

  • データ エンジニアリング: データ ウェアハウス、データ レイク、またはエンドユーザーのセルフサービス データ統合機能のためのデータ パイプラインを作成、管理、運用します。

  • クラウド移行: クラウド インフラストラクチャへのデータ移行および統合機能、またはクラウド上で直接サービスを提供し、ハイブリッド クラウド、マルチクラウド、またはクラウドベースの統合シナリオをサポートします。

  • 運用データの統合: 主要なビジネスをサポートするための運用データの統合 (運用データ、トランザクション データなど)。企業間のデータ共有。企業内または企業間を含む、アプリケーション間のデータの一貫性。

  • データ ファブリック: データ統合は、データ サービスとしてもサポートされています (Web インターフェイスを通じてアクセス可能)。さまざまなデータのプロデューサーとコンシューマーのサポートが含まれます。

多くの実績のあるベンダーがあり、Gartner の 2021 年データ統合マジック クアドラントは次のとおりです。

b2703ea333fe470ffd40c19c1da011f1.png

Forrester 2020 Q2 Data Fabric によって分類されたベンダー

22fe2e6f3963eb67b8c381ae3215d8de.png

前述の Gartner と Forrester は主に昔ながらのメーカーであり、特に最新のデータ スタックのロジックと一致しているわけではありません。

次回は、この分野にどのような企業があり、何ができるのかを整理してみましょう。乞うご期待!

おすすめ

転載: blog.csdn.net/zNZQhb07Nr/article/details/122019276