この記事では、データ ファブリックのアーキテクチャ、課題、利点、コア機能、ベンダーなどを含め、データ ファブリックの内容、理由、方法、誰について説明します。
データ ファブリック - データ中心の企業にとって「必須」
過去数年間で、「データ ファブリック」という用語は企業データの統合と管理の同義語になりました。アナリスト企業 Gartner は、「2021 年のデータおよび分析テクノロジーのトレンド トップ 10」の 1 つに「データ ウィービング」をランク付けし、2024 年までにデータ管理ベンダーの 25% がデータ ウィービング用の完全なフレームワークを提供すると予測しています (現在の 5% から増加)。 。
この記事では、データ ウィービングの定義、目的、アーキテクチャ、課題、ベスト プラクティス、利点、ベンダー、およびデータ ウィービング機能のリストを挙げて、データ ウィービングの内容、理由、方法、および誰が行うのかについて説明します。
データ ファブリックの概要
Data Fabric は、企業全体にわたる大規模なデータ アクセスを民主化します。これは、運用と分析のワークロードをサポートするために、統合され強化されたデータを適切なデータ利用者に適切な方法で適切なタイミングで提供するように設計されたテクノロジーとサービスの統合セットを備えた単一の統合アーキテクチャです。
Data Fabric は、データ カタログ、データ ガバナンス、データ統合、データ パイプライン、データ オーケストレーションなどの主要なデータ管理テクノロジを組み合わせます。
Gartner: データ ファブリックは、さまざまなソースからの統合データをつなぎ合わせ、さまざまなデータ利用者に配信します。
第 02 章 データ ファブリックを選ぶ理由データ ファブリック
幅広いビジネス、技術、組織の連携促進に貢献します。
ビジネスドライバー
データをデータレイクとウェアハウスに確実かつ迅速にフィードすることで、洞察を得るまでの時間を短縮し、より賢明な意思決定を下します。
顧客、クレーム、注文、設備、小売店などのあらゆるビジネスエンティティをリアルタイムで 360 度ビューで把握し、マイクロセグメンテーションを可能にし、チャーンを減らし、運用リスクを警告したり、パーソナライズされた顧客サービスを提供したりできます。
レガシー システムを段階的かつ迅速に最新化、拡張、保守、変更することで、総所有コストを削減します。
データ管理の要素
手続き型データ準備の自動化により、データ サイエンティスト、データ エンジニア、その他の IT リソースは、退屈で反復的なデータ変換、クレンジング、エンリッチメント タスクの実行から解放されます。
バルク データ移動 (ETL)、データ仮想化、データ ストリーミング、変更データ キャプチャ、API など、あらゆるデータ配信方法でエンタープライズ データにアクセスできます。
Data Weaving Platform は、企業が現在使用しているデータ管理ツールを統合および強化し、他の企業が費用対効果を高めるために退職できるようにします。
組織的な推進力
データ エンジニアとデータ利用者の間で共有される共通言語により、データ チームとデータ ビジネス チーム間のコラボレーションが向上します。
セルフサービスのデータ アクセスにより、データ利用者は必要なときに必要な場所で必要なデータを取得できるようになり、ビジネスの機敏性と速度が向上します。
第 03 章 データ ファブリックのアーキテクチャ
Gartner: 多くのコンポーネントを備えた理想的な完全なデータ ファブリック設計。
適切に設計されたデータ ファブリック アーキテクチャはモジュール式であり、大規模な分散マルチクラウド、オンプレミス、ハイブリッド デプロイメントをサポートします。
上の図に示されているように、データがソースから消費者に提供されるとき、データはカタログ化され、洞察と推奨事項のために強化され、準備、配信、調整、設計されます。
データ ソースは、分離されたレガシー システムから最新のクラウド環境まで多岐にわたります。
データ ウィービングのデータ利用者には、データ サイエンティストとデータ アナリスト (データ レイクを扱う)、マーケティング アナリスト (顧客のセグメンテーションに参加する)、営業、マーケティングおよびデータ プライバシーのスペシャリスト (顧客のセグメンテーションに重点を置く)、クラウド アーキテクトなどが含まれます。
第04章 データグリッドアーキテクチャのデータウィービング
データ グリッド アーキテクチャは、データ管理における 4 つの主要な問題に対処します。
データは数十、場合によっては数百のレガシー システムやクラウド システムに分散されており、信頼できる単一の情報源を入手することが困難になっています
データ中心の企業が処理しなければならないデータの速度と量
アクセスにデータエンジニアリングが必要になることが多いため、データの取得が困難
ビジネス アナリスト、運用データ利用者、データ エンジニア、データ サイエンティスト間のコミュニケーションの欠如。
データ ウィービングは、幅広いデータ ソースにわたって接続されたデータの統合レイヤーを構築し、分析ワークロードや運用ワークロードを含むビジネスの包括的なビューを即座に提供するため、データ グリッド設計に最適です。
データ ファブリックは、さまざまなデータ製品のセマンティック定義、データ取り込みパターン、およびデータを保護するために必要なガバナンス ポリシーを確立します。
さらに、さまざまなビジネス ドメインが追加のデータ ウィービング ノードの展開を調整し、データ パイプラインとサービスを制御できるようにします。
データ グリッド アーキテクチャは、データ ウィービングを使用して簡単に実装できます。
データをリアルタイムで管理、準備、配信できるデータ ウィーブにより、理想的なデータ グリッド コアが作成されます。もちろん、データ グリッド アーキテクチャには実装上の課題がありますが、データ ウィービングはそれらを簡単に処理します。
データグリッド実装の課題 |
Data Fabric がそれらを処理する方法 |
データ統合の専門知識の要件: 多くの異なるエンタープライズ ソース システムにわたるデータ統合には、多くの場合、ドメイン固有のデータ パイプラインの専門知識が必要です。 |
製品としてのデータ: データ製品が仮想データ層で管理されるビジネス エンティティである場合、ドメインは基礎となるソース システムを扱う必要がありません。 |
連携と独立性: 中央データ チームへの依存とドメインの独立性の間で適切なバランスをとることは簡単ではありません。 |
全社規模のコラボレーション: ドメイン固有のチームは集中データ チームと協力して、データ コンシューマー向けの API とパイプラインを構築し、アクセスを制御および管理し、使用状況を監視します。 |
バルクデータとリアルタイムおよびバッチデータの配信: データ製品は、単一のプラットフォーム上でオフラインおよびオンラインのデータ利用者に安全かつ効率的に配信される必要があります。 |
分析および運用ワークロード: Data Fabric は、基盤となるシステムからデータを収集および処理して、オフラインおよびオンラインのユースケースにオンデマンドでデータ製品を提供します。 |
第 05 章 データ ファブリックのコア機能
従来のデータ モデリングおよび統合ツールを使用するとリレーショナルの洞察が失われるため、データ リネージの視覚化は重要な手法です。
データ ファブリックを使用すると、次の主要な機能を単一のプラットフォームに統合できます。
データディレクトリ
データ資産の分類とインベントリを作成し、情報サプライ チェーンを視覚化します。
データエンジニアリング
運用および分析のユースケース向けに信頼性が高く堅牢なデータ パイプラインを構築する
データガバナンス
品質を確保し、プライバシー規制を遵守し、データを安全かつ大規模に利用可能にします
データの準備とオーケストレーション
データ クレンジング、変換、マスキング、エンリッチメント、検証の一連のステップを含む、ソースからターゲットまでのデータ フローを定義します。
データの統合と配信
ETL (バルク)、メッセージング、CDC、仮想化、API などのあらゆる方法を使用して、あらゆるソースからデータを取得し、あらゆるターゲットに配信します。
データ永続化レイヤー
幅広いリレーショナル モデルおよび非リレーショナル モデルにわたる動的永続性用
データ データ ウィービングでは、次の主要な非機能的機能にも対処する必要があります。
データのサイズ、容量、パフォーマンス
データ量がどれほど大きくても、動的かつシームレスにスケールアップおよびスケールダウンします。エンタープライズ グレードの運用および分析ワークロードをサポートします。
アクセシビリティ
すべてのデータ アクセス パターン、データ ソース、データ型をサポートし、静的または動的マスター データとトランザクション データを統合します。オンプレミスおよびクラウド システムから任意の形式 (構造化または非構造化) でデータを取り込み、統合します。データ構造のロジック アクセス層では、データがどこにどのように保存または分散されるかに関係なく、データの消費を許可する必要があるため、基礎となるデータ ソースに関する深い知識は必要ありません。
分布
データ ファブリックは、マルチクラウド、オンプレミス、またはハイブリッド環境に展開できる必要があります。トランザクションの整合性とデータ ガバナンスを維持するために、データ ファブリックはインテリジェントなデータ仮想化戦略をサポートする必要があります。
安全性
データが保存される場合は、データ プライバシー規制を満たすために暗号化およびマスクする必要があります。データ構造は、アクセスが適切にチェックされ承認されるように、ユーザーの資格情報をソース システムに渡すことができる必要があります。
第 06 章 データ ファブリック、データ レイク、運用ワークロード用のデータベース
データ ファブリックが運用ワークロードのビッグ データ ストレージをどのように補完および改善するかを説明するには、データ ファブリック、データ レイク、データベースの比較が役立ちます。
以下の図は、大規模で大量の運用ユースケースに関連する各データ ストアの長所と短所をまとめたものです。
アドバンテージ |
欠点がある | ||
データウェアハウス、DWH |
|
|
|
リレーショナルデータベース |
|
|
|
NoSQLデータベース |
|
|
|
データ編集 |
SQL の完全サポート
|
したがって、データ ファブリックは大規模な運用ワークロードにとって優れたソリューションであると同時に、オフライン分析ワークロード用のデータ レイクとデータベースにとって相互に有益なテクノロジでもあります。このようなワークロードに対して、データ ファブリックは次のことを行うことができます。 オフライン分析のために、信頼できる最新のデータをデータ ファブリックにフィードします。そこからビジネス上の洞察を得て、リアルタイムの運用ユースケースに組み込みます。
第 07 章 データウィービングのユースケース
企業の運用では、数千の同時トランザクションをサポートできる大規模で高速なデータ アーキテクチャを必要とするユースケースが数多くあります。例としては次のものが挙げられます。
360 度の顧客ビューを提供
セルフサービス IVR、カスタマー サービス エージェント (CRM)、カスタマー セルフサービス ポータル (Web またはモバイル)、チャットボット、およびフィールド サービス技術者に顧客の単一ビューを提供します。
データプライバシー法の遵守
現在および将来の規制に対応するように設計された、柔軟なワークフローおよびデータ自動化ソリューションを使用して、人、システム、データのコンプライアンスを調整します。
企業データをデータレイクとウェアハウスにフィードする
データ エンジニアが、すべてのソースからすべてのターゲットまで、信頼できる新しいデータを迅速かつ大規模に準備して配信できるようにします。
オンデマンドでテストデータを提供する
テスト データ ウェアハウスを作成し、完全なデータ整合性を保ったまま匿名のテスト データを数分でテスターと CI/CD パイプラインに自動的に配信します。
レガシー システムを最新化する
データをレガシー システムから Data Weave に安全に移行し、その構造を新しく開発されたアプリケーションの記録データベースとして使用します
クレジットカード取引を保護する
生データを暗号化してトークン化することで機密のカード所有者情報を保護し、データ侵害を回避します
チャーンの予測、顧客の不正行為の検出、信用スコアリングなど
多くの運用ユース ケースでは、データ ファブリックが複雑なクエリに瞬時に応答する必要があります。
したがって、データ ファブリックには、次の処理のための組み込みメカニズムが含まれている必要があります。
リアルタイムのデータ取り込み
OS からの継続的なアップデート (1 日に数百万から数十億のアップデート)
異なるシステムに接続する
テラバイト規模のデータが数十の大規模なデータベース/テーブルに分散しており、多くの場合、異なるテクノロジーが使用されています
動的なデータ変換、データ クレンジング、データ エンリッチメント
意味のある洞察をリアルタイムで提供し、ビジネスの成果に影響を与える
エンティティの特定のインスタンス
たとえば、特定の顧客、場所、デバイスなどの完全なデータを取得します。
高い同時実行性
毎秒数千のリクエストを処理します
第 8 章 データ ファブリックの利点
データ ファブリックには、マスター データ管理、データ ハブ、データ レイクなどの他のデータ管理アプローチに比べて、次のような多くの利点があります。
強化されたデータ管理
変換スクリプトやサードパーティ製ツールを使用せずに、データの自動取得、検証、強化が可能になります。
拡張データサービス
SQL と組み込み Web サービス層を完全にサポートする革新的なエンジンを使用してデータを管理および同期します
高い一貫性、耐久性、可用性
信頼できるデータベース層と処理エンジンによるエンタープライズ準拠
素晴らしい演技
インメモリ処理により、少量のデータに対して各クエリを実行できるアーキテクチャを利用します。
厳重なセキュリティ
高度なマルチキー暗号化エンジンにより、大規模なデータ侵害の可能性を排除します。
第 09 章データ ファブリックの利点
データ ファブリックが企業に提供する運用上の利点は次のとおりです。
データオーケストレーションを簡素化する
外部データベース、ビジネス ロジック、マスキング、解析、ストリーム処理を統合するオペレーター
自動テストデータ管理
実稼働システムからデータを生成し、高品質のテスト データをテスト チームに提供します。
迅速なデータプライバシーコンプライアンス
GDPR、CCPA、LGPDなどのデータプライバシー規制に関連するデータ主体のアクセス要求を構成、管理、監査します。
包括的なデータ管理
管理管理ツール、直感的なビジュアル スタジオ、Web 管理ツールを使用してデータを構成、監視、管理します
所有コストを最適化する
汎用ハードウェアのメモリ パフォーマンス、完全な線形拡張性、リスクのない統合に依存します。
第10章 データ ファブリック プロバイダー
いくつかのベンダーが、データ ファブリック アーキテクチャをサポートするための統合された機能セットを提供しています。データ ファブリック ベンダーのトップ 5 は次のとおりです。
強み | 懸念 | ||
K2View |
|
|
|
Denodo |
|
|
|
テイルンド |
|
|
|
Informatica |
|
|
|
IBM Cloud Pak for Data |
|
|
第 11 章用于分析和运营的数据编
织通常认为,数据编织的构建是为了支持大数据分析——特别是趋势分析、预测分析、机器学习和商业智能——由数据科学家在离线模式下执行,以产生业务洞察力。
但数据编织对于依赖准确、完整和新鲜数据的运营用例(例如客户流失预测、信用评分、数据隐私合规、欺诈检测、实时数据治理和 360 度客户视图)同样重要。
数据团队不希望有一种数据编织解决方案用于数据分析,另一种用于运营智能。他们希望两者都有一个单一的数据编织。
理想的数据编织优化了每个业务实体(客户、产品、订单等)的视野和理解深度。它为企业提供干净、新鲜的离线数据分析数据,并为在线运营分析提供实时、可操作的数据。
Data Fabric 同时支持离线数据分析和在线运营智能。
具体方法如下:
Data Fabric 基于业务实体的 360 度视图持续提供高质量数据,例如特定客户群、公司产品线或特定地理位置的所有零售店 - 到数据湖或 DWH。
使用这些数据,数据科学家创建和改进机器学习 (ML) 模型,而数据分析师使用商业智能 (BI) 来分析趋势、细分客户并执行根本原因分析 (RCA)。
改进的 ML 模型被部署到数据编织,为单个实体(客户、产品、位置等)实时执行——从而“操作”机器学习算法。数据编织实时按需执行 ML 模型,为其提供单个实体的完整和当前数据。
ML 输出会立即返回到请求的应用程序,并作为实体的一部分保存在数据编织中,以供将来分析。Data Fabric 还可以调用实时推荐引擎来提供下一个最佳操作。
第 12 章为什么 K2View
K2View 是唯一能够实时、大规模响应以实体为中心的数据查询并支持运营和分析工作负载的数据编织。
以下是 K2View 成为世界上一些最大企业的首选数据编织的 5 个原因:
适用于每个业务实体的微型数据库
K2View 的专利 Micro-Database™ 提供无与伦比的性能、易于访问、数据完整性和通用语言在业务和 IT 之间。K2View Data Fabric 将来自所有底层源系统的每个业务实体的数据统一到一个单一的微数据库中,一个业务实体的每个实例。
例如,客户微数据库统一了公司对特定客户的了解——包括所有交互(电子邮件、电话、网站门户访问、聊天……)、交易(订单、发票、付款……)和主数据——无论底层源系统、技术和数据格式如何。在这种情况下,为每个客户管理一个微型数据库。
微型数据库可以通过捕获或动态计算的新字段来丰富——例如 KPI、同意信息、流失倾向等。它可以很容易地定义,使用自动发现,从底层系统中提取建议的数据模式。
微型数据库代表企业对特定业务实体的了解。
为了最大限度地提高性能:
数据同步规则定义了微型数据库中每个数据元素从源系统更新的频率和事件。
数据虚拟化规则定义了哪些数据会被持久化在micro-DB中,并且只会缓存在内存中。
每个micro-DB被压缩了大约90%,从而降低了数据传输成本。
每个micro-DB都用自己的唯一密钥加密,这样每个实体都是唯一安全的。这为静态数据保持最高级别的安全性。
K2View Data Fabric 可以扩展以同时管理数亿个安全微型数据库,并部署在分布式内部、云端或混合架构中。
数据从任何来源、任何目标、在任何风格
K2View 开发了一种可操作的数据编织,可以从任何来源以任何数据交付方式摄取数据,然后在几毫秒内将其转换为交付到任何目标。
微服务向消费应用程序提供任何业务实体的单一视图
K2View Data Fabric 提供用于创建和调试微服务的低代码/无代码框架。使用可视化的拖放式构建器,可以快速定制和编排微服务以支持任何操作用例。这种方法有助于将数据视为产品并支持网格架构。
需要访问微服务的用户或令牌被分配一个角色,该角色定义了他们拥有的数据访问级别。部署微服务后,K2View Data Fabric 会控制身份验证和授权,从而适当限制用户访问。
一个平台,许多用例
K2View 平台是一个中央数据中心,可提供任何业务实体的实时、可信和整体视图到任何消费应用程序、数据湖或数据仓库。因此,数据编织的用例很多,并且跨越企业的许多部门。
综上所述,该平台提供:
模块化、开放、可扩展的架构
数据集成、转换、丰富、准备和交付——集成在一个可扩展的平台
中秒速、端到端、响应时间
企业数据编织,专为支持实时运营而构建,可在源和目标之间进行双向数据移动
运营和分析工作负载的数据管理
集成的可信数据,实时交付到消费应用程序中,或管道传输到数据湖和数据仓库中以进行分析
本文 :https://architect.pub/what-data-fabric-complete-guide | ||
讨论:知识星球【首席架构师圈】或者加微信小号【ca_cto】或者加QQ群【792862318】 | ||
公众号 |
【jiagoushipro】 【超级架构师】 精彩图文详解架构方法论,架构实践,技术原理,技术趋势。 我们在等你,赶快扫描关注吧。 |
|
微信小号 |
【ca_cea】 50000人社区,讨论:企业架构,云计算,大数据,数据科学,物联网,人工智能,安全,全栈开发,DevOps,数字化. |
|
QQ群 |
【285069459】深度交流企业架构,业务架构,应用架构,数据架构,技术架构,集成架构,安全架构。以及大数据,云计算,物联网,人工智能等各种新兴技术。 加QQ群,有珍贵的报告和干货资料分享。 |
|
视频号 | 【超级架构师】 1分钟快速了解架构相关的基本概念,模型,方法,经验。 每天1分钟,架构心中熟。 |
|
知识星球 | 【首席架构师圈】向大咖提问,近距离接触,或者获得私密资料分享。 | |
喜马拉雅 | 【超级架构师】路上或者车上了解最新黑科技资讯,架构心得。 | 【智能时刻,架构君和你聊黑科技】 |
知识星球 | 认识更多朋友,职场和技术闲聊。 | 知识星球【职场和技术】 |
领英 | Harry | https://www.linkedin.com/in/architect-harry/ |
领英群组 | 领英架构群组 |
https://www.linkedin.com/groups/14209750/ |
微博 | 【超级架构师】 | 智能时刻 |
哔哩哔哩 | 【超级架构师】 | |
抖音 | 【cea_cio】超级架构师 | |
快手 | 【cea_cio_cto】超级架构师 | |
小红书 | 【cea_csa_cto】超级架构师 | |
网站 | CIO(首席信息官) | https://cio.ceo |
网站 | CIO,CTO和CDO | https://cioctocdo.com |
网站 | 架构师实战分享 | https://architect.pub |
网站 | 程序员云开发分享 | https://pgmr.cloud |
网站 | 首席架构师社区 | https://jiagoushi.pro |
网站 | 应用开发和开发平台 | https://apaas.dev |
网站 | 开发信息网 | https://xinxi.dev |
网站 | 超级架构师 | https://jiagou.dev |
网站 | 企业技术培训 | https://peixun.dev |
网站 | 程序员宝典 | https://pgmr.pub |
网站 | 开发者闲谈 | https://blog.developer.chat |
网站 | CPO宝典 | https://cpo.work |
网站 | 首席安全官 | https://cso.pub |
网站 | CIO酷 | https://cio.cool |
网站 | CDO信息 | https://cdo.fyi |
Webサイト | CXO情報 | https://cxo.pub |
ご清聴、転送、いいね、ご視聴ありがとうございます。