序文
情報化からデジタル化への変革の過程で、企業は膨大な量のデータを蓄積し、現在も爆発的に増加しています。データはたくさんありますが、実際に価値を生み出すことができるデータはほとんどありません。一般に、データは分散しており、整列されておらず、統一された定義と構造を欠いています. 目的の有用なデータを見つけることはますます困難になっています.
データの集約と接続を実現し、データの島と独占を打破する方法は特に重要です。
1. データベースの目的
- すべてのデータ資産である構造化データと非構造化データの統合管理は、データ プロデューサー、コンシューマー、およびビジネス ソースにまでさかのぼることができます。
- データサービスの供給チャネルを開拓し、豊富なデータの原材料、半製品または完成品をデータ消費用に提供し、企業のセルフサービス分析、デジタル操作およびその他のシナリオのデータ消費ニーズを満たします。
- 企業データが完全で、一貫性があり、共有されていることを確認します。フル データ リンクの下の各リンクのデータ ステータスを監視し、ストレージの観点から、データの冗長性、重複、および「ゾンビ」の問題を診断し、データの次元を削減し、コストを使用します。
- データ セキュリティ ポリシーに基づいてデータのセキュリティと制御可能性を確保し、データ権限の制御を使用し、データ サービスのパッケージ化やその他の技術的手段を通じて、機密データと個人データの合法的かつ準拠した消費を実現します。
2. データベースのアーキテクチャ図
データベースの構築は一朝一夕にできるものではなく、構築を推進するためには全体として推進する必要があり、データ所有者は各事業ラインのデータベース構築の最初の責任者であり、構築の原則は次のとおりです。次のように:
- データ セキュリティの原則: ユーザーの権利、データの機密性レベル、基本的なプライバシーなどの管理要件に従う必要があります。
- 需要と計画の二輪駆動の原則:建設は事業計画と需要によって推進され、コアデータ資産の建設が優先されます。
- データ供給マルチ シナリオの原則: さまざまな消費シナリオに対応するために、ビジネス ニーズに応じてさまざまなデータ供給チャネル (オフライン/リアルタイム/物理/仮想) を提供します。
- 情報アーキテクチャは次の原則に準拠しています。データベースのデータ資産は、企業の情報アーキテクチャに準拠する必要があります。
3. 湖へのデータ
湖標準へのデータ
- データ所有者のクリア
- データ標準の公開
- 認証データ ソース
- データ分類の定義
- データ品質評価
- メタデータ登録
データがレイクに入る方法
- バッチ統合
- データ レプリケーションの同期
- メッセージ統合
- ストリーム統合
- データの仮想化
より多くのコンテンツ
4. データ主体結合: データを情報に変換する
5種類の接続方法により、さまざまなビジネスラインのデータが接続され、データレイク内のデータが原材料加工工場の半製品と完成品から転送され、さまざまなシナリオのデータ消費ニーズをサポートします。
- 多次元モデル
- グラフモデル
- ラベル
- 指標データ
- アルゴリズムとモデル
より多くのコンテンツ
参考:
「ファーウェイデータのあり方」