Kangaroo クラウド データ スタック DataOps データ生産性の実践、データ プロセスの自動化と標準化を実現

Kangaroo Cloud 製品チームは、企業のデジタル変革実践を支援する過程で、多くの企業がデータ生成リンクで同じ問題を抱えていることを発見しました。データチームは短期的にビジネスニーズを迅速に提供することに重点を置いており、社内にトップダウンのデータ生産管理システムが欠如しており、データ標準、データ生産プロセス、研究開発仕様のあらゆるレベルに不完全性や不規則性が存在します。多くのリンク 手動操作に依存しているため、チームワークの効率は低く、ビジネス ニーズは徐々に影響を受け、大量のデータ構築が繰り返されます。最初に開発してからガバナンスを行うというモデルでは、多くの場合、歴史的負債がますます大きくなります。

デジタル変革実践の最前線に立つ企業は、データ生産効率を向上させる方法を積極的に模索しており、DataOpsの出現により、上記の問題を解決するための理論と実践に基づいた一連の成熟したソリューションが形成されました。

Kangaroo Cloud Data Stack は、中国の大手デジタル基本ソフトウェアおよびアプリケーション サービス プロバイダーとして、7 年以上の研究開発の過程で、数千の顧客にデータ生産効率向上ソリューションを提供してきました。その過程で、継続的な統合も行っています。 DataOps の概念をその製品に取り入れ、ますます多くの企業がデジタル変革とアップグレードを実現できるよう支援してきました。

この記事では、データ スタック内のDataOpsに基づいたアジャイルで高品質なデータ生産性のプラクティスを共有し、皆様のお役に立てれば幸いです。

DataOps の基本概念

データセンターの台頭は、プロセス駆動型からデータ駆動型へ、デジタルからインテリジェントへの企業のデジタル変革を表していると言えます。DataOps はデータセンターを実現するための優れた概念または方法論です。

DataOps の概念は、2014 年には Lenny Liebmann によって提案されました。2018 年に、DataOps は Gartner のデータ管理テクノロジーの成熟度曲線に正式に組み込まれ、DataOps が業界によって正式に受け入れられ、推進されたことを示しました。

情報通信研究機構とビッグデータ技術標準推進委員会は、今年のデータ資産管理カンファレンスで、DataOps (データの研究開発と運用の統合) が価値の最大化を目的としたデータのライフサイクル全体に対するベストプラクティスであると提案しました。 研究開発管理、納品管理、データ運用保守の3つのコア技術力と、バリューオペレーション、システムツールの4つの保証力を総合的に活用し、企業内のデータ生産の組織、プロセス、ツールを再構築することでデータ研究開発を実現します。、組織管理、セキュリティ リスク、統合、俊敏性、無駄のなさ、自動化、インテリジェンス、運用の明示的な価値の概念。

現在、中国工商銀行、中国農業銀行、浙江移動通信、チャイナユニコムなどの国内企業がDataOpsの実践に成功し、データ生産性の飛躍的な向上を達成している。

DataOpsに基づいたデータスタックのデータ運用実践

Data Stack は、 Pocket Cloud によって作成されたワンストップのビッグデータ基本ソフトウェアであり、ビッグデータ基本プラットフォーム、ビッグデータ開発とガバナンス、データ インテリジェント分析と洞察を含む一連の製品が含まれており、DataOps データ運用コンセプトを統合し、独立した制御性、セキュリティの革新テクノロジーの中核として、グローバルなデータ資産を収集、処理、管理、提供、分析し、企業に安全で安定した使いやすいビッグデータ プラットフォームを提供し、デジタル チャンスに関する洞察を獲得し、明確化します。変換の方向を決定し、新しいデータ値を作成します。

データスタックのDataOps実践ルートは以下の通りです。

ファイル

ソリューションレベルのデータスタックは、銀行、ファンド、証券、保険、大学、官公庁、港湾、製造業、その他の業界の実践を通じて豊富な成功経験を蓄積しており、組織変革、テクノロジーの選択、実装に関するオーダーメイドの設計が可能です。パス計画。

データガバナンスプロセスについては、Data Stackが長年蓄積してきた方法論を商用化しており、プロダクトレイヤーと組み合わせた具体的な運用の一部を以下に共有します。

データ統合

データ統合は、ビジネス システム、API、ファイルなどのデータ ソースからデータをオフラインまたはリアルタイムでデータ スタック ビッグ データ プラットフォームに抽出するプロセスです。抽出ジョブの構成が柔軟で便利かどうか、ツールが企業のさまざまなデータ ソースに適応できるかどうか、データ送信が安定しているかどうか、エラーや欠落がないか、抽出パフォーマンスが良いか悪いかなどです。すべてのユーザーの主要な関心事。Datastack が開発した自社開発の分散バッチフロー統合同期ツールである ChunJun は、優れたソリューションを提供します。

ファイル

ChunJun が実装したデータ統合に基づいて、オフラインおよびリアルタイムのデータ同期タスクを30 秒以内に視覚的に構成でき、マルチソースの異種データの双方向同期を実現し、同時実行性の向上と上限の設定により同期パフォーマンスを柔軟に調整できます。ブレークポイントは、中断後のデータ同期の送信再開をデータベース全体の同期タスクのバッチ生成をサポートします。また、同期プロセス中にダーティ データ テーブルで読み書きされた異常なデータ レコードの異常分析もサポートします。

データ抽出が完了すると、メタデータもデータ スタックのメタデータ データベースに格納され、ユーザーはデータ資産のデータ マップ内のテーブル メタデータをクエリできます。

ファイル

データ標準定義、テーブル構築仕様設計、標準化テーブル構築

データ資産モジュールは、テーブル フィールドのデータ標準を定義し、ルート、コード テーブル、フィールドのビジネス属性と技術属性から仕様を定義して、異なるテーブルでの同じフィールドの定義や名前の不一致などの問題を回避できます。 。データ スタック プラットフォームには、一部の業界向けの標準テンプレートが組み込まれており、ユーザーがデータ標準を迅速に確立して管理できるように、データ標準のワンクリック インポートもサポートしています。

ファイル

テーブル作成仕様の設計は主に、データ ウェアハウス レベルの定義、レベルのテーブル名モデル要素の構成、およびモデル要素の内容をサポートします。これらは、テーブル名の統一仕様を制約するために使用されます。その後のデータモデルの構築。

ファイル

ファイル

ファイル

テーブル構築仕様に基づいて、アセットからのテーブル構築を標準化します。基本情報を構成するとき、プラットフォームはテーブルが属するデータ ウェアハウス レベルを自動的に関連付け、ユーザーが技術的属性を定義できるようにして、標準化されたテーブル名を形成します。

ファイル

データ標準に基づいて、ユーザーはテーブル構造を定義するときにテーブル フィールドの内容を入力するだけで済みます。プラットフォームは解析後に同じ名前のデータ標準に自動的にマッピングし、テーブルの作成時に標準カバレッジ検出を実行するため、標準化に基づいたテーブル構築作業。

ファイル

論理モデルとインジケーターの設計

最も基本的なファクト テーブルとディメンション テーブルの間の基本的な関係はデータ モデルに表示されます。これは、固定化されたデータ関係に基づいてその後のインジケーターを開発するのに便利です。

ファイル

データスタックインデックス管理プラットフォームDataIndexは、インデックス体系を業務に応じて整理し、業務分野ごとのインデックスカタログにまとめることができます。

ファイル

インデックスごとに、名前、コード、ビジネス規模、処理ロジック、スケジュール属性などの情報を定義できます。

ファイル

データ開発、データ品質検証、コードの一元管理

Data Stack は、オフライン開発とリアルタイム開発の 2 つのデータ開発モードをサポートしています。以下では、オフライン開発を例として、データ開発プロセスを紹介します。

まず、管理者は SQL 開発仕様を構成できます。現在のプラットフォームには、いくつかのSQL 仕様検査ルールが組み込まれています。さらに、いくつかの検査ルールは、開発指示に従って開発し、プラットフォームに登録できます。これらの検査ルールが有効になると、プラットフォームは SQL を実行して送信する前にコードをスキャンします。スキャン結果で見つかった異常のうち、プロンプト ルールがトリガーされた場合、つまり軽度の異常であれば、影響を与えることなくプロンプトが表示されます。操作と送信。ブロック ルールがトリガーされると、データ開発を実行して送信できなくなります。このようにして、リスクの高い SQL 操作や大量のリソースを占有する不要なタスクを事前に回避できます。

ファイル ファイル

ユーザーは、オフライン開発のワークフローを通じてデータ開発ビジネス プロセスを調整し、各タスクのコードを記述し、スケジュール属性とタスクの依存関係を構成できます。

ファイル ファイル

オフライン開発プラットフォームで作成されたタスクについては、コードをリモート ウェアハウス (Bitbucket、GitLab) に接続してプルおよびプッシュすることができ、企業の内部コードの一元管理を実現するためにもよく使用されます。ビッグデータ プラットフォームの置き換え時にタスクのバッチ移行を初期化します。

ファイル

SQL コードのテストが正しく送信された後、運用保守担当者は通常、タスクをパッケージ化して別のプロジェクトにリリースします。リリース プロセスでは、リリース パッケージの内容が完全であるかどうかが事前にチェックされます。プロセスはデータスタック承認センターで開始でき、標準化とリリースの影響を制御します。

財務シナリオにおけるテスト環境と本番環境間のネットワーク分離を考慮して、リリース プロセスを企業内の統合承認センターに接続することもでき、承認後は、ジェンキンスなどのツールを介してネットワーク間でのリリース パッケージの送信を完了できます。タスクを実装して本番環境に導入します。

ファイル

同時に、2 つの非常に重要な問題があります。それは、生成されたデータの品質をどのように評価するかということです。品質上の問題が発生した場合、ビジネスプロセスを時間内に中断し、開発者に時間内に対処するよう通知することができますか?

データ資産プラットフォーム DataAssets は、単一テーブルと複数テーブルの品質検証をサポートしています。単一テーブル検証には、整合性、精度、標準化、一意性のための検証ルールが組み込まれています。ユーザーは SQL をカスタマイズすることで、パーソナライズされたデータ検証を実行することもできます。複数テーブル検証では、2 つのテーブルのデータ比較を実現でき、たとえば、データ同期シナリオでは、ソース側とターゲット側のデータの読み書きに誤りや欠落がないかを検証できます。

品質タスクがオフラインタスクに関連付けられている場合、品質チェックの強いルールと弱いルールとアラームを構成することで、重要な品質問題を認識して、時間内にタスクフローの動作を停止し、関連する開発者に通知できます。

ファイル

データサービス

データ スタック プラットフォームによって生成されたデータは、API、セルフサービス クエリ、外部ライブラリへのデータ同期を通じて外部サービスを提供でき、レポート、大画面、ラベル、データ ポータルなどの上位レベルのデータ アプリケーションでよく使用されます。

ファイル ファイル

安全管理

● ユーザー認証

ドッキング企業のシングル サインオンをサポートし、LDAP、Oauth2 およびその他の認証方法をサポートし、マルチレベルのKerberos 認証を構成できます。

● データ権利管理

データ スタック プラットフォーム層は、Hadoop でのデータ権限管理を実現し、データを自動的に識別してさまざまなレベルに分割できます。特定の Hadoop バージョンでは、Ranger エンジンへの接続の権限ポリシーもサポートし、企業の既存データ権限管理システム

● 承認プロセスのドッキング

テーブルや API などのデータ リソースの許可アプリケーション、データ標準、オフライン タスクのリリース、および許可ポイントの変更や内部オンライン起動を伴うその他のプロセスはすべて、アクセス データ スタック内の承認センターによって管理できます。

ファイル

● 業務監査

タスクの実行、テーブル DDL 操作、ユーザーの追加と削除、権限アプリケーションなどのすべての主要な操作が監査リストに記録されます。

ファイル

将来的には、データ スタックはデータ ガバナンスのリンク全体を改善し続け、製品エクスペリエンスの最適化とツールのインテリジェントなアップグレードを通じてデータ生成の品質と効率を向上させ、エンタープライズ データの価値に対する力と保証を継続的に提供します。

「Dutstack 製品ホワイトペーパー」: https://www.dtstack.com/resources/1004?src=szsm

「データ ガバナンス業界実践ホワイト ペーパー」ダウンロード アドレス: https://www.dtstack.com/resources/1001?src=szsm Kangaroo Cloud のビッグデータ製品、業界ソリューション、顧客事例について詳しく知りたい、相談したい場合は、 Kangaroo Cloud 公式 Web サイトにアクセスしてください: https://www.dtstack.com/?src=szkyzg

同時に、ビッグデータのオープンソース プロジェクトに興味のある学生は、最新のオープンソース テクノロジー情報を交換するために「Kangaroo Cloud Open Source Framework DingTalk Technology qun」に参加することを歓迎します。qun 番号: 30537511、プロジェクト アドレス: https: // github.com/DTStack

工業情報化省: 未登録のアプリにはネットワーク アクセス サービスを提供しない Go 1.21 が正式リリースRuan Yifeng が TypeScript チュートリアル」をリリース Vim の父 Bram Moolenaar 氏が病気で死去 自社開発カーネルLinus が個人的にコードをレビュー, Bcachefs ファイル システムによって引き起こされた「内紛」を鎮めることを望んでいます. ByteDance はパブリック DNS サービスを開始しました. 素晴らしい, 今月 Linux カーネル メインラインにコミットしました
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/3869098/blog/10094087