https://space.bilibili.com/405479587 記事の内容の出典はステーションbのアップマスター、Yuxingです
データガバナンス内容
1. モデル:
初期事業の急速な拡大により、メタデータの管理が行き届いていないため、成熟段階で非準拠モデルが多数発生 解決策: データ標準:
メタデータの補完
構築管理:
定期的なスキャン大規模なニーズに対応するモデル レビュー: 不規則なモデルの階層化された参照、モデルのクロスオッズ レイヤーの依存関係、空のテーブル、更新されていないテーブルなど。 Chimney モデルは時間内にオフラインになります。 Chimney テーブルは再利用性を向上させるために、時間内に切り替え/オフラインになります
。コアデータモデルの割合
2. リソース
ストレージ:
ビジネス開発では、オフラインになるのを待っている不要なデータ テーブルや、ライフ サイクル設定が長すぎるデータ テーブルが修正されておらず、長期未使用/参照モデルが大量に存在します。整理されており、ライフサイクルが現在の標準モデル、非パーティション化、空のテーブル、ファイル数、ファイル形式などに準拠していない (データリネージ モデルまたはプラットフォームを通じて抽出される)
方案:
设置合理的表周期
长期未引用、使用表下线
压缩、存储格式优化:ods使用zlib压缩、dwd, 使用parquet+snappy dm准备由parquet+snappy 转为parquet+zstd
定期扫描:空表:表格式、未设置生命周期、未设置分区
切换数据格式
计算:
梳理出数据倾斜,消耗大,运行时间过长,空跑等任务(通过meta模型或平台捞出)
1.根据梳理的存储,下线相对应的计算任务
2.运行时长过长、资源消耗大任务找原因
3.针对任务调度时间规划不合理,导致凌晨时间段资源消耗较高任务,提前/延后任务调度时间,做到资源合理分配利用
4、对于数据价值较低/烟囱开发/无效监控项任务,需要及时下线或将字段迁移至核心表
5、规划核心任务 并分配任务执行优先级 把非核心的任务靠后运行
6、
小文件治理 :spark3、定期扫描、合并
データ ウェアハウスの品質を評価する方法
技術的な観点からは、データ ウェアハウスはコスト、品質、効率要件、およびセキュリティ機能を備えている必要があります。ビジネスの観点からは、データ ウェアハウスはビジネスの構築をサポートし、可能な限り多くのビジネス シナリオをカバーする必要があります。 、データが必要な場合でも時間内に取得でき、ビジネスデータのニーズを満たすことができます
1.数据质量
评估方法:准确性、及时性、一致性、流程完整性
流程:
事前预防:监控。事后复盘:完善dqc规则和告警
2.模型建设
评估方法:规范度、元数据完善度、复用度、稳定性、扩展性、合理性
3.数据安全
评估方法:角色权限是否划分、权限管控、数据表是否分级、对外数据是否脱敏
4.成本、性能
评估方法:无用表、任务是否及时下线、表生命周期是否合理、数据倾斜任务数、运行时长过长任务数、空跑任务、小文件过多数据表、成本管理
5.用户用数体验
6.数据资产覆盖