データガバナンスのコンテンツ

https://space.bilibili.com/405479587 記事の内容の出典はステーションbのアップマスター、Yuxingです

データガバナンス内容
1. モデル:
初期事業の急速な拡大により、メタデータの管理が行き届いていないため、成熟段階で非準拠モデルが多数発生 解決策: データ標準:
メタデータの補完
構築管理:
定期的なスキャン大規模なニーズに対応するモデル レビュー: 不規則なモデルの階層化された参照、モデルのクロスオッズ レイヤーの依存関係、空のテーブル、更新されていないテーブルなど。 Chimney モデルは時間内にオフラインになります。 Chimney テーブルは再利用性を向上させるために、時間内に切り替え/オフラインになります
。コアデータモデルの割合

2. リソース
ストレージ:
ビジネス開発では、オフラインになるのを待っている不要なデータ テーブルや、ライフ サイクル設定が長すぎるデータ テーブルが修正されておらず、長期未使用/参照モデルが大量に存在します。整理されており、ライフサイクルが現在の標準モデル、非パーティション化、空のテーブル、ファイル数、ファイル形式などに準拠していない (データリネージ モデルまたはプラットフォームを通じて抽出される)

	方案:
	   设置合理的表周期
	   长期未引用、使用表下线
	   压缩、存储格式优化:ods使用zlib压缩、dwd, 使用parquet+snappy dm准备由parquet+snappy 转为parquet+zstd
	   定期扫描:空表:表格式、未设置生命周期、未设置分区
	   切换数据格式
	   
 计算:
		梳理出数据倾斜,消耗大,运行时间过长,空跑等任务(通过meta模型或平台捞出)
		1.根据梳理的存储,下线相对应的计算任务
		2.运行时长过长、资源消耗大任务找原因
		3.针对任务调度时间规划不合理,导致凌晨时间段资源消耗较高任务,提前/延后任务调度时间,做到资源合理分配利用
		4、对于数据价值较低/烟囱开发/无效监控项任务,需要及时下线或将字段迁移至核心表
		5、规划核心任务 并分配任务执行优先级 把非核心的任务靠后运行
		6、
		
小文件治理 :spark3、定期扫描、合并

データ ウェアハウスの品質を評価する方法
技術的な観点からは、データ ウェアハウスはコスト、品質、効率要件、およびセキュリティ機能を備えている必要があります。ビジネスの観点からは、データ ウェアハウスはビジネスの構築をサポートし、可能な限り多くのビジネス シナリオをカバーする必要があります。 、データが必要な場合でも時間内に取得でき、ビジネスデータのニーズを満たすことができます

1.数据质量
   评估方法:准确性、及时性、一致性、流程完整性
   流程:
		事前预防:监控。事后复盘:完善dqc规则和告警
2.模型建设
	评估方法:规范度、元数据完善度、复用度、稳定性、扩展性、合理性
3.数据安全
     评估方法:角色权限是否划分、权限管控、数据表是否分级、对外数据是否脱敏
4.成本、性能
      评估方法:无用表、任务是否及时下线、表生命周期是否合理、数据倾斜任务数、运行时长过长任务数、空跑任务、小文件过多数据表、成本管理
5.用户用数体验
6.数据资产覆盖

おすすめ

転載: blog.csdn.net/weixin_43015677/article/details/132211164