数据平台建设的痛点,如何进行元数据治理?

 1.什么是元数据

1.1.元数据简介

 元数据Metadata),又称中介数据中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能,被称为数据的数据。

1.2.元数据分类

元数据 内容 内容来源 支撑资产管理
技术元数据 mysql,ES,HIVE,clickhouse等 资产地图
作业 ETL,DATAX,SQL,QUERY
生产元数据 生产 调度系统/Yarn 数据质量、成本治理


业务元数据
数仓分级 建模规范


资产价值,安全治理,规范治理
数据分级 业务
指标关联 指标系统
应用信息 BI看板,数据报表
隐私分级 业务
衍生元数据 存储计量 ClickHouse,ES,HDFS,MQ 成本治理,资产价值
访问计量 SQL-log
血缘元数据 表血缘 Flink,DATAX,ETL, 资产地图,影响分析
字段血缘 SQL-Log,HOOK

2.为什么要做元数据治理

数据规范制定更加标准,数据质量得以提升,数据目录结构更加清晰,数据资产更加清晰,数据成本更加可控!

数据管理的核心是元数据平台的建设,以元数据支撑数据管理上层应用

3.当前元数据治理建设现状

  1. 元数据信息少甚至没有元数据
  2. 没有标准的数据接入规范以及数据开发准则,数据对外开放权限开控制难
  3. 数据质量差,数据异常难以监控
  4. 数据资产不清晰,想要数据的时候不知道有无该数据
  5. 数据成本估算难

元数据平台搭建应该具备的能力

4.元数据应用

4.1.数据地图: 元数据搜索与发现

  • 支持表,字段,描述信息,数仓分层,数据分类,标签,部门等信息搜索
  • 全域元数据的搜索
  • 支持指标维度看板等信息的搜索

解决问题:数据资产管理乱,数据分级不明确,不清楚有哪些数据资产。


技术方案:无难点

4.2.数据血缘

  • 数据全生命周期查看
  • 数据链路异常报警
  • 数据变更通知

解决问题:上下游数据异动探测,数据生命周期管控,全链路异常检测。

技术方案:Altas,SQL解析器。Flink,Hook函数

4.3.成本监控和治理 

数据存储成本仪表盘

  • 不同存储引擎数据存储数据量级
  • 使用虚机资源消耗,如CPU,网络带宽,硬盘等
  • 资源使用趋势,成本预算

解决问题:解决数据资产不清晰.存储成本不可控等问题,让数据资产家底清,底数明

技术方案:数据埋点,对接运维系统资源情况上报。

4.4.数据质量诊断

解决问题:数据成本控制,

 4.5.数据存储成本仪表盘

猜你喜欢

转载自blog.csdn.net/b379685397/article/details/127093533