数据管理之元数据

元数据概述

元数据定义

按照传统的定义,元数据( Metadata )是关于数据的数据。
元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。
将元数据按用途的不同分为两类:
技术元数据( Technical Metadata)和业务元数据( Business Metadata )。
技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。阿里巴巴常见的技术元数据有:
1)分布式计算系统存储元数据
2)分布式计算系统运行元数据
3)数据开发平台中数据同步、计算任务、任务调度等信息
4)数据质量和运维相关元数据,
业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“ 读懂”数据仓库中的数据。
阿里巴巴常见的业务元数据有 :
1)OneData 元数据,如维度及属性、业务过程、指标等的规范化定义,用于更好地管理和使用数据。
2) 数据应用元数据,如数据报表、数据产品等的配置和运行元数据。

元数据价值

元数据有重要的应用价值,是数据管理、数据内容、数据应用的基础,
数据管理方面为集团数据提供在计算、存储、成本、质量、安全、模型等治理领域上的数据支持。例如在计算上可以利用元数据查找超长运行节点,对这些节点进行专项治理,保障基线产出时间。
数据内容方面为集团数据进行数据域、数据主题、业务属性等的提取和分析提供数据素材。例如可以利用元数据构建知识图谱,给数据打标签,清楚地知道现在有哪些数据。
数据应用方面打通产品及应用链路,保障产品数据准确、及时产出。例如打通 MaxCompute 和应用数据,明确数据资产等级,更有效地保障产品数据。

统一元数据体系建设

元数据的质量直接影响到数据管理的准确性,如何把元数据建设好将起到至关重要的作用。元数据建设的目标是打通数据接入到加工 ,再到数据消费整个链路,规范元数据体系与模型,提供统一的元数据服务出口,保障元数据产出的稳定性和质量。
在这里插入图片描述

元数据应用

数据的真正价值在于数据驱动决策,通过数据指导运营。

Data Profile

它的核心思路是为纷繁复杂的数据建立一个脉络清晰的血缘图谱。通过图计算、标签传播算法等技术 ,系统化、自动化地对计算与存储平台上的数据进行打标、整理、归档。形象地说, Data Profile 实际承担的是为元数据“画像”的任务。
在这里插入图片描述

元数据门户

阿里巴巴基于元数据产出的最重要的产品是元数据门户。元数据门户致力 打造一站式 的数据管理平台、高效的一体化数据市场。包括“前台”和 I“后台”,“前台”产品为数据地图,定位消费市场,实现检索数据 、 理解数据等“找数据”需求 E “后台”产品为数据管理,定位于一站式数据管理,实现成本管理、安全管理、质量管理等。

应用链路分析

通过应用链路分析,产出表级血缘、字段血缘和表的应用血缘。其中表级血缘主要有两种计算方式:一种是通过 MaxCompute 任务日志进行解析;一种是根据任务依赖进行解析。
常见的应用链路分析应用主要有影响分析、重要性分析、下线分析、链路分析、寻根溯源、故障排查等。

数据建模

元数据主要有 :
表的基础元数据,包括下游情况、查询次数、关联次数、聚合次数、产出时间等。
表的关联关系元数据,包括关联表、关联类型、关联字段、关联次数等。
表的字段的基础元数据,包括字段名称、字段注释、查询次数、关联次数、聚合次数、过滤次数等。

驱动 ETL 开发

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/xiaoxie920226/article/details/88892282