大数据-------元数据管理

一、什么是元数据


元数据就是描述数据的数据,它为企业的各类数据提供了上下文环境,使企业能够更好地了解、管理和使用数据。

现在数据对于公司的决策十分的重要,随着业务的发展,业务线会慢慢庞大起来,随着开发人员的变更以及增多,没有元数据治理,很难保证数据质量,这时候就需要元数据管理,用来记录公司拥有什么数据,数据在哪里、由谁负责,数据中的值意味着什么,数据的生命周期是什么,哪些数据安全性和隐私性需要保护,以及谁使用了数据,用于什么业务目的,数据的质量怎么样,等等。

在这里插入图片描述 

二、元数据分类


1、技术元数据

技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。对开发人员来说,它有助于明确数据的存储、结构,有助于理清数据关系,能够提升开发效率,还有助于了解到数据的来源和去向进行分析,支持数据血缘追溯和影响分析。

例如:数据字典

(1)基础信息,包括库名称、库类型、表名称、表数量、表注释、表分区字段、表分区数量、字段名称、字段类型、字段长度、字段注释、字段默认值、主键信息、外键信息、索引信息等。

(2)存储信息,本地存储中的文件信息,例如:文件路径、文件数量、文件大小、文件类型,压缩格式等。

(3)调度信息,任务名称、任务类型、任务路径、调度时间、调度SQL、调度逻辑等。

(4)血缘信息,数据加工、流转过程产生的数据与数据之间的关系,包含以下内容: 数据节点、流出节点、中间节点、流入节点、节点属性等。

2、业务元数据

业务元数据描述数据的业务含义、业务规则等。可以为数据应用提供更好的服务。

例如:

(1)业务信息,业务描述、业务部门、业务系统、负责人等。

(2)标准化信息,统一和确定指标名称、指标层级、指标口径、维度信息、计算方式、映射信息、转换规则等。

(3)数据质量信息,主要应用于监控信息,主要有:质量监控名称、监控内容、监控级别、监控规则、告警方式等。

(4)权限信息 ,访问权限、角色权限、用户权限、安全等级等。

(5)服务信息 ,当前数据对外提供服务的方式,主要有:服务方式(接口、报表、sdk等)、服务内容、接口信息、负责人等

三、元数据管理


1、数据源元数据

数据源元数据主要是数据库模型设计文档、为综合统计分析平台提供数据的各种业务系统的数据字典及数据接口文件等。

数据源元数据的管理:由相关人员对各类文档进行统一版本的管理

2、ETL规则元数据

ETL规则元数据中涉及到数据源元数据、目标系统元数据、ETL流程、源与目标的映射关系等元数据信息。

数据源元数据包括业务系统元数据和数据仓库元数据等;目标系统元数据可能是数据仓库元数据、数据集市元数据等。

ETL规则元数据的管理:由数据库开发人员根据各个模块的ETL过程以及过程运行的顺序,形成相关元数据管理文档进行统一管理。

3、数据仓库元数据

制定数据仓库模型设计文档记录事实表、维度、属性、层次等信息,物理表与多维模型的映射关系等信息 ,对文档进行统一版本的管理

4、报表元数据

包括对报表和报表中具体指标(度量)的描述信息等

报表元数据的管理:对数据集上可以计算的度量进行相关元数据的管理,包括详细设计文档中对各个表中度量的定义、描述等;对所有表和度量之间的关系进行严格的文档记录,包括度量的计算、度量之间的相互依赖关系、以及历史信息进行元数据管理

5、接口文件格式元数据

接口数据文件格式,包括接口数据文件的命名、传输周期、格式等说明信息。

接口文件格式元数据:与ETL规则元数据进行统一管理。

6、商业元数据

系统中对各项指标的业务含义的描述性信息,在综合统计分析平台中,包括维、度量的业务含义描述 ,主题的分析目标描述,报表指标的解释信息等。

商业元数据的管理可以分解成数据仓库元数据的管理和报表元数据的管理。

7、其他元数据

数据访问日志、数据装载日志等信息。数据访问日志记录数据库的访问信息,包括对数据库表的操作 、锁、内存使用、I/O使用等信息;数据装载信息记录每个ETL过程的抽取时间、操作人员、起始和截止时间、抽取涉及到的表、操作行数等相关信息

其他元数据的管理:将元数据信息记录到日志,形成元数据文件进行统一管理

四、元数据应用


1、数据地图

整体可以分为三部分,第一部分汇总库、表的数量,自己负责和有权限的表的数量等等。第二部分,展示这个库下所有表的情况。包括表名、数据量、更新时间、最近使用次数等, 第三部分,展示所有表的技术、业务的元数据。包括描述、负责人、大小、分区数、建表和更新时间、最近使用次数、变更记录、使用记录等。

2、血缘分析

通过血缘关系,就能了解到各个表/字段是怎么来的,整个数据的产生的过程和结果的路线就都可以掌握,同时匹配搜索功能可更方便员工的查找。

基于血缘关系可以做很多事情,例如:

1、结合任务完成时间,根据路径,定位性能瓶颈,调节任务时间以便更好的调节性能;

2、设计监控,当表出现变更时,可以通知任务负责人;

3、方便管理表,可以快速找到没有被使用的表; 数据生命周期管理

4、辅助维护字段的一致性,如注释、校验规则复用。
 

猜你喜欢

转载自blog.csdn.net/javastart/article/details/129835312